게시물 목록

Sunday, July 6, 2025

[presentation material] Statistical physics approaches to deep learning: dynamical and structural perspectives

Recently I joined an interdisciplinary study group called the 'TMI group', which consists of students from various backgrounds including AI, neuroscience, physics, education studies and philosophy. This group is one of the most enthusiastic study groups I have ever attended, providing actually productive discussions and critical issues.


Last week, I hosted a zoom seminar for this group titled 'Statistical-physics approaches to deep learning: dynamical and structural perspectives (DL x SP)'. I aimed to convey that deep learning can be understood as a 'non-linear many-body system with non-deterministic dynamics', therefore being a legitimate topic of SP.


Even within SP, there are many incommensurable views for the analysis of DL. Some are indeed useful but relatively phenomenological, while others fundamentally tackle the structural aspects of DNNs. Recently, I believe 'disorder' is the most central concept of the SP view of DL.


NNs are highly complex, since they are non-linear combinations of functions with vastly different weights. But they are distinguishable from completely random fields since they learn something and form good representations. They are indeed complex, but they are somehow 'structured' and (especially thanks to the fact that they involves super high-dimensional space) the situation is not so bad.


This subtle regime is effectively tackled by theories developed for disordered systems including replica method. These calculations have been successfully connected to actually important concepts in DL community, such as lazy (kernel) learning versus feature learning, flat minima, linear mode connectivity (for example, see B. L. Annesi et al., "Star-shaped space of solutions of the spherical negative perceptron," Physical Review Letters 131 (2023)).


In fact, this perspective traces back to the ancient era of deep learning. Even at the 1980s and 90s, statistical physicists have focused on analyzing the phase behavior during the learning of multi-layer NNs (including quite practical issues such as teacher-student scenario). The Nobel Prize awarded last year to J. J. Hopfield was a controversial topic among physicists. But one lesser-known fact is that when G. Parisi won the prize in 2021, the citation already referred to AI theory—specifically in relation to his theories on glassy disordered systems and its relevance to DL.


Of course, as one of the TMI group members pointed out, to make these more practically applicable, they must be further refined by scholars in statistical learning theory, and should be integrated with the fields of computational theory and optimization. For example, one may see 'dynamical mean-field theory' approaches by T. Suzuki group (U Tokyo) and how they rigorously explain feature learning and in-context learning.


Next month, I will host a focus review session introducing high-dimensional random geometry (which also employs SP methods for disordered systems) in the context of modern deep learning. It begins with a simple and general geometric problem—separating labeled points (or ellipsoids) with a hyperplane—but ultimately explains the surprising success of modern AI, including few-shot learning and in-context learning.


For the former, see B. Sorscher, S. Ganguli and H Sompolinsky, "Neural representation geometry underlies few-shot concept learning," Prog. Natl. Acad. Sci. 119 (2022). For the latter, see A. J. Wakhloo, T. J. Sussman and SueYeon Chung, "Linear classification of neural manifolds with correlated variability," Phys. Rev. Lett. 131 (2023) and A. Kirsanov, C. N. Chou, Kyunghyun Cho and SueYeon Chung, "The geometry of prompting: Unveiling distinct mechanisms of task adaptation in language models," arXiv:2502.08009 (2025).


On a lighter note, in a KIAS lecture series planned to held at early August this year, Prof. SueYeon Chung is invited as a lecturer. I am looking forward the lecture since it is first time for me to attend Prof. Chung's lecture in-person.


See this post at LinkedIn: link
See this post at Facebook (Korean): link

Presentation Material

 

(국문)
몇 달 전 TMI group이라는 다학제적 모임에 조인하게 되었습니다. AI, 신경과학, 물리학, 교육학, 철학 등 여러 지적 배경의 대학원생들이 참여하는데요, 모임장님이 잘 리드하시는 덕분에 모임의 응집력도 꾸준히 유지되고, 다학제적 모임임에도 느슨한 교류를 넘어 상당히 구체적인 이론적 쟁점에 대한 논의들도 오가는 편이라서 많이 배워 가고 있습니다. 분석철학에서의 중국어 방 문제, 기존 언어학에서의 구조의미론과 LLM의 통계적 해법의 화해 가능성, 신경과학의 자유에너지 원리 등에 대해 논문들을 바탕으로 개괄하고 토의하고 있습니다.

지난주 제 발표 순서에서는 '딥러닝에 대한 통계물리적 접근: 동역학적 및 구조적 관점(DL x SP)'라는 제목으로 세미나를 진행했습니다. 딥러닝이란 비선형성을 갖고 확률적인 동역학을 바탕으로 고차원 표현들을 형성하는 다체계이며, 따라서 통계역학의 적법한 주제가 되어왔음을 전달하고자 했습니다.

현대 딥러닝은 굉장히 많은 노하우들이 접목되어 탄생하였고 그만큼 다양한 관점에서 그 원리가 분석될 수 있습니다. 심지어 통계물리학 안에서도 딥러닝을 보는 여러 가지 관점들이 있고, 그들은 서로 다른 층위에 있으므로 단일한 픽쳐로 잘 합쳐지기가 어렵습니다. 그들 중 일부는 물론 쓸모있지만 비교적 현상론적인 반면, 다른 일부는 심층신경망의 구조적 특징을 꽤 근본적으로 건드립니다. 최근에 저는 'disorder'(마치 glassy system 즉 유리와 같은)가 딥러닝에 대한 통계물리적 관점에서 가장 중심적인 개념이라고 생각하고 있습니다.

수많은 서로 다른 가중치들이 비선형적으로 연결된 심층신경망은 지극히 복잡하지만, 그것이 무언가를 학습해서 좋은 표현을 형성하는 한 완전한 무작위 장과는 구분될 수도 있습니다. 복잡하지만, 분명히 어떤 식으로든 구조화되어 있고 (특히 차원이 너무나 높은 덕분에) 생각보다 상황이 좋을 수도 있다는 것입니다.

Replica method를 비롯한 무질서계에 대한 통계역학 이론들을 이러한 미묘하고 중간적인 영역에 적합하게 적용하여, 딥러닝 커뮤니티에서 실질적으로 중요한 여러 개념들, 예컨대 lazy (kernel) learning vs feature learning, flat minima, linear mode connectivity 등과 우아하게 연관지을 수 있습니다 (예시: B. L. Annesi et al., "Star-shaped space of solutions of the spherical negative perceptron," Physical Review Letters 131 (2023)).

사실 이러한 무질서계 관점은 딥러닝 초창기에 그 기원을 찾을 수 있습니다. 8-90년대에 물리학자들은 이미 다층 신경망의 패턴학습과 상전이를 분석하는 연구를 다수 진행했고 이는 때때로 현대 기준으로 보아도 상당히 프랙티컬한 주제(이를테면 전이학습에서의 teacher-student 시나리오)에 대한 관심으로 이어졌습니다.

작년 J. J. Hopfield의 노벨물리학상 수상은 세간에 화제였을뿐 아니라 물리학자들 사이에서 꽤나 논란이었는데요, 사람들이 잘 모르는 사실은 G. Parisi가 2021년에 물리학상을 수상했을 때에도 시상 취지 중 하나에 이미 머신러닝에의 이론적 기여가 명시적으로 포함되어 있었다는 점입니다. 이는 Parisi가 무질서계 해석을 위해 제안한 replica 방법이, 유리를 닮은 계 중에서도 특히 딥러닝을 설명하기에 유용했기 때문입니다.

물론, TMI group의 멤버께서 올바르게 지적했듯이, 이러한 통계역학적 관점이 흥미로운 설명을 넘어 실질적인 쟁점과 새로운 지식을 제공하기 위해서는 statistical learning theory 등을 비롯한 보다 수학에 가까운 분야의 이론가들의 참여를 통해 더욱 rigor를 갖추고, 계산이론 및 최적화 등과 관련지어질 필요도 있겠습니다. 최근에 dynamical mean field theory 쪽이 이러한 방향으로 상당한 진전을 보면서 feature learning, in-context learning 등의 설명에 이르고 있는데 (대표적으로 도쿄대학 Taiji Suzuki 그룹), 여기에 disorder 및 고차원과 같은 딥러닝의 특징이 얼마나 반영될 수 있는지 (혹은 그럴 필요가 없는지)는 저도 더 공부해보아야 할 것 같습니다.

다음달의 focus review에서는, 개괄적이었던 이번 세미나에서 꾸준히 시사되었으나 구체적으로 다뤄지지는 않은 '고차원'의 이점을 소개할 계획입니다. 위에도 썼듯 딥러닝의 성공은 무질서와 고차원 사이의 미묘함에 있다고 보기 때문입니다. 고차원 무작위 기하학을 바탕으로 딥러닝의 성능 척도를 성공적으로 예측하는 통계역학적 이론들을 다루고자 합니다.

이들은 매우 간단하고 일반적인 기하 문제 (색깔이 칠해진 채로 랜덤하게 흩뿌려진 점들 혹은 타원체들을 단 하나의 평면으로 올바르게 분리할 수 있는지 여부, 혹은 그럴 확률)에서 출발하여, few-shot learning, 그리고 prompt를 통한 in-context learning 등 현대 AI의 놀라운 현상들까지 기하적으로 잘 설명해냅니다.

전자에 대한 것은 B. Sorscher, S. Ganguli and H Sompolinsky, "Neural representation geometry underlies few-shot concept learning," Prog. Natl. Acad. Sci. 119 (2022), 후자에 대한 것은 A. J. Wakhloo, T. J. Sussman and SueYeon Chung, "Linear classification of neural manifolds with correlated variability," Phys. Rev. Lett. 131 (2023)A. Kirsanov, C. N. Chou, Kyunghyun Cho and SueYeon Chung, "The geometry of prompting: Unveiling distinct mechanisms of task adaptation in language models," arXiv:2502.08009 (2025) 등이 그 예시가 되겠습니다.

여담이지만 8월 초에 저도 참석하기로 한 고등과학원 lecture series에 정수연 교수님께서 강연자로 오시게 되었는데, 직접 말씀 들어 보는 것은 처음이라 매우 기대가 됩니다.

- 끝 -

No comments:

Post a Comment