웹 검색을 하다가 올해 초에 나온듯한 아주 좋은 책을 찾았다. (Huang, Haiping. "Statistical Mechanics of Neural Networks." (2022). Springer 링크)
물리학, 특히 통계물리학으로 머신러닝의 작동원리를 모형화하고 설명화하려는 시도는 상당히 활발하게 이뤄지고 있다. 머신을 glassy한 스핀 시스템처럼 보고 원하는 분포를 만들어갈때 무슨일이 벌어지는지 보는 관점, 알갱이 계의 jamming에 대응시키는 관점(이건 아직 잘 이해하지 못했다), 신경망의 한 층에서 다른 층으로 정보가 전파되는 것을 되틀맞춤무리(renormalization group) 변환으로 보고 상전이를 identify하는 관점 등이 있다. 점점 많이 보이는 NNGP, infinitely wide neural network, neural tangent kernel 등도 한국인 물리학자 이재훈 박사님이 초기에 깊게 기여한 연구 흐름으로 알고있다.
이런 일련의 흐름은 재작년에 나온 종설논문(Bahri, Yasaman, et al. "Statistical mechanics of deep learning." Annual Review of Condensed Matter Physics 11 (2020): 501-528. 링크)에 어느정도 잘 정리되어 있다. 일부 possible misconception과 달리, 이들 대부분 그저 '느슨한 비유'를 넘어서 통계물리라는 제너럴한 프레임워크를 머신러닝 시스템에 '실제로 정확히' 적용하는 것에 가깝다고 나는 생각하고 있다.
나는 머신러닝을 직접 연구하지는 않고 보다 전통적인 물리학적 대상들을 공부하고 있지만, 이런 분야들에도 늘 관심 갖고 팔로업은 하는 중이다. 특히 이들 중 SGD를 비롯한 딥러닝의 최적화 과정을, 손실함수 지형 위에서의 Brownian motion 비슷한 걸로 보는 관점에 제일 흥미가 있다. SGD가 단순히 계산량을 tractable하게 하기 위해 아쉬운 대로 minibatch를 쓰는것이 아니라, 도달하는 minima 자체가 full batch GD에 비해 '오히려 좋아'서 오버피팅이 방지되고 잘 작동한다는 걸 여러 연구들이 시사하는데, 그 이유를 통계물리학의 랑주뱅 방정식 등을 도구 삼아서 분석하는 것이다.
내 메인 연구주제가 현상론과 반대를 지향한다고 할수 있는 원리적인(?) 열역학 인것과 달리, 머신러닝에서의 이러한 관심사는 다소 현상론적이라고 하겠다. 나는 2021년 노벨상을 받은 스핀글래스 등 응집물질들에 잘 적용되는 전통적(?) 통계물리보다는, 주로 90년대 이후에 발전된 stochastic thermodynamics를 도구 삼아서 연구하고 있다. 이런 방법론적 흥미 및 익숙함 때문에 머신러닝에서도 그러한 접근들에 관심이 가는 것일지도 모른다.
그런데 서두에 소개한 이 책은 그런 게 아니라 굉장히 근본적인 쪽, 즉 맨 앞쪽 문단에서 첫 번째로 말한 관점 쪽을 매우 잘 써두었다. 통계물리 방법론 중에서도 깊고 어려운 쪽에 속하다보니, 학습이란게 대체 무엇인지에 대한 시야도 열역학적 해석을 통해 상당히 깊게 가지고 가는 듯하다. 우리 연구실 박사수료생 선배 중에도 이런 걸 하시는 분이 있는데, 이만큼 잘 정리돼 있는 책이 전세계에 아예 없는것같고 목차를 읽는것만으로도 많은 공부가 된다고 하신다. 두고두고 읽을만한 텍스트북이라 하드커버 physical book을 사봐도 괜찮겠다 싶음. 다만 스핀글래스 중심이라 상당히 난이도가 높을것 같기는 하다.
여담이지만 늘 관심있게 팔로우업 하고있는 스탠포드/구글브레인 그룹 (S Ganguli, J Sohl-Dickstein(이분은 diffusion model의 시초가 된 2015년 논문의 저자이기도 하다), S S Schoenholz 등) 에서도 연구 내용들을 이렇게 책으로 정리해서 내주었으면 좋겠다는 바람도 든다. 내 직감이지만 디퓨전모델이 점점 유명해지는것과 겹쳐서 머신러닝 하는 분들이 (꼭 원리 그자체가 physics-inspired인 디퓨전모델이 아니더라도) 이런 통계물리적 접근에 점점 더 관심을 갖게 되고, 유능한 학생들이 계속 투입되는 만큼 무척 잘하게 되지 싶다. 그 웨이브를 타려면 미리 각종 세미나 및 스쿨 같은 데도 참가하고 블로그 같은데에도 써두고 실질적인 연구협업에도 ASAP involve되어 볼 필요가 있겠다.
Facebook에서 이 글 보기: 링크
No comments:
Post a Comment