옆 연구실에서 주도하시고 우리도 참여하는 이론기계학습 공부 모임에서, 이번에 나는 폴란드 출장에서 돌아온 직후인 10월 초에 발표를 하게 되었다. 이번에 소개할 논문은 NNGP (neural network as Gaussian process), NTK (neural tangent kernel) 류의 접근이 finite width라는 보다 현실적인 상황에서 어떻게 수정되는지를 이론적으로 살펴본 논문이다 (S. Ariosto et al., arXiv:2209.04882).
방법론으로서 통계역학이라는 것은 결국 엄청 커다란 state space에서 확률분포함수를 끼고 적분하는 것을 N이 무한대로 가는 극한에서 편리하게 계산하는 여러 테크닉들이라고 볼 수 있다. 이 논문에서도 overparametrized NN을 이론적으로 분석할때 나오는 커다란 적분들을 통계역학적으로 처리한다.
아직 끝까지 읽지는 못했는데, 데이터셋의 크기 P가 input dimension N0보다 크고 그 ratio가 상수로 유지되되 (overparametrized), 각각이 무한대로 가는 나름대로 현실적인 regime을 다룬다. 이는 NTK regime에 비해 발전된 것이다. 여기서 통계역학을 적용해서 적분을 잘 계산한 다음에, Breuer-Major theorem이라고 하는 비선형 함수들의 합에 대한 일종의 일반화된 중심극한정리를 통해 몇 가지 흥미로운 결론을 얻는다.
특히 hidden layer가 1개인 뉴럴넷에 대해서는 분배함수가 exact form으로 계산되어 풍부한 이론적 분석을 해 볼 수가 있으며, 또한 finite-width에서는 NN이 Gaussian process 대신 student-t process에 해당한다는 꽤 그럴듯한 논의를 한다.
사실 이 논문을 요새 스터디를 함께하는 옆 연구실 선생님의 소개로 알고 나서, 도쿄에 학회 갔을 때 이 저자 중 한 명의 포스터발표를 직접 들었다. 네이쳐 계열 저널 중에도 머신러닝 관련 저널이 있는데 거기에 낼 예정이라고 했던 것 같다.
(+추가: 네이쳐 계열의 머신러닝 관련 저널인 Nature Machine Intelligence에 2023년 말에 출판되었다. 이에 따라 본 포스트의 제목도 출판된 해당 버전의 논문 제목으로 변경하였다.
Nature Machine Intelligence 저널에서 논문 보기: 링크)