게시물 목록

Sunday, September 24, 2023

Review on "A statsitical mechanics framework for Bayesian deep neural networks beyond the infinite-width limit"

옆 연구실에서 주도하시고 우리도 참여하는 이론기계학습 공부 모임에서, 이번에 나는 폴란드 출장에서 돌아온 직후인 10월 초에 발표를 하게 되었다. 이번에 소개할 논문은 NNGP (neural network as Gaussian process), NTK (neural tangent kernel) 류의 접근이 finite width라는 보다 현실적인 상황에서 어떻게 수정되는지를 이론적으로 살펴본 논문이다 (S. Ariosto et al., arXiv:2209.04882).


방법론으로서 통계역학이라는 것은 결국 엄청 커다란 state space에서 확률분포함수를 끼고 적분하는 것을 N이 무한대로 가는 극한에서 편리하게 계산하는 여러 테크닉들이라고 볼 수 있다. 이 논문에서도 overparametrized NN을 이론적으로 분석할때 나오는 커다란 적분들을 통계역학적으로 처리한다.

아직 끝까지 읽지는 못했는데, 데이터셋의 크기 P가 input dimension N0보다 크고 그 ratio가 상수로 유지되되 (overparametrized), 각각이 무한대로 가는 나름대로 현실적인 regime을 다룬다. 이는 NTK regime에 비해 발전된 것이다. 여기서 통계역학을 적용해서 적분을 잘 계산한 다음에, Breuer-Major theorem이라고 하는 비선형 함수들의 합에 대한 일종의 일반화된 중심극한정리를 통해 몇 가지 흥미로운 결론을 얻는다.

특히 hidden layer가 1개인 뉴럴넷에 대해서는 분배함수가 exact form으로 계산되어 풍부한 이론적 분석을 해 볼 수가 있으며, 또한 finite-width에서는 NN이 Gaussian process 대신 student-t process에 해당한다는 꽤 그럴듯한 논의를 한다.

사실 이 논문을 요새 스터디를 함께하는 옆 연구실 선생님의 소개로 알고 나서, 도쿄에 학회 갔을 때 이 저자 중 한 명의 포스터발표를 직접 들었다. 네이쳐 계열 저널 중에도 머신러닝 관련 저널이 있는데 거기에 낼 예정이라고 했던 것 같다.

(+추가: 네이쳐 계열의 머신러닝 관련 저널인 Nature Machine Intelligence에 2023년 말에 출판되었다. 이에 따라 본 포스트의 제목도 출판된 해당 버전의 논문 제목으로 변경하였다.

Nature Machine Intelligence 저널에서 논문 보기: 링크)


Saturday, September 16, 2023

230915 NEST meeting 발표 후기 (Review on “Thermodynamic constraints on the power spectral density in and out of equilibrium”)

NEST meeting은 고등과학원 통계물리분과 교수님들 앞에서 학생들이 재밌게 읽은 논문을 ppt로 만들어서 소개하고 디스커션 하는 모임이다. Informal atmosphere의 모임이라고 하지만 ppt에 있는 계산 과정이 납득이 될 때까지 한줄 한줄 함께 봐주시기 때문에, 모임 준비의 주관적인 존재감은 꽤 큰 편이고 많은 공부가 된다.

이번에 내가 소개한 논문(링크: arXiv:2306.00417.)은 일본 교토대의 Andreas Dechant가 이번에 올린 아카이브 프리프린트인데, 확률적 물리계에서 Power Spectral Density (스펙트럼, 쉽게 말해 주파수별 신호의 세기) 의 모양이 열역학적 원리에 의해 제약이 된다는 꽤 멋있는 논문이다 (슬라이드 첨부, 하단에 내용 요약).


시스템의 PSD를 보는 것, 즉 무작위 시스템을 주파수 영역에서 분석하는 것은 시스템의 특성 이해에 매우 유용하므로 통신, 소자 및 여러 물리분야에서 표준적으로 쓰인다. 우리 비평형 통계물리 분야에서도 20세기 초중반에 확립된 linear response theory에서 이러한 접근이 많이 발달했다. 특히 fluctuation-dissipation relation은 계가 평형에 있을 경우, 계에 가해지는 요동의 PSD와, 계가 외란에 응답하는 방식이 주파수 영역에서 특정한 함수관계를 만족해야만 한다는 것을 알려주어 이론과 실험 양쪽에서 무척 유용하다.

그러나 참 이상하게도, 20세기 최후반에 등장하여 현재까지 활발히 연구되는 새로운 도구인 '확률열역학'(stochastic thermodynamics) 에서는 2005년의 Harada-Sasa relation 정도를 제외하고는 주파수 영역에서의 접근이 영 드물었다.

확률열역학에서는 주로 평형으로부터 미소하게 멀지 (linear response regime) 않고, 임의의 큰 정도만큼 멀리 떨어진 (far from equilibrium) 계를 다루며, 이때 비평형의 정도를 정량화하는 방법은 결국 비가역성의 척도인 '엔트로피 생성량'이다. 비평형에서만 가능한 여러 에너지 및 물질의 흐름들과 이례적 응답 방식들이 있는데, 이들이 선명하게 나타나려면 그에 상응하는 충분히 큰 엔트로피 생성량이 필요하다. 이를 명시적으로 밝힌 TUR, speed limit, EB 등의 부등식들이 지난 10년에 가까운 시간 동안 여럿 등장했다. 주파수 영역에서도, 이처럼 엔트로피 생성량에 의해 PSD의 모양이 제약되는 현상이 있다면 좋을 것이다.

이 논문에서는 PSD의 꽤 복잡한 표현식과 그것에 대한 더욱 복잡한 변분 표현 (variational expression)을 바탕으로, 임의의 확률적 계에서 PSD의 그래프가 가질 수 있는 상한선과 하한선을 제시한다.

과정의 세부는 매우 복잡하지만, 기본 아이디어를 기억하면 좋은 가이드라인이 된다: PSD의 푸리에 역변환인 autocorrelation function은 계가 시간에 따라 relax되는 (혹은 비평형의 경우 진동하는) 구조를 알려준다. 가만히 있는 것 같은 시스템도 시간에 따른 변화를 겪고 있으며, 그러한 동역학적 구조를 보기에 가장 좋은 방식은 바로 조건부확률이다.

이러한 조건부확률의 푸리에 변환을 바탕으로 PSD가 상당히 우아한 quadratic form 형태로 써지는데, 이에 대한 또다른 ㅡvariational한ㅡ 표현을 억지로 찾은 뒤에, 그 표현상에서 영리하게 '덜 optimize' 함으로써 PSD의 상한과 하한을 얻게 된다. 슬라이드에서 볼 수 있듯이 상한과 하한 모두 굉장히 스펙트럼스러운(?), 1/(a^2 + w^2) 형태를 가지므로, PSD의 asymptotics를 얘기하기에 아주 좋은 구조이다.

여기에 등장하는 상수들에도 물리적 의미를 부여해볼수 있는데, 1/lambda*의 경우, 주어진 시스템에 대응되는 평형 시스템에서의 가장 느린 relaxation time scale에 해당한다. 즉 주어진 시스템으로부터 만들어낼 수 있는 가장 느린, '가장 평형스러운(?)' 시간스케일이라고 할수 있다. 반대로 C_diss의 경우에는 엔트로피 생성의 총량과 직접 관련이 되어, 가장 '비평형스러운' 값이라고 할 수 있다. 이 두 가지 값이 절묘하게 조합되어 PSD의 asymptotics를 이루게 된다.


Facebook에서 이 글 보기: 링크