Labels
- active matter
- analog computing
- codes
- complex networks
- graph theory
- information geometry
- information theory
- linear algebra
- machine learning
- my research life
- non-equilibrium statistical physics
- nonlinear dynamics
- optimal transport
- physics_general
- probability
- Science of semantics
- soft matter
- statistical physics
게시물 목록
Wednesday, December 13, 2023
다원예술 프로젝트 <다이빙 미러> 쇼케이스 '비전이 공간이 될 때' 후기 및 발제문
Tuesday, December 5, 2023
다원예술 프로젝트 <다이빙 미러> 쇼케이스 '비전이 공간이 될 때' 홍보
2023년 다원예술창작지원사업 <다이빙 미러> 프로젝트에서 이번주 일요일에 쇼케이스를 합니다.
<다이빙 미러>는 영상매체 작업에 컴퓨터비전 기법을 도입한 다원예술 프로젝트로 저는 지난 10월 초부터 참여하였는데, 주말을 활용하여 2회의 디스커션, 그리고 1회의 내부 상영회(사전미팅)을 거쳐 '기술 미학'이라는 키워드로 쇼케이스에 참여하게 되었습니다.
저는 여기에 늦게 합류한 관계로 준비 기간이 짧기도 했거니와 AI 현업에도, 미학분야에도 내세울만한 전문성은 없다보니 훌륭한 분들 사이에 참여해도 될지 걱정을 많이 했는데, AI에 대한 약간의 수학적/물리학적 이해와 더불어, AI가 개입되는 새로운 예술형식에서 발생하는 매체미학적 쟁점에 대한 제 나름대로의 견해를 재미있게 봐 주셔서 그런 내용들에 대해 짧은 발표를 해 보고자 합니다.
행사에 대한 자세한 안내는 네오룩neolook에 업로드되어 있습니다 (클릭하여 네오룩neolook 링크 보기).
_______
Sunday, November 19, 2023
아시아태평양이론물리센터(APCTP) 본부 방문 소감
APCTP(아시아태평양이론물리센터)의 지원으로 하는 한국물리학회 통계물리분과 학술행사들은 여러 가지가 있지만, 이번 행사(140차 통계물리 월례회, 링크)는 다른 곳이 아니라 POSTECH 무은재기념관에 있는 APCTP HQ에서 열렸다. 포항공대는 두세번 와봤지만 APCTP에 직접 들어와 보는 것은 처음이었다.
전반적인 인상이 어땠냐면, 일단 적어도 HQ가 위치한 층은 시설을 상당히 잘 해 놓았으면서도, 여기가 바로 이론과학을 하는 곳이구나 하는 느낌이 확 든다 (고등과학원 갈때도 비슷하게 느낀다). 그리고 전시물이나 홍보물들도 워낙 잘 되어 있어서 이론물리를 상당히 대접해준다는 느낌이 들었다.
이게 포스텍 물리학과에서 그냥 만든 연구센터가 아니라, 실질적인 국제 기구로서 기능을 하게끔 국제 물리학계로부터 '유치'를 한 것이다 보니 더 여건이 좋은 점도 있는 듯하다.
약간 서울대 국제백신연구소랑 비슷하게, APCTP 유치 자체가 한국 과학계 국제협력사업의 쾌거였다고 알고 있다. 무려 Yang-Mills 이론의 양전닝이 초대 소장이었다고 한다.
아무튼 계속 지내면 어떨지 모르겠지만 방문객 입장에서는 인상이 굉장히 좋았고, APCTP HQ뿐만 아니라 포스텍의 다른 건물들도 신축의 경우 시설이 꽤 좋다. 특히 무은재기념관 바로 근처에 있는 건물은 내부가 무슨 국립미술관 내지는 코엑스처럼 생겨서 잘 되어 있고, 심지어 1층에는 테라로사가 입점해 있다. 포스텍 출신 지인들에게 물어보니, 우리 나이대가 졸업할 때쯤에 새로운 좋은 시설들이 많이 들어왔다고 한다.
이번 월례회는 개인 일정상 서울에 일찍 돌아와야 해서 이틀 일정 중 앞쪽 하루밖에 못 들었는데, 첫번째 톡은 내 분야와 굉장히 관련이 깊은, 미시적인 엔진들의 열역학에 대한 소개였다. 두번째 톡은 국형태 교수님의 은퇴기념 강연이었는데, 사실 나는 처음 알게 된 분이었지만, 최근에만 분과 행사에 잘 안 나오셨던 거고, 통계물리 및 동역학계(dynamical systems) 분야를 오랫동안 연구해 오신 분이었다.
동역학계를 연구해오신 교수님의 연구 여정에 관한 얘기도 재미있었지만 마지막에 과학문화 및 과학글쓰기 관련 말씀도 인상깊었다. 과학자들이 글을 투고할 수 있는 웹진인 APCTP의 <크로스로드>, 한국물리학회의 <물리학과 첨단기술> 의 편집위원 일을 오래 하셨고, 지금은 다름아니라 고등과학원 웹진 <Horizon>의 편집장이시라고 한다.
나도 과학 관련 글쓰기에 관심이 있는 입장에서, 그런 매체들은 어떻게 돌아가고 누가 담당해서 해 주시는 걸까 늘 궁금했었는데, 그리고 마침 전날에 대구에서 뵌 지인과도 과학글쓰기와 관련된 이야기를 나누었고 조언을 들었었는데, 의외의 곳에서 배경과 현황에 대해 들을 수 있어서 신기했다.
Facebook에서 이 글 보기: 링크
Sunday, November 12, 2023
깁스 역설: 개수를 세서 물리학을 하기, 그리고 측정의 형식에 알맞게 생각하기
고등학교 때 했던 생각인데, '사과의 개수를 세는 것'을 흔히 수학 교과서에 나오는 수학의 클리셰적인 예제로 생각한다. 하지만 내 생각에 그건 굳이 따지면 자연수라는 형식체계를, 이산화하기 쉬워서 자연수로 잘 기술되는 사과라는 현실세계의 대상에 적용했다는 점에서 엄연히 가장 원초적인 '물리학'에 해당하는 것 같다.
물론 수학교육에서 현실 예시를 들어가면서 하는게 학습에 중요하다거나 하는 게 있을 테니... 사과의 개수 세기를 진짜로 과학교과서로 옮겨야 된다는 건 아니고, 그냥 내 머리속의 농담 같은 관념적 재분류일 뿐이다.
그런데 사실 내 전공분야인 통계물리학 또한 결국에는 개수를 세는 것이다. 시스템의 디테일에 크게 상관없이 개수만 잘 세어도 꽤 많은 물리적 성질들을 얻을 수 있다는 메시지가 있다.
물리학이라고 하면 뭔가 시공간 위에서 연속적인 것을 다루기 위해 미적분을 열심히 해야 할 것 같은데, 개수 세는 것만으로 물리를 할 수 있다니 이상하게 느껴질 수 있으나, 사실 그 spirit은 사과의 개수를 세는 원초적인 물리학에서부터 예고되고 있는 것이다. 물론 통계물리학에서는 대상의 개수를 세는 게 아니라 그 대상들의 배열이 이루는 state의 개수를 세는 것이므로 조금 더 추상적이기는 하다.
이게 공연히 오랜만에 다시 생각난 이유는, 요새 지인에게 Gibbs paradox를 공부해서 소소하게 가르칠 일이 있어서, 개수를 세는 것에 대해 계속 고민하다 보니까 그랬던 것이다.
Gibbs paradox는 입자들이 이루는 상태의 개수를 셀 때 입자 종류의 구분불가능성 (쉽게 말해 순열permutation을 조합combination으로 바꿔주는) 을 정당화하는 근거가 무엇인지에 대한 질문이다. 두 종류의 기체가 서로 분리되어 있다가 섞일 때 엔트로피가 증가하는지 여부와 관련된 paradox of mixing과도 궁극적으로 동일한 문제인데, 생각할수록 이상한 점들이 많아서 결코 간단한 문제가 아니고 굉장히 흥미롭다.
이에 대해 내가 통계역학을 여러 해에 걸쳐 접하면서 나름대로 고민해서 가지게 된 결론의 얼개가, Jaynes라는 물리학/통계학/정보이론 쪽에서 유명한 분의 견해와 거의 같다는 걸 이번에 알게 되어서 꽤나 뿌듯하기도 했다.
Tuesday, October 31, 2023
[도서 소개] 과학의 과학(Science of science) - 다슌 왕, 앨버트 라즐로 바라바시
우리 비평형 통계물리 분야의 옆집인 복잡계 물리학 분야에서 이번에 교양서 번역이 새로 나왔다고 해서 공유해 봅니다.
과학의 과학(Science of science), 다슌 왕, 앨버트 라즐로 바라바시 지음, 이은, 노다해 옮김, 도서출판 이김(2023).
도서 링크 (교보문고): https://product.kyobobook.co.kr/detail/S000210778375
<과학의 과학(Science of science)>은 이 책의 제목이면서, 저자인 Dashun Wang이 연구하는 '분야'의 이름이기도 합니다.
과학 활동이 어떻게 이루어지는지를 연구 대상으로 삼는다는 점에서는 광의의 메타과학 내지는 과학학으로서 과학인문학(과학철학, 과학사, 과학사회학)과 공통점이 많이 있으나, 과학 활동을 분석하기 위해서 인문사회학이 아니라 네트워크 과학을 필두로 한 복잡계 과학 및 데이터 사이언스를 주로 사용한다는 점에서는 과학인문학과도 방법론적으로 구분이 되는 것 같습니다.
h-index 등을 비롯한 과학 연구 실적지표를 제안하고 개발하는 '과학계량학(scientometrics)'과는 어떤 관계일지 궁금하기도 합니다.
Sunday, September 24, 2023
Review on "A statsitical mechanics framework for Bayesian deep neural networks beyond the infinite-width limit"
옆 연구실에서 주도하시고 우리도 참여하는 이론기계학습 공부 모임에서, 이번에 나는 폴란드 출장에서 돌아온 직후인 10월 초에 발표를 하게 되었다. 이번에 소개할 논문은 NNGP (neural network as Gaussian process), NTK (neural tangent kernel) 류의 접근이 finite width라는 보다 현실적인 상황에서 어떻게 수정되는지를 이론적으로 살펴본 논문이다 (S. Ariosto et al., arXiv:2209.04882).
방법론으로서 통계역학이라는 것은 결국 엄청 커다란 state space에서 확률분포함수를 끼고 적분하는 것을 N이 무한대로 가는 극한에서 편리하게 계산하는 여러 테크닉들이라고 볼 수 있다. 이 논문에서도 overparametrized NN을 이론적으로 분석할때 나오는 커다란 적분들을 통계역학적으로 처리한다.
아직 끝까지 읽지는 못했는데, 데이터셋의 크기 P가 input dimension N0보다 크고 그 ratio가 상수로 유지되되 (overparametrized), 각각이 무한대로 가는 나름대로 현실적인 regime을 다룬다. 이는 NTK regime에 비해 발전된 것이다. 여기서 통계역학을 적용해서 적분을 잘 계산한 다음에, Breuer-Major theorem이라고 하는 비선형 함수들의 합에 대한 일종의 일반화된 중심극한정리를 통해 몇 가지 흥미로운 결론을 얻는다.
특히 hidden layer가 1개인 뉴럴넷에 대해서는 분배함수가 exact form으로 계산되어 풍부한 이론적 분석을 해 볼 수가 있으며, 또한 finite-width에서는 NN이 Gaussian process 대신 student-t process에 해당한다는 꽤 그럴듯한 논의를 한다.
사실 이 논문을 요새 스터디를 함께하는 옆 연구실 선생님의 소개로 알고 나서, 도쿄에 학회 갔을 때 이 저자 중 한 명의 포스터발표를 직접 들었다. 네이쳐 계열 저널 중에도 머신러닝 관련 저널이 있는데 거기에 낼 예정이라고 했던 것 같다.
(+추가: 네이쳐 계열의 머신러닝 관련 저널인 Nature Machine Intelligence에 2023년 말에 출판되었다. 이에 따라 본 포스트의 제목도 출판된 해당 버전의 논문 제목으로 변경하였다.
Nature Machine Intelligence 저널에서 논문 보기: 링크)
Saturday, September 16, 2023
230915 NEST meeting 발표 후기 (Review on “Thermodynamic constraints on the power spectral density in and out of equilibrium”)
NEST meeting은 고등과학원 통계물리분과 교수님들 앞에서 학생들이 재밌게 읽은 논문을 ppt로 만들어서 소개하고 디스커션 하는 모임이다. Informal atmosphere의 모임이라고 하지만 ppt에 있는 계산 과정이 납득이 될 때까지 한줄 한줄 함께 봐주시기 때문에, 모임 준비의 주관적인 존재감은 꽤 큰 편이고 많은 공부가 된다.
이번에 내가 소개한 논문(링크: arXiv:2306.00417.)은 일본 교토대의 Andreas Dechant가 이번에 올린 아카이브 프리프린트인데, 확률적 물리계에서 Power Spectral Density (스펙트럼, 쉽게 말해 주파수별 신호의 세기) 의 모양이 열역학적 원리에 의해 제약이 된다는 꽤 멋있는 논문이다 (슬라이드 첨부, 하단에 내용 요약).
시스템의 PSD를 보는 것, 즉 무작위 시스템을 주파수 영역에서 분석하는 것은 시스템의 특성 이해에 매우 유용하므로 통신, 소자 및 여러 물리분야에서 표준적으로 쓰인다. 우리 비평형 통계물리 분야에서도 20세기 초중반에 확립된 linear response theory에서 이러한 접근이 많이 발달했다. 특히 fluctuation-dissipation relation은 계가 평형에 있을 경우, 계에 가해지는 요동의 PSD와, 계가 외란에 응답하는 방식이 주파수 영역에서 특정한 함수관계를 만족해야만 한다는 것을 알려주어 이론과 실험 양쪽에서 무척 유용하다.
그러나 참 이상하게도, 20세기 최후반에 등장하여 현재까지 활발히 연구되는 새로운 도구인 '확률열역학'(stochastic thermodynamics) 에서는 2005년의 Harada-Sasa relation 정도를 제외하고는 주파수 영역에서의 접근이 영 드물었다.
확률열역학에서는 주로 평형으로부터 미소하게 멀지 (linear response regime) 않고, 임의의 큰 정도만큼 멀리 떨어진 (far from equilibrium) 계를 다루며, 이때 비평형의 정도를 정량화하는 방법은 결국 비가역성의 척도인 '엔트로피 생성량'이다. 비평형에서만 가능한 여러 에너지 및 물질의 흐름들과 이례적 응답 방식들이 있는데, 이들이 선명하게 나타나려면 그에 상응하는 충분히 큰 엔트로피 생성량이 필요하다. 이를 명시적으로 밝힌 TUR, speed limit, EB 등의 부등식들이 지난 10년에 가까운 시간 동안 여럿 등장했다. 주파수 영역에서도, 이처럼 엔트로피 생성량에 의해 PSD의 모양이 제약되는 현상이 있다면 좋을 것이다.
이 논문에서는 PSD의 꽤 복잡한 표현식과 그것에 대한 더욱 복잡한 변분 표현 (variational expression)을 바탕으로, 임의의 확률적 계에서 PSD의 그래프가 가질 수 있는 상한선과 하한선을 제시한다.
Monday, August 28, 2023
양자장론 스터디 계획: 대칭성과 물리법칙, 장론적 기술방법
이론물리학의 변방에 있는 비평형 통계물리를 전공하면서, 내 세부전공 외의 이론물리를 잘 모르는 게 늘 컴플렉스였다. 정작 수업 들을 때는 잘 못 따라갔으면서 최근에 늦바람(?)이 든 덕분에, 양자장론의 이론적 구조를 늦게나마 취미삼아 살펴보기로 했고 그 예비로서 고전장론을 대강 보고 있다.
구체적인 모티베이션 없이 막연한 흥미로 공부할 때보다, 그 동안 물리덕질을 하면서 내 나름대로 가지게 된 물리학에 대한 전체상, 그리고 여러 수업에서 파편적으로 배운 개별 사실들을 바탕으로 해서 '꼭 알고 싶었던 질문거리'들을 몇 가지 정해두고 그것들을 중심으로 진행하니까 훨씬 빠르고 수월한 듯하다. 그 중심 질문거리들은 주로 대칭성이 물리법칙을 제약한다는 것이 무슨 의미인지와 관련되어 있다.
먼저 장론의 라그랑지안 역학체계로의 기술방법에 익숙해지기 위한 가장 쉬운 방법으로서, 고전적인 장의 대표 예시로서 진동하는 1차원 끈의 역학에 대한 연속체 라그랑주 역학을 살펴보고 국소적 보존법칙들을 얻는다. 그 다음에 라그랑지안 기술방법에서 장 자체의 변환(게이지 변환 등)과 좌표 변환을 모두 커버할 수 있는 뇌터 원리를 바탕으로, 위의 보존법칙들을 연속변환에 대한 대칭성과 일반적으로 관련지어 다시 수립한다.
고전장론에서 살펴본 두번째 주제는 전자기학을 새로운 관점에서 이해하는 것이다. 먼저 기존에 전자기학에서 학습한 elementary한 표기 방법에서도 로렌츠 게이지를 택하면 SR compatibility가 이미 시사되고 있음을 알 수 있다. 맥스웰 방정식, 전하량 보존을 나타내는 연속방정식 등이 민코프스키 계량을 끼고 있는 4-벡터 표기법에서 시간과 공간이 동등하게 보이는 매우 간결한 형태로 Lorentz covariant하게 표현된다. 알려진 전자기학 법칙들에서 시간과 공간이 함께 등장하는 물리현상들은 뉴턴의 고전역학처럼 굳이 특수상대론을 따로 도입해서 수정되는 것이 아니라, 이미 특수상대론에 부합하는 구조를 가지고 있던 것이다.
Friday, August 4, 2023
[논문 소개] Effects of the self-propulsion parity on the efficiency of fuel-consuming active heat engine
제 첫번째 1저자 논문(연료를 소모하는 능동열기관의 효율에서 자체추진력의 부호성질의 효과)이 Physical Review E에 출판되었습니다. (English description: below)
Bibliography: Yongjae Oh and Yongjoo Baek, "Effects of the self-propulsion parity on the efficiency of fuel-consuming active heat engine," Physical Review E 108, 024602 (2023).
arXiv preprint link: https://lnkd.in/gzyEKueJ
Saturday, July 15, 2023
혼돈의 가장자리에서의 계산, 언어의 멱법칙 그리고 어텐션 메커니즘
옛날에 물리학자들이 computation in edge of chaos (혼돈의 가장자리에서의 계산) 이라고 해서, 창발적인 정보처리 시스템 (말하자면 일종의 아날로그 계산기)가 바로 임계점 (criticality), 즉 혼돈과 질서의 경계 근처에서 작동을 잘 한다는 연구를 많이 했었다. 주로 세포 자동자(cellular automata)를 바탕으로 한 연구들인데, 이런 개념이 90년대 당시의 신경망 연구에도 나름 적용이 시도되었던 것으로 안다.
딥러닝 붐 이후의 deep information propagation이라는 일련의 연구 흐름에서도 꽤 비슷한 메시지가 있다. 정보가 뉴럴넷의 layer를 따라서 충분히 깊게까지 전파되려면 뉴럴넷의 파라미터들이 임계점 근처로 초기화되어 있어야 한다. 그런데 untrained 뉴럴넷에서의 정보 전파의 평균 깊이는, 다름아니라 훈련 가능성 (trainability) 과 dual 관계임이 알려져 있다. 따라서 뉴럴넷이 학습이 잘 되기 위해서는 임계점 근처에서 초기화 되어야 한다는 것이다.
그런데 현실의 딥러닝에서는 이런 이상적인 뉴럴넷이 아니라 복잡한 기법이 덕지덕지 붙어 있는 아키텍쳐를 사용하는데, 과연 이러한 empirical한 상황들에서도 위와 같은 얘기가 의미가 있을까? 현재까지 생각하기로는, 정답은 '있다'인 것 같다. 대표적으로, 유명한 ResNet 모델처럼 skip connection을 주면, gradient가 exponentially explode하지 않고 따라서 뉴럴넷이 edge of chaos에 더욱 효과적으로 머무른다(hover)는 연구가 있다.
이외에도, 모델이 vanilla하고 단순할수록 임계점에서 쉽게 멀어져 버리고, 복잡한 기법들이 덕지덕지 더해졌을때 오히려 임계점 근처에 잘 머무를 수 있다는 생각은, 물리에서 스스로 짜인 임계성 (self-organized criticality) 이 왜 그리 특별하게 받아들여지는지 상상해 보면 그리 이상하지 않은 것 같다. 사실 내가 SoC를 제대로 공부해본건 아니어서 부정확한 상상일수도 있지만 말이다.
그리고 이런 식의 각론을 떠나서, 너무 질서있지도, 너무 혼란스럽지도 않은 딱 중간지점에서 자명하지 않고 재미있는 현상들이 나타날 것이라는 게 복잡계 과학을 연구하는 통계물리학자들 사이의 어떤 믿음이기도 하다. 그리고 통계물리학자라면 finite-size effect라는 이름으로 많이 들어 보았겠지만, 시스템의 크기가 무한하지 않을 때 이러한 혼돈의 경계는 sharp한 경계선 (메져 제로) 이 아닌 유한한 영역으로 뭉개지게(?)되고, 따라서 파라미터를 잘 고르면 실제로 달성이 가능하게 된다.
위와 같은 맥락에서 최근에 나는 트랜스포머의 셀프-어텐션 메커니즘 기반의 거대 모델들이 임계점 근처에서 작동할 거라는 상상을 하고 있다. 이거는 위의 맥락뿐 아니라 조리있는 언어 데이터 (요즘 말로 하면 거대언어모델의 출력데이터) 가 멱법칙을 보인다는 오래 연구된 관찰과도 합치한다. 그런데 이상하게도 이것을 직접 다루는 논문은 물론이고 간접적으로 시사하는 논문도 그리 많지는 않으며, 임팩트가 높지 않은 논문들만이 몇 건 있다.
복잡계 과학이라고 하는 분야가 임계현상, 혼돈의 경계, 비선형성, 자기조직화 임계성 등의 키워드 그 자체만으로 대단한 흥밋거리와 떡밥이 되는 시절은 아쉽게도 좀 지나가긴 했다. 그래도 물리학 및 인접분야 사람들이 이런 걸 분명히 많이 알고는 있을텐데 최근의 트랜스포머 기반의 거대모델에 대해 많이 적용을 안 한 것을 보면, 이미 다 계산해 봤는데 별다른 재밌는 게 안나오거나, 아니면 충분히 가능한 픽쳐인데도 아직 어려워서 안하거나 둘 중 하나일 것이다. 똑똑한 사람이 워낙 많으니 전자일 가능성이 높겠지만... 이쪽을 한번 공부하고 탐구해 보아도 재미있을 것 같다.
Facebook에서 이 글 보기: 링크
Friday, June 23, 2023
정보열역학(information thermodynamics) 공부의 계기
최근에 생각중인 주제는 여러 구성요소가 있는 시스템에서 협력 및 동기화라는 현상을 정보 교환이라는 관점에서 보는 것이다. 물리학에서의 정보라는 것은 일상에서의 정보와 상당부분 통하기는 한다. 그런데 정보가 많다 혹은 적다 라는 것이, 상황과 해석에 따라 일상에서의 의미와 같을 때도 있고 다를 때도 있다 보니 처음엔 상당히 헷갈릴 수도 있다.
통신이론에서 출발하여 전기전자공학에서 널리 언급되는 섀넌의 정보엔트로피가 물리학자들의 엔트로피와 기본적으로 동일한 양이라는 점은 널리 알려져 있는데, 정보열역학이라고 하는 분야는 에너지 교환뿐만 아니라 정보 교환(계의 구성요소가 서로의 상태를 탐지해서 피드백을 주는 것)까지 포함해서 열역학을 기술하고자 하면서 그 둘의 구체적 접점을 보다 비자명하게 탐색한다.
정보열역학 하면 주로 맥스웰의 악마, 질라르드 엔진(Szilard engine) 같은 아주 단순화된 모형계에 대한 연구를 떠올린다. 이것이 2000년대쯤부터는 Sagawa, Parrondo 등의 여러 파이오니어를 통해 연속적 동역학을 가진 시스템들에까지 확장되었고, 극히 최근에는 생체계에서의 정보처리 (정보교환이 있어야 생체 내 과정들이 정밀해짐. Leighton and Sivak 등) 혹은 아예 란다우어 원리를 필두로 한 미시적 계산장치들에 대한 이론적 분석 (Wolpert, Crutchfield 등) 등에도 적용되고 있다. 후자의 경우 나는 아날로그 딥러닝의 효율 분석 및 개선에도 적용될수 있을거라고 전망하고 있다.
내가 정보열역학에 관심이 생긴 것은 정보라는 것이 통계열역학 분야의 외곽에 약간 억지로(?) 들어와 있는 것이 아니라, 시스템을 두 하위 시스템으로 쪼개는 단순한 처리만으로도 매우 자연스럽게 정보의 개념을 고려하게 되므로 상당히 중심적인 양이라는 생각을 하게 되어서 그렇다. 즉, Szilard engine에서의 measurement and feedback을 통한 정보 처리 과정은 사실 아주 특별하고 새로운 것이 아니며, 상호작용하는 여러 구성요소를 가진 물리계라면 으레 존재하는 것이다.
각 하위 시스템에 대해 2법칙을 썼을 때, 전체 시스템에는 정보 개념이 없더라도 각 하위 시스템에 대한 2법칙에는 정보 개념이 들어가게 된다. 만약에 협력하는 여러 개체로 구성된 어떤 기계가 바깥에 유용한 일을 해 줄 때, 각 개체의 열효율을 2법칙에 부합하게 쓰면 그 효율에도 정보개념이 들어간다. 전체 효율과 하위시스템의 효율이 어떤 관계가 있는지, 정보교환이 클때 여러가지 이례적 현상들이 나타나지는 않을지 등을 연구하면 재미있을 듯하다. 이는 우리 연구실의 중심 토픽인 active matter의 집단현상에서도 중요할 수 있지 않을까 생각한다. Active matter가 일으키는 여러 재미있는 현상들의 가장 중심에는 결국 주변 환경에서 특정한 종류의 신호를 강화시키는 정류(rectification) 효과가 있다고 믿고 있는데, 이 정류라는 것이 다름아니라 measurement and feedback과 거의 동일한 것 같기 떄문이다.
일본 쪽 연구자 분들이 특히 잘하는 확률열역학 이론 분야에서, 정보개념까지 같이 생각하는 연구들이 속속 나오고 있는데 이들의 연구를 따라가 보면 좀더 우아하고 보편적으로 이론을 전개하는 방법을 배울 수 있지 않을까 한다. 7~8월에 일본출장이 예정돼 있는데 그 전에 여러가지 질문거리들을 꼭 준비해서 가야겠다.
Facebook에서 이 글 보기: 링크
Saturday, June 3, 2023
역전파(backpropagation)의 참된 중요성 이해하기: 자동미분과의 연장선에서
이제 와서 부끄러운 얘기일 수 있으나 그동안 머신러닝에서 gradient update에 사용되는 backpropagation에 대해, 그냥 gradient를 계산하기 위한 테크닉으로써 딥러닝이 현실적인 비용으로 작동할수 있게 하는 돌파구에 불과할(?) 뿐, 뉴럴넷의 작동 이유를 이론적으로 이해하는 데에는 별로 중요하지 않다고 생각해서 별로 신경을 안 썼었다.
그런데 얼마전에 물리 및 ai 기반 그래픽스 쪽에서 공부하는 분이 읽고 계신 Hamiltonian neural network 관련 논문을 함께 디스커션 할 기회가 있었는데, 얘기하다 보니 이게 절대 그렇지가 않은 듯... 뉴럴넷에서의 backprop뿐만 아니라 오히려 그것의 원관념(?)에 해당하는, 동역학을 가진 시스템의 최적화 등에서 많이 쓰는 자동미분(automatic differentiation)을 함께 보면 이쪽 패러다임이 왜 중요한 것인지, 왜 흥미로운 것인지 잘 이해하게 되는 듯하다.
여러 가지 함수 (그 각각의 미분을 symbolic하게 알고 있는) 각각을 노드(node)로 생각하면, 그것들을 graph로 연결시켜서 합성함수를 만들 수 있다. 이렇게 만든 함수도 그림으로 표현되어 있을 뿐, 결국 인풋과 아웃풋을 갖는 그냥 수학적인 함수일 것이다.
근데 이 함수를 수치적으로 미분을 한다고 하면, 이 함수에 두 개의 서로 아주 가까운 인풋을 넣고, 그 아웃풋을 비교해서 근사적으로 미분계수(도함수의 값)을 구해야 한다 (미분계수는 평균 기울기의 극한이니까). 이것은 번거로운 일이고, 인풋의 차이는 최대한 작아야 하는데 함수가가 커다랄수록 출력 함수값의 에러는 쌓일 테니, 에러가 잘 매니지돼서 원하는대로 잘 working할지 알기 어렵다. 그리고 각 인풋에 대해 이 도함수를 evaluate할 때 매번 새롭게 해야 한다.
근데 각 노드의 도함수를 symbolic하게 알고 있다면, 그걸 체인룰(합성함수의 미분)을 통해 조합해서 사칙연산만으로 도함수를 구할 수 있다. 이렇게 아무리 새롭게 graph로 연결을 지어서 만든 새로운 함수에 대해서도, 도함수와 그 값을 비교적 쉽게 얻을 수 있는 것이 바로 체인룰을 영리하게 사용한 자동미분이라고 이해해볼수 있다.
반면에 함수의 꼴조차도 아예 모를 경우에는, (ReLU나 Sigmoid 등의 꼴을 주로 갖는) perceptron을 일종의 '비선형의 최소 단위'로 간주하여 아주 많이 조합한 multi-layer perceptron으로 모형화해야 하며, 이것으로 임의의 함수를 shaping할 수 있다는 보편근사정리가 있다. 그리고 이게 바로 가장 간단한 뉴럴넷인 것이다.
그런 면에서 뉴럴넷의 역전파를, 위에서 말한 graph로 표현된 합성함수에 대해 사용하는 자동미분과 연장선상에서 이해하게 된다. 함수의 틀이 정해져 있느냐, 아니면 그조차도 몰라서 무작정 수많은 퍼셉트론의 조합으로 두었느냐만 다를 뿐이다. 수학적으로야 backprop이 자동미분의 리버스버전의 일종일 뿐이니까 더욱 명확한것 같고.
특히 physics-informed neural network (PINN) 를 보면 뉴럴넷 자체를 어떤 해밀토니안이나 액션 같은 함수 (및 범함수)의 proxy로 생각할때가 많은데, 이럴때는 꼭 최적화를 위한 SGD에서의 gradient 계산이 아니더라도(이건 그냥 패키지를 갖다 쓰면 되니까), 해밀턴 역학 특성상 뉴럴넷이라는 커다란 함수를 여러 변수로 미분한 도함수를 생각해야 할 때가 많이 있고 이럴 때 자동미분을 잘 이해하고 직접 사용해야 하는듯하다. 해밀토니안 내지는 액션을 미분을 해야 실제 물리 방정식을 얻을 수 있어서 그렇다.
암튼 이렇게 새로운 시각을 얻게 되니 backprop의 중요성에 대해 더 깊이 이해한 것 같고, 이런 것을 딥러닝 이전부터 활용하고 발전시켜 온 공학적 최적화 분야나 그래픽스 등도 무척 재밌는 분야인 것 같다.
Facebook에서 이 글 보기: https://bit.ly/3IXFdcv
(해당 포스트의 덧글타래에 이쪽 방법론의 박사급, 교수급 선생님들이 도움을 주셨으므로 읽어주신 분들 중 더 자세한 관심이 있으시다면 이쪽을 참고해주시면 유익할 것입니다)
Wednesday, May 24, 2023
프롬프팅을 통한 거대언어모델 설계원리 탐구에서 실험디자인과 해석의 중요성
기술의 세부에 대해서는 잘 모른채로 그냥 상상해 보는 것인데, ChatGPT를 비롯한 거대언어모델(Large Language Model, LLM)의 특성을 얘기하기 위해 프롬프트를 넣어서 조사를 할 때, stylized output을 줄 수 있는 LLM의 높은 capacity를 고려하여 실험 디자인과 그에 대한 해석에 상당한 주의를 기울여야 할 것 같다.
LLM을 가지고 놀다 보면 자기 자신의 특성 및 설계원리를 근본적으로(?) 드러내어 주는 것처럼 보이는 출력을 내는 경우가 있다. 자기 자신이 ai로서 어떠한 특징을 갖게 설계되었다는 명시적 응답은, 개발자들의 의도에 맞게 하드코딩되거나 RLHF되었을 수 있다는 생각을 사용자들이 쉽게 할 수 있으므로 오히려 비교적 덜 속아넘어갈 수 있다. 그것보다는, 우연성에 강하게 의존하는 작업을 시킬 때 LLM 자신도 모르게 그런 설계원리를 드러내어 버린 것처럼 보이는 경우가 특히 더 미묘하다.
그런데 여기서 생각해야 할 점은, 그렇게 accidental하게 설계원리를 드러낸 것처럼 보이는 사례들조차 대부분 stylized output, 즉 매 dialogue마다 다르게 일종의 '컨셉을 잡은' 연기에 불과할 수도 있다는 점이다. 즉 LLM이 제로샷 능력(더 구체적으로는 in-context learning 능력)에 힘입어 여러가지 처음 보는 과제 및 잘 정의되지 않은 과제를 수행하는 워낙 높은 capacity를 가진 탓에, 어떤 단일 dialogue만 보면서 그것이 다른 dialogue에 비해 더 근본적으로, LLM에 내재된 중요한 특성 탓에 광범위하게 나오는 결과라고 함부로 결론내릴 수 없는 듯하다.
세심하고 반복적인 프롬프팅을 통해 LLM이 가진 경향성을 탐색하고 성능을 최대로 이끌어내는 작업은 중요하고 흥미롭다. 그러나 실험자가 무엇을 보려고 의도해서 그것을 실제로 보았을 때, 단순히 그 담화 내에서의 연기에 속아넘어가는 게 아니라 LLM의 아주 일관적인 특성을 드러내었음을, 즉 소위 말해서 학술지식으로서 가치가 있는 '논문감'임을 입증하려면 실험 디자인과 해석을 굉장히 잘 해야 하는것 같다.
사실은, 본질(?)이 아닌 연기임에도 아무튼 그러한 연기를 이끌어내는 체계적인 프롬프팅 방법이 존재하고, 그로 인해 좋은 성능이 나온다면 이 역시 의미있는 결과가 되기도 할 것이다. 그 두 가지를 구별하기도 어렵다. 예컨대 특정 프롬프팅을 통해 LLM이 SAT 시험 문제를 훨씬 잘 풀게 되었다고 하면 (실제로 이와 비슷한 결과들이 굉장히 많다), 이것은 stylized된 연기라고 하더라도 아무튼 그 시험을 실제로 잘 풀게 된 것이며, LLM은 분명히 그런 능력을 가지고 있다고 말할 수 있을테다. 이는 의미있는 지식이 된다.
한편, 뭔가 도식이 한 군데 잘못되어 있어서, 일관적인 이상한 방식으로 시험문제를 틀리는 dialogue도 존재할 수 있을테다. 이런 컨셉을 수행하는 능력 역시, 설계 원리상으로 보면 어떤 failure라기보다는, 위 문단에서 서술한 시험문제를 잘 푸는 dialogue와 비교했을 때 꼭 그것과 같은 만큼 'LLM이 가지고 있는 능력'이라고 봐야 되지 않을까 하는 것이다.
때에 따라 매번 다르게 수많은 컨셉을 잡고 얘기를 할 수 있는데 (혹은 언제나 그렇게만 할 뿐인데), 그 컨셉이라는 것에 실제 전문적인 수준의 퍼포먼스를 발휘해 주는 것까지 포함이 되어 버리다 보니 LLM이 우리의 직관을 벗어나는 점이 많은 것 같다.
또한 유명한 ChatGPT 탈옥 방법으로 'pretend that you are a~' 따위의 프롬프팅을 통해서 부적절하고 위험한 결과를 내는 게 있는데, 이때 사용자는 겉으로 안 보이게 안에 숨겨져 있는 어떠한 능력을 uncover했다는 느낌을 받게 된다.
Saturday, May 6, 2023
이론물리학 지식 습득에의 미련에 관하여
공부를 하다 보면 앞으로 어차피 들여다볼 시간과 기회가 없을 법한, 그리고 내 연구와 직접 연결될 거라고 기대하기 어려운, 어렵고 멋있어 보이는 지식체계 및 이론들에 대해서 많은 미련을 가지는 편이다. 사실 특정 연구주제에 대한 전문성을 요구받기 이전인 학부생 시절에 그런 토픽별 공부를 깊게 해 두었으면 좋은데, 그렇지 못했다 보니 더 그런 것 같다.
어떤 교수님들은 박사과정 대학원생 때야말로 '공부'를 할 수 있는 마지막 기간이라는 점을 강조하시며, 연구와 직접 관련있지 않더라도 궁금한 이론들이 있으면 지난(至難)한 계산들을 직접 해 보며 많이 습득해 두라고 조언을 해 주신다. 한편, 명확한 목적이 없이 단순한 호기심으로 책을 독파하는 식의 공부는 가급적 지양하고 연구와의 관련성 하에서 효율적인 공부를 하며 연구에 집중하도록 조언을 해 주시는 분들도 계신다.
능력이 아주 뛰어나서 공부하는 속도가 빠르다면 위 둘을 모순되지 않게 병행할 수 있겠으나, 물리학과 내에서 보통 혹은 그 이하의 실력을 가진 내 입장에서는 유한한 시간이라는 제약 하에서 위 둘은 현실적으로 충돌하며, 이도저도 아니게 둘 다 가져가려 하기보다는 선택을 해야 하는 입장이다. 이런 입장이라면 결국 대학원생은 (특히 박사 수료 이후에는) 학생이라는 신분보다는 연구에 시간을 투입해서 논문을 써야 하는 예비 연구자로서의 신분이 강하다는 생각이 들고, 나로서도 그러지 않으면 초조하기도 해서, 적어도 강령으로서는 후자에 더 무게를 둘 수밖에 없다.
노력해서 습득할 수 있는 멋진 이론물리학 지식 체계 - 심지어 그것들은 수학적으로 기술되다 보니, 그저 체계적이기만 한 사상누각 같은 게 아니라 객관적으로 검증 가능하며 새로운 지식을 무한히 창출하는 것들인데 - 가 멀쩡히 존재하고 있음에도 그것을 일일이 이해하고 싶다는 미련을 버리는 게 연구자로서 필요한 덕목일 수 있다는 것이다. 대학원 다니면서 제한된 시간 내에서 직접 부딪혀 보며 잘 납득하게 됐지만 마음 속 깊은 곳에서는 아직도 와닿지가 않는다.
잠깐 대학원생의 이러한 자세한 사정을 차치하고 조금 더 일반론적인 관점에서 '지식 추구'로서의 공부에 대해 이야기를 해 보자. 입신양명을 지향하는 일반적인 범주의 학업을 넘은, 지식체계에서 보이는 개념들의 탁월성과 이론의 미묘한 정합성들에 매료되어서 여기에 천착하는 태도가 과연 인생의 팔자에 도움이 되는가를 비판적으로 생각해 볼 수 있다. 한국 사회에서는 공부를 잘 하는 사람을 대단하다고 생각하는, 혹은 성공을 할 것이라고 여기는 분위기가 있는데, 그러나 이것은 사실 위에서 말한 일반적인 범주의 학업까지에만 해당되는 이야기가 아닐까 한다.
만약에 공부가 깊어져서 건전한 지식을 생산하면서 학술 장을 유지하고, 생산되는 지식을 사회에 공급하거나 사회와 견주어 보는 지식생산 노동에 이르게 되면, 공부가 깊어질수록 오히려 팔자에 도움이 되지 않으며, 사람들이 크게 관심을 갖지도 않고, 관심을 가지더라도 주로 그다지 좋게 보는 쪽은 아닌 것 같다. 결국 한국 사회는 공부라는 것의 수량화, 실용화 가능한 외피와 그로 인한 성취지위에 관심이 많을 뿐, 개념들을 치열하면서도 재미있게 부딪혀 보며 갈고닦는 작업으로서의 공부의 '내용' 혹은 '과정'으로 논의가 확장되는 순간 사람들의 관심은 사라지는 듯하다.
그런데 나처럼 내가 현실적으로 소화하기 어렵고 연구에도 도움이 되지 않는 지식들에 미련을 갖고 굳이 들여다 보려는 경향을 갖는 사람은, 이러한 지식 추구에의 무관심, 공부의 입신양명 도구화 경향으로부터도 분명히 배울 점이 있는 듯하다. 관심을 가질수록 오히려 시간만 과다하게 투입하면서 연구의 현장과 유리되는 경향이 생기므로, 그러지 말고 내가 능숙하게 다룰 수 있고 또한 그러기를 요구받는 도구들 내에서 보편적 독자가 재미있어할 만한 문제 설정을 해서 빨리빨리 풀어 내는 것이 중요한 덕목이라고 생각하는 것이다. 말하자면 지식추구 라는 가치에 지나치게 매몰되기보다는, 결국 현재의 내 status에서 부여받은 역할(주로 지식생산)을 하는 것인데 그 역할이 우연히도 사회 평균보다 지식추구와 조금 더 많이 관련되어 있을 뿐인 셈이다.
Sunday, April 16, 2023
비평형 협력의 열역학: 성능 개선과 이례적 응답의 근원
주말에 인턴 학생에게 제공할 겸 해서, 최근 구상 중인 연구의 research proposal을 열심히 썼다 (이 문단 밑에 첨부). 쓰고 나니까 내 명료하지 않았던 생각도 섬세하게 잘 정리가 되어서 한결 나았다. 프로포절의 요지는 통념의 물리학적 상식과 반대로 반응하는 이례적 응답(anomalous response)에 대한 것이다.
나는 이런 것들이 공통적으로 비평형 조건에서의 협력에 의해 가능한 유효(effective) 현상들이라고 보고, 그것을 지탱하는 열역학적 원리를 알아내고 싶은 것인데, 예컨대 어떤 유체 속에 물체가 잠겨 있으면 상식적으로 마찰에 의해 운동을 방해받아야 맞는데, 개별 입자 수준에서 에너지를 소모하면서 헤엄치는 능동 유체(active fluid)라면 그 속의 물체는 오히려 한번 시작한 운동이 더 빨라질 수 있다.
Friday, March 31, 2023
비평형 능동물질과 배트맨 리턴즈: When does locality help?
https://journals.aps.org/prx/abstract/10.1103/PhysRevX.12.010501