이번 ICTP-KIAS 스쿨(행사 홈페이지: 링크)에서 개인적으로 가장 기대한 연사는 일본의 도쿄대학에서 정보이론과 열·통계역학을 통합적으로 다루는 연구를 하시는 Takahiro Sagawa 교수님이었다. 확률열역학 이론 쪽에서 논문 서칭을 하다보면 이분이 저술한 논문을 상당히 자주 마주치게되고 또한 읽어보게된다. 그러다보니 젊은 나이에 이미 우리 분야에서 큰 상을 받으셨다고 하며, 아직도 사실 굉장히 젊어보이신다. 한국에서 유명한 김상욱 교수님과도 예전에 양자 정보열역학 쪽으로 공동연구를 한 바 있다. 발표도 매우 재밌었고, 후술하겠지만 질문도 여러차례 할 기회가 있어서 인상깊은 시간이었다.
사가와 교수님은 아마 강의 당일인 목요일부터만 참석하신 것 같고, 사실은 화요일 저녁 banquet 때 우연히 그분의 제자들, 그러니까 도쿄대 대학원생들과 함께 앉게 돼서 이야기를 나눴는데 꽤나 재밌었다. 한국에 짧지 않게 오는 건데 여행계획이 있냐는 질문에, 사격장에 가보고 싶다고 꼽은 게 특이했다. 일본에서는 사격장이 없는건 아니지만, 그런 데 가더라도 라이센스가 있는 경우에만 쏴볼 수 있다고 한다. 그래서 한국에 갔을때 해 볼 만한 체험으로 실탄사격이 나름 유명한 모양이다. 한국인들에게도 잘 알려진 남대문사격장을 알려줬는데 역시나 이미 알고있는 눈치였다.
그리고 이번에 오진 않았지만 연구실 학생 중에 한 명은 Yobinori 라는 과학 유튜버를 하고있다고 한다 (Youtube 채널: 링크). 구독자가 90만명 정도니까 아마 일본에서 꽤 이름있는 과학 채널일 듯한데, 일본어로만 제작하다보니 우리는 잘 몰랐었다. 한편 이들도 김상욱 교수님 이름을 안다고 해서, 한국에서 연예인들에게 과학을 설명해주는 등 텔레비젼 스타가 되셨다고 말해주었더니 매우 흥미로워했다.
또한 일본에서 일하는 지인들이 일본 음식 사진을 많이 보내주어서 나도 가고싶고 (초등학교때 한번 부모님 손잡고 갔었고... 이번 8월에 오랜만에 갈 줄 알았는데 코로나로 진작에 취소돼서 못갔다), 한국사람들이 일본 여행을 좋아한다 등등 얘기도 했다. 그렇게 말하니 만약 면요리를 좋아하면 와서 라멘을 꼭 먹어라, 근데 호불호가 있는 두가지 서로 다른 스타일이 있으니 잘 알아보고 가야한다는 답이 돌아왔다.
사가와교수님 발표 얘기를 더 해보자면... 정보 이론과 열역학은 엔트로피라는 양을 중심으로 큰 교집합이 있지만, 또한 각자 다른 픽쳐와 관심사를 가지고있다. 또한 그것들 각각이 기계학습에 대한 이론적 이해에 나름의 방식으로 기여한다. 이번 스쿨의 취지 자체가 (특히 생체시스템에서) 그 모든 것들을 통합적으로 조망 및 이해하는 것인만큼, 정보열역학 분야의 전문가인 사가와 교수의 초청은 스쿨의 목적에 이보다 더 부합할 연사가 있을까 싶을 정도로 매우 적합했다고 보이며 내 흥미에도 맞았다. 여담이지만 사가와 교수님 본인도 이번 발표일정이 코로나 이후 첫 해외여행이라 감회가 남다르다는 식으로 말씀하셨다.
사실 나는 맥스웰의 악마와 정보 엔진 등에 대해 아직까지는 약간 개념적인 사고실험으로만, 혹은 다소 인위적이고 기초적인 실험셋으로만 존재하는 것인줄로 생각해서 개인적으로 큰 흥미를 느끼진 못했었다. 그런데 이번 발표에서는 나로서는 다소 고리타분하게 느껴지는 그런 거시적이고 도식적인 예시에서 출발은 했지만, 궁극적으로는 내게 익숙한 요동치는 small system에 대한 비평형 통계물리학이랑 잘 통합된 픽쳐로 소개해 주시니까 대단히 재밌었다.
그런 픽쳐에서 정보이론적 양들이 에너지적인 양들과 동등하게 다뤄지고, 일반화된 열역학 제2법칙 형태로 깔끔하게 써지는것도 마음에 들었다. 사실 아무리 맥스웰의 악마라도 2법칙을 만족하게끔 통합적으로 써지는건 당연히 그래야 하며 또 그렇게 될 수밖에 없는데, 미시적 비평형계에 대해 내가 파편적으로 찾아봤던 연구들에서는 그런걸 우아하지 못하고 덕지덕지(?) 형식화한 느낌이 있었다. 그런데 그걸 사가와교수님이 최대한 깔끔하게 정리해서 강의 해주신것 같다.
또한 맥스웰의 악마 같은 게 오직 이론물리에서만 관심을 갖는 특이한 상황같은 거라고 잘못 생각할수도 있으나, 사실은 확률열역학의 도구를 빌려 동역학적(dynamical)으로 형식화한다면 생체시스템의 정보이론적, 열역학적 view에도 무척 자연스럽고 풍부하게 적용될수 있다는 내 직관이 확인되는 것 같아서 마음에 들었다. 동역학적 개념으로서의 정보를 다루는 방법으로는 대표적으로 information flow와 transfer entropy가 있는데, 나는 이 두 픽쳐가 commensurable하지 않다고 생각했고, 그 둘중 어느쪽으로 합의가 안되고 공존하는 상황이 예쁘지 않고 불만족스럽다고만 생각했다. 그런데 사실 이 둘은 부등식으로 명확히 관계지어질 수 있다는걸 이번에 알게 되기도 했다.
사가와교수님이 연구를 소개하면서 마지막으로 들어주신 예시는 정보처리 기계로서의 칼만필터(Kalman filter)를 정보열역학적으로 보고 효율을 계산한 연구였다. 정보열역학적 효율개념이, 통계학에서 말하는 충분성의 개념 (sufficient statistics)과 나름대로 자연스럽게 연결이 된다. 내가 학부때 한동안 공부했던 칼만필터 등의 제어이론(control theory)과, 대학원에서 전공하고있는 비평형 통계물리학은 똑같이 확률미분방정식(SDE, 혹은 물리학자들의 용어로는 Langevin 방정식)을 사용한다. 그래서 이쪽으로 비교적 수월하게 넘어올수 있었지만 여전히 그 둘은 분명히 다르다고 생각한다. 그런데 이런 식으로 또 학술적으로 의미있게 관련이 지어지기는 하는구나 싶었다 (그래도 통계물리는 결국 물리고, 제어이론, 통계학, 기하학 등 다른 포말리즘과의 관련성 그 자체에 지나치게 매료되는건 조심해야되긴 한다. 당장 나부터도 그런 포말리즘적 연결을 과도하게 좋아하는 편인데 비해, 학술적으로 새로운 결과를 준다거나 하는건 별로 없는듯해서 일부러 경계하는 중이다).
워낙 기대하던 연사분이다 보니, 그다지 날카로운 질문은 아니지만 뭐라도 질문하고 싶어서 강의 도중, 그리고 강의 직후에 세네 개 정도의 기초적인 질문을 하기도 했다. 첫번째 질문은 핀트가 잘 전달이 안되었는지 만족스러운 답변을 듣지는 못했고, 나머지 답변에서는 매우 명쾌한 답을 들을 수 있었다. 그 내용은 다음과 같다.
(1) 어떤 물리적 시스템이 주어져있을 때 그것을 N개 state로 나눠서 보면 엔트로피의 상한이 log N이지만, 2N개 state로 나눠서 보면 엔트로피의 상한이 log 2N이다. 이는 물리계에 대해 생각만 다르게 했을뿐인데(think different) 물리량 자체가 달라진다는(physics does change) 인상을 준다. 이를 어떻게 이해할수 있는가?
(2) Autonomous한 정보처리 시스템을 소개할때 셋업으로 (i) continuous time을 생각하겠다 (ii) 계 외부로부터의 feedback control이 없는 계를 생각하겠다 이렇게 두가지를 제시했는데, 필연적으로 연결이 되는것인가 아니면 서로 독립적인 조건인가?
-> 문제 정의상으로는 서로 독립적인데, 실질적으로는 closely related되어 있다. 생체 기계들이나 인공 나노기계 등에 적용하기 위해 이러한 셋업을 한것이다.
(3) 세포 같은 걸 생각하면 아무리 autonomous하더라도, 피드백을 주는 demon이 계 안에 있는것일 뿐이지, 에너지 투입은 있어야 되는 것 같다. 내 생각처럼 에너지 주입이 정보처리를 drive하는 것이 맞나?
-> 그렇다. 에너지 주입이 정보처리로 연결되는 과정을 직접 모델링할수도 있다.
(4) 정보에 대한 dynamic한 formulation은 매우 재미있어 보이기는 한데, 커다란 summation을 포함하므로 scalable하지 않은것 같다. 정보이론적 양들을 효율적으로 계산할수 있는 방법 같은게 있는가?
-> 나는 수치적인 쪽의 expert는 아니지만, 그런 수치적인 방법들이 존재한다는것은 말할 수 있다. 하지만 기본적으로 헤비한 계산들인건 맞다.
이런식으로 질의응답을 했고... 특히 사가와 그룹은 최근에는 원론적인(?) 정보열역학뿐만 아니라 생체 기계들에의 보다 적극적인 응용도 하고있는 듯하니, 능동물질 쪽 연구자로서 앞으로 정보열역학 쪽과 엮일 일이 늘어나지 않을까 기대해본다. 특히 나 같은 경우 물리계에서 임의로 정의한 효율척도가 아니라 실제로 소모한 에너지와 관련된 thermodynamic cost를 수립하는 작업에 관심이 있다보니, 능동물질뿐 아니라 전통적인 정보처리시스템(계산기)에 대해서까지 이런 흥미를 확장한다면 정보열역학과 접점을 찾는것도 금방일듯하다.
사가와뿐만 아니라 스쿨 전체에 대해 총평해보자면... 스쿨이라는 이름에 부합하게 education에 초점이 맞춰진 무척 재밌는 학술행사였다. 5일 동안 총 네 분의 교수님이 템포를 조절해가며 기본부터 차근차근 가르쳐주셨고, 최신 연구도 조금씩 소개해주셨다.
내 본진(?)이라고 할수 있는 확률열역학을 다뤄주신 이재성 교수님 강의는, 익숙한 토픽들을 좀더 디테일하게 복습하는 느낌으로 들었다. 최근의 연구들을 보면 굉장히 근본적이어(?) 보이는 열역학적 부등식들도, 사실은 수리통계학에서 나오는 고등학교 수학스러운 부등식들을 tricky하게 열심히 적용해서 얻어지는 경우가 많은듯하다. 그런 tricky한 것들을 꿰뚫는 좀더 간명한 수학적 원리가 존재하지 않을까 생각을 해본다. (아마 이건 분명히 존재하지만 내가 못보고 있는듯하다)
이론물리학의 초일류 테크를 타다가 생물쪽으로 틀어서 미 국립보건원에 계시는 Vipul Periwal 교수님도 이번에 강의를 하셨다. 통계물리를 데이터사이언스에 적용할수 있게끔 analogy를 쭉 설명해주시고, large deviation theory를 차근차근 설명해주셨다. 이 역시 우리 연구실 스터디에서 다뤘던 부분이라 복습 느낌으로 잘 따라갈수 있었다. 한가지 새로웠던 것은 inverse Sanov theorem이었다. 이게 무엇인가 하면... 비평형 통계물리에서는 기본적으로 ground truth 분포 P을 알고있는 채로 empirical distribution F의 희소성을 생각하는데, 데이터사이언스는 정반대로 F를 알고있는 채로 P를 추정하는 것이다. 그래서 어떻게 하냐면 베이즈정리를 이용해서 조건부확률을 뒤집어준채로 large deviation을 한다. 간단히 키워드만 소개해주셨음에도 무척 재밌는 아이디어 같았고 오리지널 논문을 금방 찾을 수 있었다. 수학 논문치고는 그래도 물리학도가 이해할수 있는 수준으로 써놔서, 찬찬히 읽어보려고 한다.
한편 보스턴대학의 Mehta 교수님은 딥러닝이 왜 성공적으로 작동하는지에 대한 이론적 질문을 쉽고 재밌게 풀어주셨다. 나는 이번엔 모든 세션에 개근하나 했더니만 마지막 날에 호텔 말고 관악집에서 가느라 Mehta의 아침세션을 놓치고 말았는데... 이전까지는 딥러닝의 기초적인 내용(generalization, regularization 등)만을 쉽게 설명해주셨으나 하필 그 세션에서는 double descent 등을 포함한 모던한 이론적 understanding까지 인텐스하게 다뤄주셨다고 해서 후회가 되었다. 나중에 참고문헌 같은 거라도 올려주셔서 볼수 있었으면 좋겠다.
이번엔 우리 연구실 사람들은 나 포함 두명밖에 안 와서, 주로 우리랑 가까운 사이인 물리교육과 조정효 교수님 연구실 사람들한테 끼어서 같이 다녔다. 저녁시간에도 라구파스타, 텐동, 인도커리 등을 먹으러 같이 잘 다녔는데, 그러면서 이야기 해 보니까 머신러닝에 대해 이론적 깊이뿐 아니라 실용적(?) 감각도 많이 가지고 스터디도 다양하게 진행하는 열정적인 연구실인 것 같았고, 특히 내가 교양수준으로 좋아하는 디퓨전모델에 대해 최신의 흐름까지 자세히 알고 계신 것 같아서 앞으로도 더 많이 교류하면서 배우면 좋지 않을까 생각이 들었다.
이제는 school 파트는 끝났고, 다음주 월~화 동안 연구내용 발표를 하는 워크숍 파트가 남았다. 나는 이번에 포스터 발표를 하기는 어려운 상황이지만, 교수님들의 강연뿐 아니라 참석한 대학원생들의 포스터까지 한번 잘 들어보면 좋을 것 같다.
Facebook에서 이 글 보기: 링크
No comments:
Post a Comment