게시물 목록

Wednesday, December 13, 2023

다원예술 프로젝트 <다이빙 미러> 쇼케이스 '비전이 공간이 될 때' 후기 및 발제문

지난번에 포스팅한 대로, 한국문화예술위원회 다원예술창작지원사업 <다이빙 미러> 프로젝트의 쇼케이스 "비전이 공간이 될 때"가 지난 12월 10일(일요일)에 진행되었습니다.

저는 '기술 미학'이라는 키워드로 지난 10월부터 이번 협업에 참여하여, <표현 재조합 기계로서 딥러닝의 기술미학적 쟁점들>이라는 제목으로 발제문을 작성하였고, 또한 이를 바탕으로 협업자의 한 명으로서 30분가량의 발표를 진행하였습니다.

과분하게도 제 발제문이 이번 쇼케이스에 전반적인 화두를 던지는 역할을 하게 되었는데, 제가 여러 의미로 아날로그 vs 디지털을 비교하면서 밀어붙인, '딥러닝의 매체성은 디지털화의 끝에서 등장한 아날로그이다 (디지털의 양적 팽창 -> emulated analog로의 질적 도약)'라는 테제가 사전미팅 때도 그렇고 본 쇼케이스 때에도 꽤 논쟁적이어서, 예상보다 활발한 논의가 있었고 저도 많이 배우는 시간이 되었습니다.

아무쪼록 뒤늦게 합류하여 길지 않은 시간 동안 디스커션 하며 작업했는데도 한동석 작가님을 중심으로 여러 협업자 선생님들과 밀도있는 교류가 오간 인상깊은 시간이었습니다. 유튜브 영상 다시 보면서 개인적으로 느낀 점은 발음/발성 연습을 좀 해야겠다는 점이었습니다.

사업결과 공유 차 이번 쇼케이스에 대한 네오룩neolook 공지 게시물 (쇼케이스 진행 후 업데이트됨) 을 덧글에 링크하였습니다. 또한 네오룩 공지의 여러 링크는 12/19(화)를 끝으로 만료될 예정이라, 발제문 pdf 파일과, 저 외에도 총 5명의 협업자가 함께한 쇼케이스 녹화본 유튜브 영상들도 덧글로 직접 링크해둡니다.
발제문의 목차는 아래와 같습니다.
____
<표현 재조합 기계로서 딥러닝의 기술미학적 쟁점들>
I. 소개 및 서론
II. 본론
1. 딥러닝의 매체성: 디지털과 아날로그 사이에서
(1) 기술매체의 미학: 복제와 재조합의 용이성
(2) 아날로그 알고리즘으로서의 딥러닝
(3) 원형 재조합 기계로서의 딥러닝: 디지털의 끝에서 다시 아날로그로
2. 의미-기계의 기술적 조건들
(1) 고차원 공간에 임베딩되는 내부 표현들
(2) 추상성의 위계와 정보의 정량화
3. 딥러닝을 활용하는 예술, 딥러닝을 사유하는 예술
(1) 예술에서 인공지능의 이중적 지위
(2) <다이빙 미러> 프로젝트에서 탐구될 중간적 시공간들


유튜브 녹화영상 링크
1. 사업 결과
2. 쇼케이스 녹화 자료



Facebook에서 이 글 보기: 링크

Tuesday, December 5, 2023

다원예술 프로젝트 <다이빙 미러> 쇼케이스 '비전이 공간이 될 때' 홍보

2023년 다원예술창작지원사업 <다이빙 미러> 프로젝트에서 이번주 일요일에 쇼케이스를 합니다.

<다이빙 미러>는 영상매체 작업에 컴퓨터비전 기법을 도입한 다원예술 프로젝트로 저는 지난 10월 초부터 참여하였는데, 주말을 활용하여 2회의 디스커션, 그리고 1회의 내부 상영회(사전미팅)을 거쳐 '기술 미학'이라는 키워드로 쇼케이스에 참여하게 되었습니다.

저는 여기에 늦게 합류한 관계로 준비 기간이 짧기도 했거니와 AI 현업에도, 미학분야에도 내세울만한 전문성은 없다보니 훌륭한 분들 사이에 참여해도 될지 걱정을 많이 했는데, AI에 대한 약간의 수학적/물리학적 이해와 더불어, AI가 개입되는 새로운 예술형식에서 발생하는 매체미학적 쟁점에 대한 제 나름대로의 견해를 재미있게 봐 주셔서 그런 내용들에 대해 짧은 발표를 해 보고자 합니다.

행사에 대한 자세한 안내는 네오룩neolook에 업로드되어 있습니다 (클릭하여 네오룩neolook 링크 보기).

_______


오용재 ● 학부시절 전기공학, 물리학 및 미학을 공부하였으며 현재 물리학전공 박사과정생(통계물리 세부전공)이다.
생체를 비롯한 여러 시스템들의 창발적 집단현상에서 나타나는 에너지 및 정보의 흐름과 그 제약 조건들에 대해 확률을 도구삼아 연구하는 '비평형 통계물리학'이 본업이며, 이러한 관심사를 인공지능 시스템의 풍부한 표현 학습과 높은 성능에 대한 이론물리학적 해명에 다각도로 접목하는 연구들도 조금씩 살펴보고 있다.
최근 인공지능에서 딥러닝 패러다임의 부상은, 데이터를 학습하여 구조화되며 고차원 공간상에서 배열되고 표류하는 '표현'들의 기하학으로써 특히 문화기술 부문에서, 그간 주관적 표현의 영역이었던 '의미'와 '질감'에 대해 우리 스스로 더 잘 이해하고, 더 나아가 그것들을 엔지니어링할 수 있게 길을 열어 주고 있다.
이렇듯 근래에 실현되고 있는 시맨틱 테크놀로지, 텍스쳐 테크놀로지로서의 딥러닝이 인간과 상호작용함으로써 촉발되는 새로운 종류의 미학적, 인간학적 질문들을 꾸준히 포착해 나가고자 한다.
본 프로젝트에서 여러 문화예술 부문의 협업자 선생님들이 함께하는 다원적 작업에 참여할 수 있어 설레는 마음이며 많은 기대감을 가지고 있다. 상이한 매체성이 테크놀로지에 의해 종합되면서 제공되는 새로운 시공간적 체험들과, 그러한 테크놀로지의 여백 및 틈새에서 폭로되는 시공간 지각의 매끄럽지 않은 이음매들에 특히 관심을 기울이고자 한다.
주관적인 것들에 관한 학으로서 미학 고유의 영역이, 테크놀로지의 인간학적 해석과 수용에 적절히 기여할 수 있다는 것을 주로 텍스트작업과 컴퓨터비전 실습작업을 통해 탐구해 보고자 한다.
_______


Facebook에서 이 글 보기: 링크

Sunday, November 19, 2023

아시아태평양이론물리센터(APCTP) 본부 방문 소감

APCTP(아시아태평양이론물리센터)의 지원으로 하는 한국물리학회 통계물리분과 학술행사들은 여러 가지가 있지만, 이번 행사(140차 통계물리 월례회, 링크)는 다른 곳이 아니라 POSTECH 무은재기념관에 있는 APCTP HQ에서 열렸다. 포항공대는 두세번 와봤지만 APCTP에 직접 들어와 보는 것은 처음이었다.


전반적인 인상이 어땠냐면, 일단 적어도 HQ가 위치한 층은 시설을 상당히 잘 해 놓았으면서도, 여기가 바로 이론과학을 하는 곳이구나 하는 느낌이 확 든다 (고등과학원 갈때도 비슷하게 느낀다). 그리고 전시물이나 홍보물들도 워낙 잘 되어 있어서 이론물리를 상당히 대접해준다는 느낌이 들었다.

이게 포스텍 물리학과에서 그냥 만든 연구센터가 아니라, 실질적인 국제 기구로서 기능을 하게끔 국제 물리학계로부터 '유치'를 한 것이다 보니 더 여건이 좋은 점도 있는 듯하다.

약간 서울대 국제백신연구소랑 비슷하게, APCTP 유치 자체가 한국 과학계 국제협력사업의 쾌거였다고 알고 있다. 무려 Yang-Mills 이론의 양전닝이 초대 소장이었다고 한다.


아무튼 계속 지내면 어떨지 모르겠지만 방문객 입장에서는 인상이 굉장히 좋았고, APCTP HQ뿐만 아니라 포스텍의 다른 건물들도 신축의 경우 시설이 꽤 좋다. 특히 무은재기념관 바로 근처에 있는 건물은 내부가 무슨 국립미술관 내지는 코엑스처럼 생겨서 잘 되어 있고, 심지어 1층에는 테라로사가 입점해 있다. 포스텍 출신 지인들에게 물어보니, 우리 나이대가 졸업할 때쯤에 새로운 좋은 시설들이 많이 들어왔다고 한다.

이번 월례회는 개인 일정상 서울에 일찍 돌아와야 해서 이틀 일정 중 앞쪽 하루밖에 못 들었는데, 첫번째 톡은 내 분야와 굉장히 관련이 깊은, 미시적인 엔진들의 열역학에 대한 소개였다. 두번째 톡은 국형태 교수님의 은퇴기념 강연이었는데, 사실 나는 처음 알게 된 분이었지만, 최근에만 분과 행사에 잘 안 나오셨던 거고, 통계물리 및 동역학계(dynamical systems) 분야를 오랫동안 연구해 오신 분이었다.

동역학계를 연구해오신 교수님의 연구 여정에 관한 얘기도 재미있었지만 마지막에 과학문화 및 과학글쓰기 관련 말씀도 인상깊었다. 과학자들이 글을 투고할 수 있는 웹진인 APCTP의 <크로스로드>, 한국물리학회의 <물리학과 첨단기술> 의 편집위원 일을 오래 하셨고, 지금은 다름아니라 고등과학원 웹진 <Horizon>의 편집장이시라고 한다.


나도 과학 관련 글쓰기에 관심이 있는 입장에서, 그런 매체들은 어떻게 돌아가고 누가 담당해서 해 주시는 걸까 늘 궁금했었는데, 그리고 마침 전날에 대구에서 뵌 지인과도 과학글쓰기와 관련된 이야기를 나누었고 조언을 들었었는데, 의외의 곳에서 배경과 현황에 대해 들을 수 있어서 신기했다.

Facebook에서 이 글 보기: 링크

Sunday, November 12, 2023

깁스 역설: 개수를 세서 물리학을 하기, 그리고 측정의 형식에 알맞게 생각하기

고등학교 때 했던 생각인데, '사과의 개수를 세는 것'을 흔히 수학 교과서에 나오는 수학의 클리셰적인 예제로 생각한다. 하지만 내 생각에 그건 굳이 따지면 자연수라는 형식체계를, 이산화하기 쉬워서 자연수로 잘 기술되는 사과라는 현실세계의 대상에 적용했다는 점에서 엄연히 가장 원초적인 '물리학'에 해당하는 것 같다.

물론 수학교육에서 현실 예시를 들어가면서 하는게 학습에 중요하다거나 하는 게 있을 테니... 사과의 개수 세기를 진짜로 과학교과서로 옮겨야 된다는 건 아니고, 그냥 내 머리속의 농담 같은 관념적 재분류일 뿐이다.


그런데 사실 내 전공분야인 통계물리학 또한 결국에는 개수를 세는 것이다. 시스템의 디테일에 크게 상관없이 개수만 잘 세어도 꽤 많은 물리적 성질들을 얻을 수 있다는 메시지가 있다.

물리학이라고 하면 뭔가 시공간 위에서 연속적인 것을 다루기 위해 미적분을 열심히 해야 할 것 같은데, 개수 세는 것만으로 물리를 할 수 있다니 이상하게 느껴질 수 있으나, 사실 그 spirit은 사과의 개수를 세는 원초적인 물리학에서부터 예고되고 있는 것이다. 물론 통계물리학에서는 대상의 개수를 세는 게 아니라 그 대상들의 배열이 이루는 state의 개수를 세는 것이므로 조금 더 추상적이기는 하다.


이게 공연히 오랜만에 다시 생각난 이유는, 요새 지인에게 Gibbs paradox를 공부해서 소소하게 가르칠 일이 있어서, 개수를 세는 것에 대해 계속 고민하다 보니까 그랬던 것이다.

Gibbs paradox는 입자들이 이루는 상태의 개수를 셀 때 입자 종류의 구분불가능성 (쉽게 말해 순열permutation을 조합combination으로 바꿔주는) 을 정당화하는 근거가 무엇인지에 대한 질문이다. 두 종류의 기체가 서로 분리되어 있다가 섞일 때 엔트로피가 증가하는지 여부와 관련된 paradox of mixing과도 궁극적으로 동일한 문제인데, 생각할수록 이상한 점들이 많아서 결코 간단한 문제가 아니고 굉장히 흥미롭다.

이에 대해 내가 통계역학을 여러 해에 걸쳐 접하면서 나름대로 고민해서 가지게 된 결론의 얼개가, Jaynes라는 물리학/통계학/정보이론 쪽에서 유명한 분의 견해와 거의 같다는 걸 이번에 알게 되어서 꽤나 뿌듯하기도 했다.


그 결론을 대략 요약하자면 다음과 같다. 입자들이 구분불가능한지 여부를 다르게 생각했을 (think different) 뿐인데 엔트로피라는 물리량이 바뀌는 (physics does change) 것은 굉장히 이상해 보인다. 예를 들어 까만색 입자와 흰색 입자를 우리가 구분해서 보겠다고 마음먹으면, 그 두 종류의 입자들이 섞일때 엔트로피는 증가한다. 근데 구분 안하고 통째로 보겠다고 마음먹으면, 서로 섞여도 엔트로피는 증가하지 않는다. 엄연히 객관성을 기해야 하는, 그리고 실험으로 측정이 가능한 physical quantity인데 주관에 따라 달라진다니? 이게 우리가 흔히 역설이라고 생각하는 부분일테다.

그러나 사실 우리가 구분불가능 여부를 전적으로 임의로 정할 수는 없는 것 같다. 우리가 시스템을 관찰하는 device의 해상도 내지는 형식에 따라서, 구분가능성의 여부는 어느정도 제한을 받는다. 그리고 그 세팅 하에서 physical quantity의 측정값을 설명하는 가장 유용한 effective theory가 무엇인지도 정해진다.

단, 이때 주어진 해상도 내지는 형식 하에서 입자의 종류에 대해 얼마든지 얻을수 있는 정보를 일부러 무시하면 안되고 최대한 다각도로 조사를 해야 하는 것 같다. 이렇게 하면 think와 physics 외에도 probe 라는 새로운 층위가 들어오게 되고, 여기서 probe different -> physics does change 는 비교적 자연스러워 보인다.

그렇다면 think 부분은 어떻게 되는 건가? 내 생각에 think를 완전히 임의로 할 수가 없고 우리가 가진 probe의 형식에 알맞게 올바르게 think해야 하며, 그렇게 하면 우리의 이론은 우리가 가진 probe 상에서의 올바른 physics를 준다. 그리고 probe가 바뀌면 그에 맞게 physics가 바뀌는 것 같다.



예컨대 나는 만약에 원자 하나하나에 이름표를 붙이고 그것들의 운동을 일일이 쫓아갈수 있다면 열heat은 모두 일work이 되고, 우리가 흔히 보는 스케일에서 엔트로피라는 개념은 없어진다고 생각한다.

(그런데 10^23개 기체 입자에 서로 구별되는 이름을 붙이려면 최소한 원자 76개 길이의 binary sequence 꼬리가 필요하고... 그런데 충돌 전후에도 그 꼬리표가 안 파괴되고 안정적으로 유지되려면 꼬리표의 크기가 훨씬 커야 할 것이고... 이런 걸 생각하다 보면 왠지 저런 일이 근본적으로 forbidden되는 이유가 있을 듯. 아닐 수도 있고 말이다)

또한, 두 종류의 기체 입자가 서로 무게가 다르다거나 (심지어 고전적인 공(ball)들인데 색깔(!?)이 다르다거나) 해서 혼합 전후에 물리현상에 변화가 생길 가능성이 있으면, 가능한 모든 수단을 동원해서 실험해 보면 그 차이는 측정이 되는 것이므로, 그것을 일부러 무시하고 구분불가능하다고 하는 건 wrongly think different하는 것 같다. 이것은 다름아닌 mixing paradox로서, 바로 위 문단에 말한 예시보다 조금 더 미묘한 듯하다.


Gibbs paradox로 돌아오면, 자유 공간을 떠다니는 이상기체 분자들에서 엔트로피를 1/N! 으로 나눠 주는 게 양자역학적 입자들의 구분불가능성 (identical particles) 때문이라고 하는 게 아주 틀린 말은 아닐 수 있다. 그런데 일단 눈에 보일 정도의 기체 덩어리는 완전히 thermalize 되어 있고 전혀 coherent하지 않을 텐데 양자적 구분불가능성이 과연 relevant할지 살짝 의문이기도 하거니와 (이부분은 그냥 내가 양자를 잘 몰라서 그런 듯), 사실 꼭 coherent한 wavefunction으로 기술되는 양자역학적 입자가 아니더라도, 입자의 종류 차이가 우리가 가진 device에서의 measurable physics에 영향을 안 준다면 얼마든지 구분이 불가능할 수도 있는 것이고, 그럴 때에는 양자역학적 입자들과 마찬가지로 계산상으로도 구분을 안해주는 게 맞는 듯하다.

원자나 분자 같은 기본 입자들의 살짝 특별한 점은, 축구공이나 농구공처럼 자세히 들여다보면 서로 조금씩은 다른 일상 속 거시적 물체들과 달리 (애초에 그런 물체들이 따로따로 떠다니면서 10^23개씩 모여 있을 수 없기는 하지만) 정말로 fundamentally identical해서 probe의 해상도에 무관하게 구분이 불가능하다는 것.

물론 극히 최근에는 Gibbs paradox를 resolve하는 방법과 관련해서, 일본의 Shin-ichi Sasa 교수님의 연구팀에서 2021년에 Journal of Statistical Physics에 게재한 논문(Quasi-static Decomposition and the Gibbs Factorial in Small Thermodynamic Systems, 링크)을 비롯한 대안적인 논변들도 있다. 이 부분은 잊어버려서 한번 더 살펴봐야겠다. 아무튼 이런 게 아직도 연구 중인 open question이라는 점이 인상깊다.


이렇듯 개수를 어떻게 셀 것인가 하는 원초적인 문제가, 비가역성과 열역학 제2법칙의 근원이라는 통계역학의 가장 근본적이고 머리아픈 문제와도 연관이 되어 있다는 점은 대단히 흥미롭다.

여담이지만 나는 현재 주목받는 딥러닝이 대체 왜 이렇게 성공적인지에 대해서도, 디테일을 제하고서도 고차원 공간에서의 counting을 통해 약간은 감을 잡을 수 있다고 생각한다. 실제 근거가 되는 연구 리포트들도 있다. 통계물리학을 이용하여 딥러닝의 작동원리를 부분적으로 설명하는 성공적 시도들이 꽤 많은 것도, 바로 이런 공통점 때문이 아닐까 상상을 해 본다.

흔히 양자역학에서 관측 여부에 따라 물리가 달라지는 게 이상하다, 관측이라는 게 대체 무엇인가 하는 고민이 대중적으로 잘 알려져 있다. 그러나 내 생각에 이 Gibbs paradox 문제가 비가역성의 근원 문제와 연결되는 지점을 비롯한 여러가지 통계역학적 고민들이야말로, 양자역학의 관측 떡밥에 만만치 않게 미묘하고 재미있으면서, 우리의 거시적이고 일상적인 고민들 (microstate와 macrostate를 정의하는 문제 -> 로또번호 다른 것들은 잘만 나오면서 123456은 왜 안나올까 등등) 과도 훨씬 깊게 연관이 되는 것 같다.
Facebook에서 이 글 보기: 링크

Tuesday, October 31, 2023

[도서 소개] 과학의 과학(Science of science) - 다슌 왕, 앨버트 라즐로 바라바시

우리 비평형 통계물리 분야의 옆집인 복잡계 물리학 분야에서 이번에 교양서 번역이 새로 나왔다고 해서 공유해 봅니다.


과학의 과학(Science of science), 다슌 왕, 앨버트 라즐로 바라바시 지음, 이은, 노다해 옮김, 도서출판 이김(2023).

도서 링크 (교보문고): https://product.kyobobook.co.kr/detail/S000210778375


<과학의 과학(Science of science)>은 이 책의 제목이면서, 저자인 Dashun Wang이 연구하는 '분야'의 이름이기도 합니다.

학 활동이 어떻게 이루어지는지를 연구 대상으로 삼는다는 점에서는 광의의 메타과학 내지는 과학학으로서 과학인문학(과학철학, 과학사, 과학사회학)과 공통점이 많이 있으나, 과학 활동을 분석하기 위해서 인문사회학이 아니라 네트워크 과학을 필두로 한 복잡계 과학 및 데이터 사이언스를 주로 사용한다는 점에서는 과학인문학과도 방법론적으로 구분이 되는 것 같습니다.

h-index 등을 비롯한 과학 연구 실적지표를 제안하고 개발하는 '과학계량학(scientometrics)'과는 어떤 관계일지 궁금하기도 합니다.


또 다른 저자인 알버트 라즐로 바라바시는 90년대 후반부터 2000년대에 걸쳐 Reka Albert, 정하웅 교수님과 함께 인터넷 연결망의 구조 분석, 신진대사 네트워크 분석 등으로 scale-free network라는 개념을 데뷔시킨, 네트워크 이론 및 복잡계 물리학 분야의 거장이기도 합니다.

주로 네트워크 분석 방법으로 사회 동역학과 다양한 사회현상을 연구하시는 이은 교수님과, 역시 네트워크이론 전공으로 과학대중화 및 커뮤니케이션에 힘쓰고 계시는 노다해 선생님이 번역을 했습니다.

과학에 관심이 있는 제너럴한 독자뿐만 아니라 과학을 업으로 삼는 연구자들이 얻어갈수 있는 팁들도 많이 있다고 하니 많은 관심을 부탁드립니다.

Facebook에서 이 글 보기: 링크

Sunday, September 24, 2023

Review on "A statsitical mechanics framework for Bayesian deep neural networks beyond the infinite-width limit"

옆 연구실에서 주도하시고 우리도 참여하는 이론기계학습 공부 모임에서, 이번에 나는 폴란드 출장에서 돌아온 직후인 10월 초에 발표를 하게 되었다. 이번에 소개할 논문은 NNGP (neural network as Gaussian process), NTK (neural tangent kernel) 류의 접근이 finite width라는 보다 현실적인 상황에서 어떻게 수정되는지를 이론적으로 살펴본 논문이다 (S. Ariosto et al., arXiv:2209.04882).


방법론으로서 통계역학이라는 것은 결국 엄청 커다란 state space에서 확률분포함수를 끼고 적분하는 것을 N이 무한대로 가는 극한에서 편리하게 계산하는 여러 테크닉들이라고 볼 수 있다. 이 논문에서도 overparametrized NN을 이론적으로 분석할때 나오는 커다란 적분들을 통계역학적으로 처리한다.

아직 끝까지 읽지는 못했는데, 데이터셋의 크기 P가 input dimension N0보다 크고 그 ratio가 상수로 유지되되 (overparametrized), 각각이 무한대로 가는 나름대로 현실적인 regime을 다룬다. 이는 NTK regime에 비해 발전된 것이다. 여기서 통계역학을 적용해서 적분을 잘 계산한 다음에, Breuer-Major theorem이라고 하는 비선형 함수들의 합에 대한 일종의 일반화된 중심극한정리를 통해 몇 가지 흥미로운 결론을 얻는다.

특히 hidden layer가 1개인 뉴럴넷에 대해서는 분배함수가 exact form으로 계산되어 풍부한 이론적 분석을 해 볼 수가 있으며, 또한 finite-width에서는 NN이 Gaussian process 대신 student-t process에 해당한다는 꽤 그럴듯한 논의를 한다.

사실 이 논문을 요새 스터디를 함께하는 옆 연구실 선생님의 소개로 알고 나서, 도쿄에 학회 갔을 때 이 저자 중 한 명의 포스터발표를 직접 들었다. 네이쳐 계열 저널 중에도 머신러닝 관련 저널이 있는데 거기에 낼 예정이라고 했던 것 같다.

(+추가: 네이쳐 계열의 머신러닝 관련 저널인 Nature Machine Intelligence에 2023년 말에 출판되었다. 이에 따라 본 포스트의 제목도 출판된 해당 버전의 논문 제목으로 변경하였다.

Nature Machine Intelligence 저널에서 논문 보기: 링크)


Saturday, September 16, 2023

230915 NEST meeting 발표 후기 (Review on “Thermodynamic constraints on the power spectral density in and out of equilibrium”)

NEST meeting은 고등과학원 통계물리분과 교수님들 앞에서 학생들이 재밌게 읽은 논문을 ppt로 만들어서 소개하고 디스커션 하는 모임이다. Informal atmosphere의 모임이라고 하지만 ppt에 있는 계산 과정이 납득이 될 때까지 한줄 한줄 함께 봐주시기 때문에, 모임 준비의 주관적인 존재감은 꽤 큰 편이고 많은 공부가 된다.

이번에 내가 소개한 논문(링크: arXiv:2306.00417.)은 일본 교토대의 Andreas Dechant가 이번에 올린 아카이브 프리프린트인데, 확률적 물리계에서 Power Spectral Density (스펙트럼, 쉽게 말해 주파수별 신호의 세기) 의 모양이 열역학적 원리에 의해 제약이 된다는 꽤 멋있는 논문이다 (슬라이드 첨부, 하단에 내용 요약).


시스템의 PSD를 보는 것, 즉 무작위 시스템을 주파수 영역에서 분석하는 것은 시스템의 특성 이해에 매우 유용하므로 통신, 소자 및 여러 물리분야에서 표준적으로 쓰인다. 우리 비평형 통계물리 분야에서도 20세기 초중반에 확립된 linear response theory에서 이러한 접근이 많이 발달했다. 특히 fluctuation-dissipation relation은 계가 평형에 있을 경우, 계에 가해지는 요동의 PSD와, 계가 외란에 응답하는 방식이 주파수 영역에서 특정한 함수관계를 만족해야만 한다는 것을 알려주어 이론과 실험 양쪽에서 무척 유용하다.

그러나 참 이상하게도, 20세기 최후반에 등장하여 현재까지 활발히 연구되는 새로운 도구인 '확률열역학'(stochastic thermodynamics) 에서는 2005년의 Harada-Sasa relation 정도를 제외하고는 주파수 영역에서의 접근이 영 드물었다.

확률열역학에서는 주로 평형으로부터 미소하게 멀지 (linear response regime) 않고, 임의의 큰 정도만큼 멀리 떨어진 (far from equilibrium) 계를 다루며, 이때 비평형의 정도를 정량화하는 방법은 결국 비가역성의 척도인 '엔트로피 생성량'이다. 비평형에서만 가능한 여러 에너지 및 물질의 흐름들과 이례적 응답 방식들이 있는데, 이들이 선명하게 나타나려면 그에 상응하는 충분히 큰 엔트로피 생성량이 필요하다. 이를 명시적으로 밝힌 TUR, speed limit, EB 등의 부등식들이 지난 10년에 가까운 시간 동안 여럿 등장했다. 주파수 영역에서도, 이처럼 엔트로피 생성량에 의해 PSD의 모양이 제약되는 현상이 있다면 좋을 것이다.

이 논문에서는 PSD의 꽤 복잡한 표현식과 그것에 대한 더욱 복잡한 변분 표현 (variational expression)을 바탕으로, 임의의 확률적 계에서 PSD의 그래프가 가질 수 있는 상한선과 하한선을 제시한다.

과정의 세부는 매우 복잡하지만, 기본 아이디어를 기억하면 좋은 가이드라인이 된다: PSD의 푸리에 역변환인 autocorrelation function은 계가 시간에 따라 relax되는 (혹은 비평형의 경우 진동하는) 구조를 알려준다. 가만히 있는 것 같은 시스템도 시간에 따른 변화를 겪고 있으며, 그러한 동역학적 구조를 보기에 가장 좋은 방식은 바로 조건부확률이다.

이러한 조건부확률의 푸리에 변환을 바탕으로 PSD가 상당히 우아한 quadratic form 형태로 써지는데, 이에 대한 또다른 ㅡvariational한ㅡ 표현을 억지로 찾은 뒤에, 그 표현상에서 영리하게 '덜 optimize' 함으로써 PSD의 상한과 하한을 얻게 된다. 슬라이드에서 볼 수 있듯이 상한과 하한 모두 굉장히 스펙트럼스러운(?), 1/(a^2 + w^2) 형태를 가지므로, PSD의 asymptotics를 얘기하기에 아주 좋은 구조이다.

여기에 등장하는 상수들에도 물리적 의미를 부여해볼수 있는데, 1/lambda*의 경우, 주어진 시스템에 대응되는 평형 시스템에서의 가장 느린 relaxation time scale에 해당한다. 즉 주어진 시스템으로부터 만들어낼 수 있는 가장 느린, '가장 평형스러운(?)' 시간스케일이라고 할수 있다. 반대로 C_diss의 경우에는 엔트로피 생성의 총량과 직접 관련이 되어, 가장 '비평형스러운' 값이라고 할 수 있다. 이 두 가지 값이 절묘하게 조합되어 PSD의 asymptotics를 이루게 된다.


Facebook에서 이 글 보기: 링크

Monday, August 28, 2023

양자장론 스터디 계획: 대칭성과 물리법칙, 장론적 기술방법

이론물리학의 변방에 있는 비평형 통계물리를 전공하면서, 내 세부전공 외의 이론물리를 잘 모르는 게 늘 컴플렉스였다. 정작 수업 들을 때는 잘 못 따라갔으면서 최근에 늦바람(?)이 든 덕분에, 양자장론의 이론적 구조를 늦게나마 취미삼아 살펴보기로 했고 그 예비로서 고전장론을 대강 보고 있다.

구체적인 모티베이션 없이 막연한 흥미로 공부할 때보다, 그 동안 물리덕질을 하면서 내 나름대로 가지게 된 물리학에 대한 전체상, 그리고 여러 수업에서 파편적으로 배운 개별 사실들을 바탕으로 해서 '꼭 알고 싶었던 질문거리'들을 몇 가지 정해두고 그것들을 중심으로 진행하니까 훨씬 빠르고 수월한 듯하다. 그 중심 질문거리들은 주로 대칭성이 물리법칙을 제약한다는 것이 무슨 의미인지와 관련되어 있다.


먼저 장론의 라그랑지안 역학체계로의 기술방법에 익숙해지기 위한 가장 쉬운 방법으로서, 고전적인 장의 대표 예시로서 진동하는 1차원 끈의 역학에 대한 연속체 라그랑주 역학을 살펴보고 국소적 보존법칙들을 얻는다. 그 다음에 라그랑지안 기술방법에서 장 자체의 변환(게이지 변환 등)과 좌표 변환을 모두 커버할 수 있는 뇌터 원리를 바탕으로, 위의 보존법칙들을 연속변환에 대한 대칭성과 일반적으로 관련지어 다시 수립한다.


고전장론에서 살펴본 두번째 주제는 전자기학을 새로운 관점에서 이해하는 것이다. 먼저 기존에 전자기학에서 학습한 elementary한 표기 방법에서도 로렌츠 게이지를 택하면 SR compatibility가 이미 시사되고 있음을 알 수 있다. 맥스웰 방정식, 전하량 보존을 나타내는 연속방정식 등이 민코프스키 계량을 끼고 있는 4-벡터 표기법에서 시간과 공간이 동등하게 보이는 매우 간결한 형태로 Lorentz covariant하게 표현된다. 알려진 전자기학 법칙들에서 시간과 공간이 함께 등장하는 물리현상들은 뉴턴의 고전역학처럼 굳이 특수상대론을 따로 도입해서 수정되는 것이 아니라, 이미 특수상대론에 부합하는 구조를 가지고 있던 것이다.

특히 게이지 변환에 대해 field들이 불변이려면 전기퍼텐셜과 벡터퍼텐셜의 변환규칙이 특정한 관계를 만족해야 했는데, 게이지 변환의 이러한 형태 역시 4-벡터 표기법으로 매우 자연스럽게 합쳐서 쓸 수 있다. 이렇게 명시적으로 로렌츠 공변인 표현 상에서 전자기장의 게이지 불변성을 증명해 본다.
다음으로는 전자기장의 라그랑지안 기술방법을 살펴본다: 즉 주어진 라그랑지안이 최소 작용의 원리를 통해 맥스웰 방정식을 올바르게 준다는 것을 살펴본다. 이러한 라그랑지안 기술방법에서 뇌터 원리를 적용하면 전자기 에너지 밀도에 대한 국소적 보존법칙을 얻는다.
또한 거시적 하전입자와 어떤 벡터퍼텐셜(맥스웰 방정식 등을 전제하지 않은)을 합친 액션을 로렌츠 공변하게 쓰는 것만으로 로렌츠 힘의 공식이 나오며, 라그랑지안이 로렌츠 공변인 스칼라여야 한다는 것에 더하여 게이지 변환에 대한 대칭성을 요구하는 것만으로 몇가지 간단한 논리로 전자기장의 라그랑지안(즉 맥스웰 방정식)이 자연스럽게 도출되는 것을 밝힌다. 이렇듯, 변환에 대한 대칭성 요구조건만으로 물리법칙을 기술하는 구체적인 방정식을 얻을 수 있는 것이다. 현재 공부한 범위 내에서는 일단 이 부분이 가장 하이라이트다.
이렇게 대칭성 요구조건에 의해 물리법칙이 제약되는 것은, 기존에 알려진 물리법칙의 필연성(?)에 대한 느낌을 갖는 것뿐 아니라, 일반상대론과 양자장론 등에서 아예 기존에 몰랐던 새로운 물리법칙을 얻는 데 대한 가이드라인이 되어 커다란 성공으로 이어졌으므로 가히 현대 이론물리학의 요체가 아닐까 한다.

다음으로는 양자역학의 슈뢰딩거 방정식에서 전자기 퍼텐셜이 들어오는 방식 또한 4-벡터로 간결하게 표현됨을 살펴본다. 이때 전자기 퍼텐셜의 게이지 변환에 대해 이 시스템이 불변이려면 파동함수의 위상 또한 알맞게 변환되어야 함을 이해한다. 또한 이러한 슈뢰딩거 방정식 기반의 파동함수 기술방법이 언제 한계에 봉착하는지 생각해 본다. 그럼에도 이 내용을 살펴보는 이유는 아래에도 쓰겠지만 디랙필드에서 전하량 보존을 논의할 때 게이지 변환에 의한 필드의 위상 변화를 고려해야 하는 등, 양자장론에서 나오는 개념들에 대한 예비로서 중요성을 가지기 때문이다. 여기까지가 지난 일주일간 정리해본 결과다.

앞으로는 본격적인 양자장론으로 넘어가기 위해, 먼저 이러한 진동하는 끈을 정준 양자화하여 bosonic field에 대한 비상대론적 양자장론을 얻고 경로적분 기술방법도 살펴볼 것이다. 또한 Klein-Gordon field와 같은 질량이 있는 장도 같은 방법으로 양자화해 본다. 다음으로 bosonic field의 교환자 관계를 반교환자 (anticommutator) 관계로 대체함으로써 고전시스템에 비유되기 다소 어려운 fermionic field도 기술해 보고 이로써 양자장론에 한층 더 익숙해지도록 할 것이다.

또한 응집물질 물리학에서 속도가 충분히 느린 입자들을 기술할 때는 이러한 비상대론적 양자장론이 실제로 유용하다고 알고 있는데 보조 교재를 통해 이것들의 구체적인 예시를 공부한다.


다음으로는 본격적으로 상대론적 양자장론을 살펴본다. 거시적 하전입자를 다루는 고전 전자기학에서 했던 것과 유사하게, Dirac field에서 로렌츠 공변성과 게이지 대칭성을 요구하는 것만으로 quantum electrodynamics의 라그랑지안을 얻는다. 대칭성을 요구함으로써 기존에 알지 못했던 법칙을 얻은 것은 이것이 처음이므로 검증이 필요한데, 이 이론을 통해 어떠한 주요 개별 현상들이 설명되는지도 기초적인 수준에서 알아두도록 한다.

또한 여기서 디랙 장의 위상 변환이 관여된 뇌터 원리를 통해, 게이지 변환에 대한 QED의 불변성에 대응되는 보존법칙이 다름 아니라 전하량 보존이라는 것을 알아본다. 또한 스핀 값이 교환자관계를 어떻게 제약하며 (spin-statistics theorem), 각 스핀 값에 대하여 어떠한 양자장론이 존재하는지를 살펴보기로 한다.

다음으로 양자전기역학이 gauge theory로서 gauge boson을 가져야 한다는 것의 의미와, 그러한 게이지 보손이 전자기력의 '매개 입자'라고 불리는 이유, 그리고 그것이 바로 우리가 아는 빛(전자기파의 양자로서의 광자)과 연결됨을 공부해 본다.

물론 아직 고전장론만 살펴본 상태이고, 공부해보지 않은 양자장론 부분에 대해서는 내가 질문거리들을 말이 되게 설정했는지조차 불명확하므로 이 개요 또한 향후 공부하는 과정에서 얼마든지 수정이 될 수 있다. 또한 구체적인 문제상황을 예측하기 위한 계산테크닉보다는 껍데기같은 주요 이론 유도 위주로만 빠르게 살펴보는 것이 과연 의미가 있을까 싶어 걱정이긴 한데, 상술한 주요 질문거리에 답하는 정도로 생각하면 괜찮지 않을까 한다. 전공 내용 관련 블로그가 반년 넘게 개점휴업 중인데 이러한 내용들을 정리해보면서 다시 살려보려고 한다.

마지막으로는 양자장론에서의 기타 개별 토픽에 대해 살펴본다. 현재 생각으로는 어디선가 주워들었던 주제들을 아주 대략적으로라도 한번씩 살펴보자는 느낌인데, 지금 관심이 가는 주제들로는 양자장론에서는 양자 얽힘이 어떻게 기술되며 어떠한 현상들이 존재하는지 알아보는 것, 그리고 이러한 이론들에 topology가 들어오는 배경과 그 중요성을 이해해 보는 것 등이 있다. 또한 통계역학에서도 많이 언급되는 conformal field theory가 무엇이며 왜 중요한지 이해해 보고, 이와 관련된 가장 심화된 주제로는 중력이론과의 대응성도 살펴볼수 있으면 좋을 것이다.

Facebook에서 이 글 보기: 링크

Friday, August 4, 2023

[논문 소개] Effects of the self-propulsion parity on the efficiency of fuel-consuming active heat engine

제 첫번째 1저자 논문(연료를 소모하는 능동열기관의 효율에서 자체추진력의 부호성질의 효과)이 Physical Review E에 출판되었습니다. (English description: below)



Bibliography: Yongjae Oh and Yongjoo Baek, "Effects of the self-propulsion parity on the efficiency of fuel-consuming active heat engine," Physical Review E 108, 024602 (2023).

Physical Review E link: https://lnkd.in/g6ASjWwp
arXiv preprint link: https://lnkd.in/gzyEKueJ

충돌에 의해 수동적으로 움직이는 일반적인 기체 대신에 에너지를 소모해 가며 스스로 헤엄치는 물질을 '능동 물질'이라고 합니다. 이러한 물질을 이용해서 엔진을 만들게 되면, 겉보기 효율이 전통적인 카르노 효율보다 높아질 수 있고 심지어 고온부와 저온부가 없이 하나의 온도로 된 환경 (예: 생물학적 계) 에서도 작동할 수 있습니다.

능동 열기관에서 정의되는 겉보기 효율은 전통적 효율로부터 자연스럽게 생각해낼 수 있으며, 또한 통계적 윤곽에 따른 유효 온도로부터 정의되므로 실험적 측정이 쉽습니다. 또한 전통적 한계를 넘는 상황을 잘 표현해주므로 중요합니다. 그러나 이러한 이례적으로 높은 효율이 정확히 어떠한 열역학적 원리에 의해 어디까지 가능한지는 이야기 해주지 못한다는 한계가 있습니다.

이는 입자가 헤엄치기 위해 필요한 숨겨진 에너지 흐름을 고려하지 않거나, 열(heat)과 일(work)을 올바르게 구분하지 않고 statistical profile을 바탕으로 유효적로만 다루어서 요동과 소산의 열역학적 구조를 적절히 밝혀주지 못하기 때문입니다.

이 논문에서는 먼저 연속적인 확률적 동역학에서 두 변수가 커플링되는 일반적인 이론적 구조를 제안합니다. 계가 열역학적 평형에 도달하려면 각 변수가 힘을 주고받는 구조에 대칭성(혹은 반대칭성)이 있어야 한다는 Onsager의 이론과 관련이 있습니다.

다음으로, 어떤 입자의 공간적 움직임에 연료 소모를 커플링시키고, 연료가 소진되지 않도록 chemical potential을 상수로 고정시킵니다. 이렇게 하면 그 입자는 상시적으로 평형으로부터 멀리 떨어진 능동물질이 됩니다.

그런데 이때 위에 말한 이론적 대응구조를 이용하면, 연료 소모량의 동역학이 확정되게 됩니다. 이렇게 써내려간 연료 소모의 동역학을 포함해서 열역학 제 1법칙을 쓰면 열을 정의할 수 있는데, 여기서 정의한 열이 확률적 개념으로부터 정의된 엔트로피와 정확히 일치한다는 것을 확인했습니다. 이렇게 엔트로피가 확률적인 개념으로부터 출발하는데도 단순히 비가역성의 statistical signature만 캡쳐하는 것이 아니라 정확한 에너지적 해석까지 갖는 모형을, 열역학에 부합하는 모형 (thermodynamically consistent model) 이라고 합니다.

이러한 엔트로피를 바탕으로 효율을 정의할 수 있는데, 이 효율 식의 분모에는 열과 연료 소모율(->일)이 둘 다, 그리고 서로 다른 비율로 들어가 있습니다. 이는 저희가 알기로 기존에 보고된 바 없는 식이지만, 사실 기존에 알려진 두 효율 식 (전통적 열기관 / 화학적 나노기계들) 의 자연스러운 interpolation 입니다.

이 양은 thermodynamically consistent하게 구성되었으므로 겉보기 효율과는 달리 명료한 에너지적 의미를 가지게끔 능동성의 근원을 밝히고 있으며, 또한 열역학 제 2법칙의 결과이기 때문에 늘 1보다 작다는 명확한 상한을 갖게 됩니다. 또한 이 효율을 가지고 위에 언급한 겉보기 효율도 recover할 수 있는데, 이 양이 카르노 효율을 넘을 수 있게끔 하는 에너지 흐름이 다름아니라 화학적 연료 소모임을 알 수 있습니다.

이 효율의 또다른 장점 중의 하나는 바로 시간 뒤집기에 따른 부호성질(parity)의 효과를 논할 수 있다는 것입니다. 능동입자의 추진력은 그 메커니즘에 따라 시간을 뒤집었을 때 그 부호가 바뀔수도 (odd parity), 유지될 수도 (even parity) 있습니다. 열역학에서 효율을 깎아먹는 요인은 바로 비가역성인데, 비가역성은 다름이 아니라 시간 뒤집기 변환 하에서의 비대칭성의 크기와 관련이 있으므로 이 둘의 효율 값은 달라야 합니다.

겉보기 효율로는 이 두 부호성질에서의 효율 차이가 캡쳐되지 않는데, 우리가 정의한 새로운 효율은 부호성질에 따라 달라지게 됩니다 (이 역시 thermodynamically consistent하게 해서 그렇습니다). 둘 중에 누가 더 효율적일지의 criterion은 unexpectedly 매우 간단하게 주어지는데, 엔진의 공간적 크기가 클수록 odd가, 작을수록 even이 더 효율이 높게 됩니다. 이러한 관찰은 직관적인 해석도 가능하며, 향후 마이크로미터 크기의, 잡음이 많은 환경에서 작동하는 기계를 디자인할때 좋은 참고가 될 수 있습니다.

Physical Review E는 미국물리학회에서 PRL, PRX 같은 최고 저널은 아니지만 준수한 논문들이 올라오는 각 부문별 저널 (PR A~E)의 하나로, 통계물리학 전공 연구자로 첫발을 뗀 느낌이라 이곳에 게재된 것을 기분좋게 생각합니다. 첫 연구를 정리하는 데 상당히 오래걸렸는데 그 과정에서 풀고 싶은 문제들이 많이 생긴 점은 다행이고, 앞으로의 학위과정 동안 이들 문제에 대해 의욕적으로 다루어보고자 합니다.

My first first-authored paper "Effects of the self-propulsion parity on the efficiency of a fuel-consuming active heat engine" is published in Physical Review E, an APS journal covering statistical, nonlinear, biological, and soft matter physics.


arXiv preprint link: https://lnkd.in/gzyEKueJ

This paper is motivated by the issue of describing the performance of 'active heat engine'. Active heat engine is an engine utilizing 'active particles' (or self-propelled particles) as its working substance instead of usual 'passive' gas particles. In this kind of engine, the efficiency can apparently be higher than the Carnot efficiency. This is important because it describes the engine operating at isothermal environment (such as biological systems), which is a behavior beyond the traditional limit.

However, this 'super-Carnot' behavior is possible because we neglect some hidden energy injection, or because we do not properly distinguish the concept of heat and work, just viewing the statistical signature of the dissipation as a whole. Therefore, this apparent efficiency lacks the relation with the fundamental laws of thermodynamics.

In this paper, we first develop a theoretical framework which guarantees a coupled continuous stochastic system reach thermodynamic equilibrium at the absence of external driving. Next, we couple a colloidal particle's positional coordinate with a constant chemical driving. Then the particle is kept far from equilibrium, resembling the dynamics of a renowned model of active particle 'active Ornstein-Uhlenbeck particle (AOUP)'.

Through this, we can describe how far the particle is deviated from equilibrium, not just from the statistical signature (breakage of fluctuation-dissipation relation), but from the clear energetic interpretation of the origin of activity. We think of an engine using this fuel-driven AOUP as its working substance.

Using the standard tool of 'stochastic thermodynamics', we successfully relate the heat dissipation (which is an energetic concept) with the entropy production (which is a probabilistic concept). Through this, we define a novel, 'thermodynamically consistent' concept of efficiency, which contains both heat injection and chemical fuel consumption in the denominator. This efficiency is properly bounded from above by the second law of thermodynamics.

A major advantage of this new efficiency is that we can address the effect of the 'parity' of particle's self-propulsion. The 'parity' means that whether the particle's self-propulsion does change its sign under time-reversal (odd-parity) or it does not (even-parity). Distinguished by a surprisingly simple criterion with clear meaning, engine with even-parity AOUP is efficient when the engine's spatial size is small, while the odd one is efficient when its spatial size is large.

If you are further interested, we welcome all your helpful comments, questions and exploration for future collaborations.

LinkedIn에서 이 글 보기 (English): 링크

Facebook에서 이 글 보기: 링크

Saturday, July 15, 2023

혼돈의 가장자리에서의 계산, 언어의 멱법칙 그리고 어텐션 메커니즘

옛날에 물리학자들이 computation in edge of chaos (혼돈의 가장자리에서의 계산) 이라고 해서, 창발적인 정보처리 시스템 (말하자면 일종의 아날로그 계산기)가 바로 임계점 (criticality), 즉 혼돈과 질서의 경계 근처에서 작동을 잘 한다는 연구를 많이 했었다. 주로 세포 자동자(cellular automata)를 바탕으로 한 연구들인데, 이런 개념이 90년대 당시의 신경망 연구에도 나름 적용이 시도되었던 것으로 안다.


딥러닝 붐 이후의 deep information propagation이라는 일련의 연구 흐름에서도 꽤 비슷한 메시지가 있다. 정보가 뉴럴넷의 layer를 따라서 충분히 깊게까지 전파되려면 뉴럴넷의 파라미터들이 임계점 근처로 초기화되어 있어야 한다. 그런데 untrained 뉴럴넷에서의 정보 전파의 평균 깊이는, 다름아니라 훈련 가능성 (trainability) 과 dual 관계임이 알려져 있다. 따라서 뉴럴넷이 학습이 잘 되기 위해서는 임계점 근처에서 초기화 되어야 한다는 것이다.


그런데 현실의 딥러닝에서는 이런 이상적인 뉴럴넷이 아니라 복잡한 기법이 덕지덕지 붙어 있는 아키텍쳐를 사용하는데, 과연 이러한 empirical한 상황들에서도 위와 같은 얘기가 의미가 있을까? 현재까지 생각하기로는, 정답은 '있다'인 것 같다. 대표적으로, 유명한 ResNet 모델처럼 skip connection을 주면, gradient가 exponentially explode하지 않고 따라서 뉴럴넷이 edge of chaos에 더욱 효과적으로 머무른다(hover)는 연구가 있다.


이외에도, 모델이 vanilla하고 단순할수록 임계점에서 쉽게 멀어져 버리고, 복잡한 기법들이 덕지덕지 더해졌을때 오히려 임계점 근처에 잘 머무를 수 있다는 생각은, 물리에서 스스로 짜인 임계성 (self-organized criticality) 이 왜 그리 특별하게 받아들여지는지 상상해 보면 그리 이상하지 않은 것 같다. 사실 내가 SoC를 제대로 공부해본건 아니어서 부정확한 상상일수도 있지만 말이다.


그리고 이런 식의 각론을 떠나서, 너무 질서있지도, 너무 혼란스럽지도 않은 딱 중간지점에서 자명하지 않고 재미있는 현상들이 나타날 것이라는 게 복잡계 과학을 연구하는 통계물리학자들 사이의 어떤 믿음이기도 하다. 그리고 통계물리학자라면 finite-size effect라는 이름으로 많이 들어 보았겠지만, 시스템의 크기가 무한하지 않을 때 이러한 혼돈의 경계는 sharp한 경계선 (메져 제로) 이 아닌 유한한 영역으로 뭉개지게(?)되고, 따라서 파라미터를 잘 고르면 실제로 달성이 가능하게 된다.


위와 같은 맥락에서 최근에 나는 트랜스포머의 셀프-어텐션 메커니즘 기반의 거대 모델들이 임계점 근처에서 작동할 거라는 상상을 하고 있다. 이거는 위의 맥락뿐 아니라 조리있는 언어 데이터 (요즘 말로 하면 거대언어모델의 출력데이터) 가 멱법칙을 보인다는 오래 연구된 관찰과도 합치한다. 그런데 이상하게도 이것을 직접 다루는 논문은 물론이고 간접적으로 시사하는 논문도 그리 많지는 않으며, 임팩트가 높지 않은 논문들만이 몇 건 있다.


복잡계 과학이라고 하는 분야가 임계현상, 혼돈의 경계, 비선형성, 자기조직화 임계성 등의 키워드 그 자체만으로 대단한 흥밋거리와 떡밥이 되는 시절은 아쉽게도 좀 지나가긴 했다. 그래도 물리학 및 인접분야 사람들이 이런 걸 분명히 많이 알고는 있을텐데 최근의 트랜스포머 기반의 거대모델에 대해 많이 적용을 안 한 것을 보면, 이미 다 계산해 봤는데 별다른 재밌는 게 안나오거나, 아니면 충분히 가능한 픽쳐인데도 아직 어려워서 안하거나 둘 중 하나일 것이다. 똑똑한 사람이 워낙 많으니 전자일 가능성이 높겠지만... 이쪽을 한번 공부하고 탐구해 보아도 재미있을 것 같다.


Facebook에서 이 글 보기: 링크

Friday, June 23, 2023

정보열역학(information thermodynamics) 공부의 계기

최근에 생각중인 주제는 여러 구성요소가 있는 시스템에서 협력 및 동기화라는 현상을 정보 교환이라는 관점에서 보는 것이다. 물리학에서의 정보라는 것은 일상에서의 정보와 상당부분 통하기는 한다. 그런데 정보가 많다 혹은 적다 라는 것이, 상황과 해석에 따라 일상에서의 의미와 같을 때도 있고 다를 때도 있다 보니 처음엔 상당히 헷갈릴 수도 있다.


통신이론에서 출발하여 전기전자공학에서 널리 언급되는 섀넌의 정보엔트로피가 물리학자들의 엔트로피와 기본적으로 동일한 양이라는 점은 널리 알려져 있는데, 정보열역학이라고 하는 분야는 에너지 교환뿐만 아니라 정보 교환(계의 구성요소가 서로의 상태를 탐지해서 피드백을 주는 것)까지 포함해서 열역학을 기술하고자 하면서 그 둘의 구체적 접점을 보다 비자명하게 탐색한다.


정보열역학 하면 주로 맥스웰의 악마, 질라르드 엔진(Szilard engine) 같은 아주 단순화된 모형계에 대한 연구를 떠올린다. 이것이 2000년대쯤부터는 Sagawa, Parrondo 등의 여러 파이오니어를 통해 연속적 동역학을 가진 시스템들에까지 확장되었고, 극히 최근에는 생체계에서의 정보처리 (정보교환이 있어야 생체 내 과정들이 정밀해짐. Leighton and Sivak 등) 혹은 아예 란다우어 원리를 필두로 한 미시적 계산장치들에 대한 이론적 분석 (Wolpert, Crutchfield 등) 등에도 적용되고 있다. 후자의 경우 나는 아날로그 딥러닝의 효율 분석 및 개선에도 적용될수 있을거라고 전망하고 있다.


내가 정보열역학에 관심이 생긴 것은 정보라는 것이 통계열역학 분야의 외곽에 약간 억지로(?) 들어와 있는 것이 아니라, 시스템을 두 하위 시스템으로 쪼개는 단순한 처리만으로도 매우 자연스럽게 정보의 개념을 고려하게 되므로 상당히 중심적인 양이라는 생각을 하게 되어서 그렇다. 즉, Szilard engine에서의 measurement and feedback을 통한 정보 처리 과정은 사실 아주 특별하고 새로운 것이 아니며, 상호작용하는 여러 구성요소를 가진 물리계라면 으레 존재하는 것이다.


각 하위 시스템에 대해 2법칙을 썼을 때, 전체 시스템에는 정보 개념이 없더라도 각 하위 시스템에 대한 2법칙에는 정보 개념이 들어가게 된다. 만약에 협력하는 여러 개체로 구성된 어떤 기계가 바깥에 유용한 일을 해 줄 때, 각 개체의 열효율을 2법칙에 부합하게 쓰면 그 효율에도 정보개념이 들어간다. 전체 효율과 하위시스템의 효율이 어떤 관계가 있는지, 정보교환이 클때 여러가지 이례적 현상들이 나타나지는 않을지 등을 연구하면 재미있을 듯하다. 이는 우리 연구실의 중심 토픽인 active matter의 집단현상에서도 중요할 수 있지 않을까 생각한다. Active matter가 일으키는 여러 재미있는 현상들의 가장 중심에는 결국 주변 환경에서 특정한 종류의 신호를 강화시키는 정류(rectification) 효과가 있다고 믿고 있는데, 이 정류라는 것이 다름아니라 measurement and feedback과 거의 동일한 것 같기 떄문이다.


일본 쪽 연구자 분들이 특히 잘하는 확률열역학 이론 분야에서, 정보개념까지 같이 생각하는 연구들이 속속 나오고 있는데 이들의 연구를 따라가 보면 좀더 우아하고 보편적으로 이론을 전개하는 방법을 배울 수 있지 않을까 한다. 7~8월에 일본출장이 예정돼 있는데 그 전에 여러가지 질문거리들을 꼭 준비해서 가야겠다.


Facebook에서 이 글 보기: 링크

Saturday, June 3, 2023

역전파(backpropagation)의 참된 중요성 이해하기: 자동미분과의 연장선에서

이제 와서 부끄러운 얘기일 수 있으나 그동안 머신러닝에서 gradient update에 사용되는 backpropagation에 대해, 그냥 gradient를 계산하기 위한 테크닉으로써 딥러닝이 현실적인 비용으로 작동할수 있게 하는 돌파구에 불과할(?) 뿐, 뉴럴넷의 작동 이유를 이론적으로 이해하는 데에는 별로 중요하지 않다고 생각해서 별로 신경을 안 썼었다.


그런데 얼마전에 물리 및 ai 기반 그래픽스 쪽에서 공부하는 분이 읽고 계신 Hamiltonian neural network 관련 논문을 함께 디스커션 할 기회가 있었는데, 얘기하다 보니 이게 절대 그렇지가 않은 듯... 뉴럴넷에서의 backprop뿐만 아니라 오히려 그것의 원관념(?)에 해당하는, 동역학을 가진 시스템의 최적화 등에서 많이 쓰는 자동미분(automatic differentiation)을 함께 보면 이쪽 패러다임이 왜 중요한 것인지, 왜 흥미로운 것인지 잘 이해하게 되는 듯하다.


여러 가지 함수 (그 각각의 미분을 symbolic하게 알고 있는) 각각을 노드(node)로 생각하면, 그것들을 graph로 연결시켜서 합성함수를 만들 수 있다. 이렇게 만든 함수도 그림으로 표현되어 있을 뿐, 결국 인풋과 아웃풋을 갖는 그냥 수학적인 함수일 것이다.


근데 이 함수를 수치적으로 미분을 한다고 하면, 이 함수에 두 개의 서로 아주 가까운 인풋을 넣고, 그 아웃풋을 비교해서 근사적으로 미분계수(도함수의 값)을 구해야 한다 (미분계수는 평균 기울기의 극한이니까). 이것은 번거로운 일이고, 인풋의 차이는 최대한 작아야 하는데 함수가가 커다랄수록 출력 함수값의 에러는 쌓일 테니, 에러가 잘 매니지돼서 원하는대로 잘 working할지 알기 어렵다. 그리고 각 인풋에 대해 이 도함수를 evaluate할 때 매번 새롭게 해야 한다.


근데 각 노드의 도함수를 symbolic하게 알고 있다면, 그걸 체인룰(합성함수의 미분)을 통해 조합해서 사칙연산만으로 도함수를 구할 수 있다. 이렇게 아무리 새롭게 graph로 연결을 지어서 만든 새로운 함수에 대해서도, 도함수와 그 값을 비교적 쉽게 얻을 수 있는 것이 바로 체인룰을 영리하게 사용한 자동미분이라고 이해해볼수 있다.


반면에 함수의 꼴조차도 아예 모를 경우에는, (ReLU나 Sigmoid 등의 꼴을 주로 갖는) perceptron을 일종의 '비선형의 최소 단위'로 간주하여 아주 많이 조합한 multi-layer perceptron으로 모형화해야 하며, 이것으로 임의의 함수를 shaping할 수 있다는 보편근사정리가 있다. 그리고 이게 바로 가장 간단한 뉴럴넷인 것이다.


그런 면에서 뉴럴넷의 역전파를, 위에서 말한 graph로 표현된 합성함수에 대해 사용하는 자동미분과 연장선상에서 이해하게 된다. 함수의 틀이 정해져 있느냐, 아니면 그조차도 몰라서 무작정 수많은 퍼셉트론의 조합으로 두었느냐만 다를 뿐이다. 수학적으로야 backprop이 자동미분의 리버스버전의 일종일 뿐이니까 더욱 명확한것 같고.


특히 physics-informed neural network (PINN) 를 보면 뉴럴넷 자체를 어떤 해밀토니안이나 액션 같은 함수 (및 범함수)의 proxy로 생각할때가 많은데, 이럴때는 꼭 최적화를 위한 SGD에서의 gradient 계산이 아니더라도(이건 그냥 패키지를 갖다 쓰면 되니까), 해밀턴 역학 특성상 뉴럴넷이라는 커다란 함수를 여러 변수로 미분한 도함수를 생각해야 할 때가 많이 있고 이럴 때 자동미분을 잘 이해하고 직접 사용해야 하는듯하다. 해밀토니안 내지는 액션을 미분을 해야 실제 물리 방정식을 얻을 수 있어서 그렇다.


암튼 이렇게 새로운 시각을 얻게 되니 backprop의 중요성에 대해 더 깊이 이해한 것 같고, 이런 것을 딥러닝 이전부터 활용하고 발전시켜 온 공학적 최적화 분야나 그래픽스 등도 무척 재밌는 분야인 것 같다.


Facebook에서 이 글 보기: https://bit.ly/3IXFdcv

(해당 포스트의 덧글타래에 이쪽 방법론의 박사급, 교수급 선생님들이 도움을 주셨으므로 읽어주신 분들 중 더 자세한 관심이 있으시다면 이쪽을 참고해주시면 유익할 것입니다)

Wednesday, May 24, 2023

프롬프팅을 통한 거대언어모델 설계원리 탐구에서 실험디자인과 해석의 중요성

기술의 세부에 대해서는 잘 모른채로 그냥 상상해 보는 것인데, ChatGPT를 비롯한 거대언어모델(Large Language Model, LLM)의 특성을 얘기하기 위해 프롬프트를 넣어서 조사를 할 때, stylized output을 줄 수 있는 LLM의 높은 capacity를 고려하여 실험 디자인과 그에 대한 해석에 상당한 주의를 기울여야 할 것 같다.


LLM을 가지고 놀다 보면 자기 자신의 특성 및 설계원리를 근본적으로(?) 드러내어 주는 것처럼 보이는 출력을 내는 경우가 있다. 자기 자신이 ai로서 어떠한 특징을 갖게 설계되었다는 명시적 응답은, 개발자들의 의도에 맞게 하드코딩되거나 RLHF되었을 수 있다는 생각을 사용자들이 쉽게 할 수 있으므로 오히려 비교적 덜 속아넘어갈 수 있다. 그것보다는, 우연성에 강하게 의존하는 작업을 시킬 때 LLM 자신도 모르게 그런 설계원리를 드러내어 버린 것처럼 보이는 경우가 특히 더 미묘하다.


그런데 여기서 생각해야 할 점은, 그렇게 accidental하게 설계원리를 드러낸 것처럼 보이는 사례들조차 대부분 stylized output, 즉 매 dialogue마다 다르게 일종의 '컨셉을 잡은' 연기에 불과할 수도 있다는 점이다. 즉 LLM이 제로샷 능력(더 구체적으로는 in-context learning 능력)에 힘입어 여러가지 처음 보는 과제 및 잘 정의되지 않은 과제를 수행하는 워낙 높은 capacity를 가진 탓에, 어떤 단일 dialogue만 보면서 그것이 다른 dialogue에 비해 더 근본적으로, LLM에 내재된 중요한 특성 탓에 광범위하게 나오는 결과라고 함부로 결론내릴 수 없는 듯하다.


세심하고 반복적인 프롬프팅을 통해 LLM이 가진 경향성을 탐색하고 성능을 최대로 이끌어내는 작업은 중요하고 흥미롭다. 그러나 실험자가 무엇을 보려고 의도해서 그것을 실제로 보았을 때, 단순히 그 담화 내에서의 연기에 속아넘어가는 게 아니라 LLM의 아주 일관적인 특성을 드러내었음을, 즉 소위 말해서 학술지식으로서 가치가 있는 '논문감'임을 입증하려면 실험 디자인과 해석을 굉장히 잘 해야 하는것 같다.


사실은, 본질(?)이 아닌 연기임에도 아무튼 그러한 연기를 이끌어내는 체계적인 프롬프팅 방법이 존재하고, 그로 인해 좋은 성능이 나온다면 이 역시 의미있는 결과가 되기도 할 것이다. 그 두 가지를 구별하기도 어렵다. 예컨대 특정 프롬프팅을 통해 LLM이 SAT 시험 문제를 훨씬 잘 풀게 되었다고 하면 (실제로 이와 비슷한 결과들이 굉장히 많다), 이것은 stylized된 연기라고 하더라도 아무튼 그 시험을 실제로 잘 풀게 된 것이며, LLM은 분명히 그런 능력을 가지고 있다고 말할 수 있을테다. 이는 의미있는 지식이 된다.


한편, 뭔가 도식이 한 군데 잘못되어 있어서, 일관적인 이상한 방식으로 시험문제를 틀리는 dialogue도 존재할 수 있을테다. 이런 컨셉을 수행하는 능력 역시, 설계 원리상으로 보면 어떤 failure라기보다는, 위 문단에서 서술한 시험문제를 잘 푸는 dialogue와 비교했을 때 꼭 그것과 같은 만큼 'LLM이 가지고 있는 능력'이라고 봐야 되지 않을까 하는 것이다.

때에 따라 매번 다르게 수많은 컨셉을 잡고 얘기를 할 수 있는데 (혹은 언제나 그렇게만 할 뿐인데), 그 컨셉이라는 것에 실제 전문적인 수준의 퍼포먼스를 발휘해 주는 것까지 포함이 되어 버리다 보니 LLM이 우리의 직관을 벗어나는 점이 많은 것 같다.


또한 유명한 ChatGPT 탈옥 방법으로 'pretend that you are a~' 따위의 프롬프팅을 통해서 부적절하고 위험한 결과를 내는 게 있는데, 이때 사용자는 겉으로 안 보이게 안에 숨겨져 있는 어떠한 능력을 uncover했다는 느낌을 받게 된다.

그러나 사실은 그냥 LLM에는 구조상 '겉면밖에 없고', 때에 따라 완전히 다른 겉면들을 보여주며, 그것들 중에 RLHF를 통해 금지해 둔 한 가지를 우회적으로 본 것일 뿐이라는 게 좀더 적절한 이해일 수도 있을 것 같다. 이런 점에서 흔히 아이폰 같은 데서 얘기하는 탈옥과는 많이 다른 듯하다.
물론 by design 그렇다는 것이지, 능력의 어떠한 계층 구조가 자연스레 emerge했을 수는 있고, 그런 걸 탐색하는 것도 정말 재밌는 작업일 것이다.

아무튼 생명과학, 심리학 등 복잡한 대상을 다루는 실험과학 분야에서도 과연 연구자가 원하는 그 효과를 제대로 보고있는게 맞는지를 확신하기 위해 실험 디자인에 굉장히 공을 들이는 것으로 알고 있는데, LLM을 대상으로 한 실험들에서도 비슷한 면모가 있는 듯하다.
특히 LLM의 경우 시험문제 고득점 하는것처럼 명확한 척도가 있는경우도 있겠지만, 여러 가능성이 열려 있는 창의적인 과제에 대한 수행능력을 평가할때 일률적 정량화가 곤란한 semantic한 층위가 전면에 들어오다보니 더 미묘한 면이 있는 것 같다. 연구문제 설정과 실험 디자인에 있어 생각을 아주 정밀하게 해야지만 믿을 만한 지식으로 정리가 될 듯하다.
아무튼 방대한 데이터와 심원한 아키텍쳐로부터 오는 LLM의 과제 수행능력이, 단순히 답을 잘 주는 걸 넘어 다양한 부문의 대화를 수행하는 데 이르는 것을 보면 굉장히 기분이 묘하다. 마치 사람이 직업상 아주 틀에 박힌 말을 할 수도 있지만 동시에 사적인 자리에서는 개인으로서 여러가지 입체적 면모를 가지고 말을 할 수도 있는 그런 느낌이 들기도 한다. 이는 수많은 종류의 텍스트를 학습한 덕분일 것이다.
이러한 LLM은 성능이야 무척 좋지만 결국은 과제별로 따로따로 학습해야 하는 전통적인(?) 딥러닝에 비해서도, 양적, 질적, 개념적으로 한 차례 도약해 있는 패러다임이라고 생각이 든다.

물론 서두에 말했듯 개인적으로 이쪽에 대해 주워듣고 내 마음대로 생각해 본 것들은 있지만, 제대로 된 전문적 이해는 없는 관계로 이 모든 내용은 상상에 불과하며, LLM을 평가하고 이해하기 위한 더 좋은 방법과 개념적 틀들이 이미 있을 존재할 것이다. 이들을 기회가 될 때마다 잘 팔로우업해 보고자 한다.

Facebook에서 이 글 보기: 링크

Saturday, May 6, 2023

이론물리학 지식 습득에의 미련에 관하여

공부를 하다 보면 앞으로 어차피 들여다볼 시간과 기회가 없을 법한, 그리고 내 연구와 직접 연결될 거라고 기대하기 어려운, 어렵고 멋있어 보이는 지식체계 및 이론들에 대해서 많은 미련을 가지는 편이다. 사실 특정 연구주제에 대한 전문성을 요구받기 이전인 학부생 시절에 그런 토픽별 공부를 깊게 해 두었으면 좋은데, 그렇지 못했다 보니 더 그런 것 같다.


어떤 교수님들은 박사과정 대학원생 때야말로 '공부'를 할 수 있는 마지막 기간이라는 점을 강조하시며, 연구와 직접 관련있지 않더라도 궁금한 이론들이 있으면 지난(至難)한 계산들을 직접 해 보며 많이 습득해 두라고 조언을 해 주신다. 한편, 명확한 목적이 없이 단순한 호기심으로 책을 독파하는 식의 공부는 가급적 지양하고 연구와의 관련성 하에서 효율적인 공부를 하며 연구에 집중하도록 조언을 해 주시는 분들도 계신다.


능력이 아주 뛰어나서 공부하는 속도가 빠르다면 위 둘을 모순되지 않게 병행할 수 있겠으나, 물리학과 내에서 보통 혹은 그 이하의 실력을 가진 내 입장에서는 유한한 시간이라는 제약 하에서 위 둘은 현실적으로 충돌하며, 이도저도 아니게 둘 다 가져가려 하기보다는 선택을 해야 하는 입장이다. 이런 입장이라면 결국 대학원생은 (특히 박사 수료 이후에는) 학생이라는 신분보다는 연구에 시간을 투입해서 논문을 써야 하는 예비 연구자로서의 신분이 강하다는 생각이 들고, 나로서도 그러지 않으면 초조하기도 해서, 적어도 강령으로서는 후자에 더 무게를 둘 수밖에 없다.


노력해서 습득할 수 있는 멋진 이론물리학 지식 체계 - 심지어 그것들은 수학적으로 기술되다 보니, 그저 체계적이기만 한 사상누각 같은 게 아니라 객관적으로 검증 가능하며 새로운 지식을 무한히 창출하는 것들인데 - 가 멀쩡히 존재하고 있음에도 그것을 일일이 이해하고 싶다는 미련을 버리는 게 연구자로서 필요한 덕목일 수 있다는 것이다. 대학원 다니면서 제한된 시간 내에서 직접 부딪혀 보며 잘 납득하게 됐지만 마음 속 깊은 곳에서는 아직도 와닿지가 않는다.


물론 그렇다고 해서 시간을 들여서 그 지식들을 직접 공부 해내느냐 하면... 그러면 차라리 좋을 텐데 위에서 말했듯이 그것조차 아니다. 결국 능력과 시간이 부족해서 못 하면서 무의미한 미련만 계속 생기는 것 같다. 여러모로 내 여건과 능력 하에서 공부해 볼 수 있는 것들의 한계를 인정하고 미련을 버리면서 지혜롭게 치고 나가는 태도를 마음 깊이 내면화해야 할 것 같다.


잠깐 대학원생의 이러한 자세한 사정을 차치하고 조금 더 일반론적인 관점에서 '지식 추구'로서의 공부에 대해 이야기를 해 보자. 입신양명을 지향하는 일반적인 범주의 학업을 넘은, 지식체계에서 보이는 개념들의 탁월성과 이론의 미묘한 정합성들에 매료되어서 여기에 천착하는 태도가 과연 인생의 팔자에 도움이 되는가를 비판적으로 생각해 볼 수 있다. 한국 사회에서는 공부를 잘 하는 사람을 대단하다고 생각하는, 혹은 성공을 할 것이라고 여기는 분위기가 있는데, 그러나 이것은 사실 위에서 말한 일반적인 범주의 학업까지에만 해당되는 이야기가 아닐까 한다.


만약에 공부가 깊어져서 건전한 지식을 생산하면서 학술 장을 유지하고, 생산되는 지식을 사회에 공급하거나 사회와 견주어 보는 지식생산 노동에 이르게 되면, 공부가 깊어질수록 오히려 팔자에 도움이 되지 않으며, 사람들이 크게 관심을 갖지도 않고, 관심을 가지더라도 주로 그다지 좋게 보는 쪽은 아닌 것 같다. 결국 한국 사회는 공부라는 것의 수량화, 실용화 가능한 외피와 그로 인한 성취지위에 관심이 많을 뿐, 개념들을 치열하면서도 재미있게 부딪혀 보며 갈고닦는 작업으로서의 공부의 '내용' 혹은 '과정'으로 논의가 확장되는 순간 사람들의 관심은 사라지는 듯하다.


그런데 나처럼 내가 현실적으로 소화하기 어렵고 연구에도 도움이 되지 않는 지식들에 미련을 갖고 굳이 들여다 보려는 경향을 갖는 사람은, 이러한 지식 추구에의 무관심, 공부의 입신양명 도구화 경향으로부터도 분명히 배울 점이 있는 듯하다. 관심을 가질수록 오히려 시간만 과다하게 투입하면서 연구의 현장과 유리되는 경향이 생기므로, 그러지 말고 내가 능숙하게 다룰 수 있고 또한 그러기를 요구받는 도구들 내에서 보편적 독자가 재미있어할 만한 문제 설정을 해서 빨리빨리 풀어 내는 것이 중요한 덕목이라고 생각하는 것이다. 말하자면 지식추구 라는 가치에 지나치게 매몰되기보다는, 결국 현재의 내 status에서 부여받은 역할(주로 지식생산)을 하는 것인데 그 역할이 우연히도 사회 평균보다 지식추구와 조금 더 많이 관련되어 있을 뿐인 셈이다.


재밌었던 것은 가족들에게도 이러한 깨달음에 대해 이야기할 기회가 있었는데, 그건 원래 그런 건데 이제야 알았냐고, 15년째 나에게 똑같은 얘기를 했다고 하셨다. 공부뿐만 아니라 평소 생활에서의 문제해결 능력 면에서도, 본인이 감당하지 못할 거면서 어렵고 답답하고 오래걸리는 길을 가려는 경향이 있어서 늘 걱정을 했다고 하신다.

아무튼 일을 하는 데에 있어 내 이러한 경향을 적당히, 효율적으로 활용해서, 내가 다룰 수 있는 이론적 도구들의 범위를 넓혀 가면서도 내 연구라는 명확한 목적 하에 생산적으로 복무시킬 수 있다면 가장 좋을 것 같다.

Facebook에서 이 글 보기: 링크

Sunday, April 16, 2023

비평형 협력의 열역학: 성능 개선과 이례적 응답의 근원

주말에 인턴 학생에게 제공할 겸 해서, 최근 구상 중인 연구의 research proposal을 열심히 썼다 (이 문단 밑에 첨부). 쓰고 나니까 내 명료하지 않았던 생각도 섬세하게 잘 정리가 되어서 한결 나았다. 프로포절의 요지는 통념의 물리학적 상식과 반대로 반응하는 이례적 응답(anomalous response)에 대한 것이다.


나는 이런 것들이 공통적으로 비평형 조건에서의 협력에 의해 가능한 유효(effective) 현상들이라고 보고, 그것을 지탱하는 열역학적 원리를 알아내고 싶은 것인데, 예컨대 어떤 유체 속에 물체가 잠겨 있으면 상식적으로 마찰에 의해 운동을 방해받아야 맞는데, 개별 입자 수준에서 에너지를 소모하면서 헤엄치는 능동 유체(active fluid)라면 그 속의 물체는 오히려 한번 시작한 운동이 더 빨라질 수 있다.

또한 세포골격을 걷는 분자 모터들에 동기화 항을 주면, 앞으로 밀었는데 오히려 뒤로 당겨져 오는 '음의 질량' (effective negative mass) 이라는 현상도 생길 수 있다. 이외에도 작용/반작용 법칙을 위배하는 non-reciprocal coupling, 그리고 점성인데도 에너지를 흩뜨리지 않는 odd viscosity, 탄성인데 독특한 방식으로 에너지를 되뱉는 odd elasticity 등이 있다.

그런데 이러한 이례적 응답들은 각각 따로 연구는 활발하게 되었고, 모두 다 비평형 때문일테지만, 이것들을 통합적인 관점에서 보는 것은 잘 없다. 또한 어떤 열역학적 원리 (즉 에너지출입과 비가역성) 에 의해 가능한지, 얼마만큼의 열역학적 비용이 드는지도 잘 연구된 게 없다.
그래서 내가 상상한 것은, 이러한 이례적 응답은 결국 어떤 응답계수의 부호가 +에서 -로 바뀌는 것이거나, 아니면 어떤 행렬 같은 것에 반대칭적 성분이 생기는 것이니까, specific한 시스템이 아니라 아주 일반적인 어떤 행렬같은것만 두고 그것들에 대해 확률열역학(stochastic thermodynamics)적 분석을 하면, 그 행렬을 특징짓는 어떤 양이 엔트로피 같은 열역학적 비용과 연관되어 써지지 않을까 싶었다. 그러면 여러가지 이례적 응답을 통합적으로 기술할수 있다.

그런데 다 쓰고 나서 마침 비평형 열역학의 기하학적 해석 관련해서 논문을 엄청 많이 쓴 교토대학의 Andrea Dechant 및 Shin-ichi Sasa 그룹이랑 도쿄대학의 Sosuke Ito 그룹에서 요즘 뭘 하고있는지 궁금해서 들어가 보았는데, Ito 그룹에서 내가 궁금하던 정확히 저런 것을, 그것도 아주 일반적으로 기술하는 논문을 지난달 말쯤에 아카이브에 올렸다 (arXiv preprint 링크: N Ohga, A Kolchinsky and S Ito, "Thermodynamic bound on the asymmetry of cross-correlations," arXiv preprint, arXiv:2303.13116.).
이 논문은 상관함수의 반대칭성의 정도가 엔트로피 소모량에 의해 한계지어진다는 것을 매우 일반적, 명시적으로 증명했는데, 물리학 분야에서 최고 저널 중에 하나인 Physical Review Letters (PRL) 타겟으로 쓴 것 같고, 워낙 내용이 좋아서 아마 PRL에 붙지 않을까 싶다. 또한 바로 5일쯤 전에도 같은 저자들에 의해 비슷한게 올라왔다. 이건 spectral 즉 고유값 관련 성질로 풀었다.
(230630 내용추가: 이 논문에 관하여 이번 6월에 진행된 국내 행사 <11th Workshop on Nonequilibrium Fluctuation Theorems>에서 내가 소개했던 발표 자료를 아래 첨부한다.
관련 Facebook post: 링크)



(230904 내용추가: 예상대로 이 논문은 확률열역학 분야의 많은 사람들에 의해 즉각적인 관심을 끌었고, PRL에 무려 Editor's suggestion으로 게재되었다. PRL에 게재된 논문 링크: N Ohga, A Kolchinsky and S Ito, "Thermodynamic bound on the asymmetry of cross-correlations," Phys. Rev. Lett. 131 (7), 077101 (2023).)

그렇다면 내가 할 수 있는 건 무엇인가? 일단 반대칭 성분이 등장하는 것이랑 (non-reciprocity 등), 어떤 응답계수의 부호가 +에서 -로 바뀌는 현상 (음의 질량 등)이 서로 통합될 수 있는지 없는지 판단해 보아야 한다. 만약 두가지가 서로 다른 것이라면 후자는 이번 Ito 그룹 논문에 의해 명시적으로 다뤄지지는 않은 것이므로, 이를 빠르게 다뤄볼수 있다. 만약 두가지가 서로 같은 것이라면 좀더 구체적인 개별 시스템 (내가 다루고있던 능동물질 등) 에 대해 적용해 볼 수 있겠다.

Facebook에서 이 글 보기: 링크

Friday, March 31, 2023

비평형 능동물질과 배트맨 리턴즈: When does locality help?

문화예술과 과학기술은 서로 영향을 주고받으며 발전한다. 특히 계산기술의 양적, 질적 발전은 영상매체에서의 생생한 그래픽 표현을 직·간접적으로 뒷받침해준다.

사실적이면서도 화려한 영상 효과 구현을 위해서는 적절한 수학적 모형화와 대량의 계산이 필요하다. 실제로 <반지의 제왕> 시리즈의 영상 효과를 담당한 회사 '웨타 디지털', 그리고 수식어가 필요 없는 애니메이션 회사 디즈니의 연구조직 '디즈니 리서치' 등에서는 일찍이 문화기술의 중요성을 인식하고 예술가들뿐만 아니라 로보틱스 연구자, 수학, 물리학 및 계산과학 전공자 등을 고용해 왔다.

이 글에서는 컴퓨터 그래픽스와 물리학의 관계에 대해서 재미있는 고전적 사례를 소개하고, 앞으로는 이들이 어떤 관계에 있게 될지, 그리고 꼭 관계가 있어야만 할지 등에 대해서 살짝 생각해 본다.


능동 물질과 배트맨 리턴즈

필자의 전공인 통계물리학은 수많은 입자가 상호작용하는 상황을 확률론을 도구 삼아서 기술하는 물리학의 한 분야이다. 일(work), 열(heat) 등 에너지의 흐름과 그 비가역성에 대한 학문인 열역학을 볼쯔만 등이 현대적으로 정당화하는 과정에서 등장하였다. 이 분야에서 2010년대 이후로 활발한 관심을 끌고 있는 키워드는 바로 능동 물질(active matter) 이다.

능동물질이란, 입자 간의 수동적인 충돌에 의해서 움직일 뿐인 보통의 액체 및 기체 등과 달리, 개별 구성 입자들이 스스로 연료를 소모하면서 적극적으로 헤엄치는 물질을 말한다. 대표적으로 생물체들의 세포 내에서 에너지를 소모하면서 움직이는 여러가지 분자크기 기계들, 혹은 움직이는 세포 그 자체들, 그리고 어떤 추진 장치를 갖게끔 화학적으로 특별히 합성된 콜로이드 물질 등이 있다.

이러한 능동물질은 밖에서 공급되는 유용한 에너지를 꾸준히 소모하면서 (열로 전환하면서, 즉 우주의 엔트로피를 증가시키면서) 평형으로부터 떨어져 있으므로, 비평형 시스템의 한 예시이다. 이러한 능동물질 연구의 효시로 꼽히는 연구는, 새들이 몰려다니는 집단적 움직임을 나타내기 위해 1995년에 제안된 비첵(Vicsek) 모델이다. 각각의 입자는 자체적인 방향성을 가지고 돌아다니는데, 자기 자신의 '시야 범위' 내에 있는 입자들을 보고, 그 주변 입자들의 평균 방향으로 정렬하게 된다.

그런데 재미있게도 컴퓨터 그래픽 연구자인 C. Reynolds가, 이미 거의 동일한 모델을 Boids라는 이름으로 1986년에 제안했다고 한다. 그리고 이 Boids 모델은 Reynolds가 엔지니어로 참여한 1992년도 명작 영화 <배트맨 리턴즈> (배트맨 2) 에도 적용되어, 박쥐들의 집단적 움직임을 사실적으로 표현해 주었고 이로써 영화에 음산한 느낌을 더해주었다 (박쥐는 새가 아니지만 아무튼...).


https://journals.aps.org/prx/abstract/10.1103/PhysRevX.12.010501

(위 링크: 능동물질 분야의 대가들이 저술하여 Physical Review X에 게재한 총설논문 (접근 권한 필요). 논문 본문의 Introduction 부분에 배트맨 리턴즈에 대한 언급이 존재한다 (Boids가 물리학자들에게 여기서 처음 재발견된 것은 아니다). Bowick, Fakhri, Marchetti and Ramaswamy, Physical Review X, 12 (2022).)

배트맨 리턴즈가 포함된 이 영화 시리즈는, 현재 우리가 배트맨 실사영화 하면 떠올리는 어둡고 진지한 분위기의 전형을 확립한 작품들이다. 배트맨이라는 매력적인 캐릭터, 팀 버튼 감독 특유의 분위기와 함께, 이러한 수학적 모델링 아이디어와 계산 기술력의 진보 또한 영화 연출의 완성도에 일정부분 역할을 했다고 하면 무리한 추측일까.

국소성 (locality) 을 둘러싼 생각

아무튼 통계 물리학자들과 컴퓨터그래픽 연구자들은 서로의 분야에서 거의 비슷한 모델이 있음을 꽤나 오랫동안 서로 몰랐던 모양이다. 따라서 이를 이론과학과 문화기술의 직접적 상호작용이라고 보기엔 애매하다. 그러나 각 분야의 관심사 및 계산 기술의 발전에 의해 '나올 때가 되어서' 서로 비슷한 시기에 나온, 말하자면 예정된 우연이라고 할 수 있겠다.

그런데 이러한 모델은 질량, 운동량, 에너지 등의 교환이 시공간적으로 서로 잇따라 (즉 '국소성 (locality)'을 만족시키면서) 전달되는, 전통적인 물리학에서 좋아하는 역학적 상호작용이 아니다. 메커니즘은 모르지만 아무튼 주변을 보고 그에 따라 정렬된다고 거시적인 규칙을 정해 준 것 뿐이다.

(예컨대 새가 주변의 다른 개체들을 눈으로 보고 방향을 바꾸는 것이라고 치자. 이것을 역학적으로 제대로 모델링하려면, 주변의 개체들에서 반사된 빛 입자가 새의 눈에 들어오고, 이것이 시각 세포를 자극하고, 그 신호가 신경을 통해 뇌로 들어가 어떤 판단을 일으키고, 그러한 판단에 따라 날개에 어떤 운동이 지시되어 비행 방향이 조절되는 것을 일일이 고려해야 한다. 이러한 과정을 최대한 사실적으로 표현하겠다고 일일이 역학적으로 모델링하여 컴퓨터로 재현한다는 것은, 설령 그렇게 하더라도 별다른 실익이 없는 코믹한 일이다.)

물리학에서는 이러한 것을 좋아하지 않는다. 대표적으로 중력은 서로 멀리 떨어져 있는 두 천체 사이에 작용하며, 서로 멀리 떨어져 있는 두 전하 (+ 혹은 -) 사이에는 전자기력이 작용하는데 물리학자들은 이러한 원격 작용이 만족스럽지 않았다. 따라서 물리학자들은 두 천체, 혹은 두 전하 사이의 모든 공간을 중력장, 혹은 전자기장을 비롯한 장 (field) 이 채우고 있다고 생각하였고, 입자간의 상호작용은 장의 존재, 혹은 장의 변화를 통해 매개된다. 이로써 원격 상호작용으로 여겨지던 이러한 기본 힘들은, 장을 통한 국소적인 상호작용의 연쇄로 새롭게 이해되었다. 이러한 접근은 인류 과학사에서 손꼽힐 만큼 성공적이어서, 장론 (field theory) 은 거의 모든 현대 물리학 이론의 표준적, 통합적 기술 방법으로 되고 있다. 또한 이러한 장들은, 단순히 이론적인 도구가 아니라 근본적인 물리학적 실재(實在)처럼 받아들여지는 느낌이다 (전자기파, 중력파와 같은 파동의 검출이 결정적이다).

그러나 이미 썼듯이 비첵모델은 매우 거시적인 수준의 모형이고, 상호작용을 매개하는 구체적인 국소적 상호작용이 모형화되어 있지 않다. 또한 비첵 모델은 유효적 (effective), 혹은 현상론적 (phenomenological) 기술일 뿐, 위에 쓴 능동물질의 정의에도 있는 에너지 출입에 대한 고려, 즉 '열역학이 들어가 있지 않다. 따라서 평형으로부터 얼마나 멀리 떨어져서 작동하는지 체계적인 분석이 어렵다. 이처럼 거시적인 새들 (혹은 박쥐들, 물고기들 등) 의 집단 운동은 도리어 '너무나 극명하게' 평형으로부터 멀다.

상전이와 보편성

위와 같은 점들을 고려하면, 비첵 모델은 에너지 출입에 대한 적절한 고려도 없고, 국소적인 상호작용의 연쇄로 이해될수도 없으므로, 물리학이라기보다는 그냥 입자기반 시뮬레이션 같은 것일 뿐이라는 의문을 가질 수가 있다. 대체 왜 물리학으로 분류될까? 실제로 필자가 주변에서 많이 받는 질문인데, 이에 대한 답은 간단치 않다.

일단 일종의 제도론적인 답을 하자면, 그냥 물리학자들이 주로 했기 때문에 그런 것 같다. 사실 이것이 제일 정확한 답일 수 있다. 그러나, 이러한 사회구성주의적 답변에서 그치지 말고 규범적 정당화를 시도해 볼 필요도 있다.

내 생각에 이런 종류의 모델들이 물리학으로 분류될 수 있는 이유는 바로 상전이 (phase transition) 의 존재 때문에 그렇다. 상전이란, 온도에 따라 액체가 기체로 변하는 것처럼, 파라미터의 변화에 따라 물질의 어떤 특성이 점진적으로 변하지 않고 급격하게 변하는 것이다.

이러한 상전이가 왜 그렇게 이론물리학자들이 특별하게 여기는 현상인지, 점진적인 변화와는 근본적으로 어떻게 다른지도 다루고 싶으나, 물리학자들이 좋아하는 주제인 대칭성, 보편성 등과 매우 깊은 관련이 있다고 해 두고 그 세부는 지면상 생략한다. 결국 이러한 다소 인위적이고 현상론적인 모델도, 상전이를 보여준 덕분에 물리학자들의 활발한 관심 대상이 될 수 있었던 것이다.

비첵 모델은 새들의 밀도가 낮거나 노이즈가 클 때에는 무질서한 운동을 보이는데, 밀도가 높거나 노이즈가 작아지면 위에서 이야기한, 다같이 비슷한 방향으로 몰려다니는 large-scale 집단운동을 보여주게 된다 (여러 동물들에서 이러한 현상이 있는데, 새들의 경우에는 flocking이라고 불리고, 물고기는 schooling이라고 불리며, 보다 넓은 용어로는 swarming이라고 부르는 듯하다). 이론적으로, 이러한 몰려다니는 상태는 평형에서는 불가능한, 철저히 비평형적인 현상이므로 흥미롭다. 그리고 이러한 변화는 서서히 일어나는 것이 아니라, 특정 조건 주변에서 급격하게 일어난다.

이러한 상전이 특성 탓에 비첵 모델은 물리학자들의 상당한 관심을 모으게 되었고, 현재 최초 논문 1개만 해도 7600회 이상 인용되었다. 또한 커다란 개체 스케일이 아니라 세포 스케일에서 일어나는 여러가지 집단 현상에 대해서도 이와 비슷한 틀로 분석을 하는 연구들이 생겨나면서 능동물질 분야가 본격적으로 시작되었다. 이렇게 능동물질이라는 하나의 인기있는 토픽으로 정리가 된 것은 보통 2010년쯤으로 본다.

그리고 정말로 '물질'이라고 불릴 만한, 분자크기 즉 나노~마이크로미터 스케일의 응집물질들 중에서도 에너지를 꾸준히 소모하며 헤엄치면서, 평형에서는 관찰되지 않는 흥미로운 집단현상을 보이는 계들이 많이 발견되었고, 능동물질이라는 틀에서 통합적으로 연구되게 되었다. 이제 이들은 확률과 결합한 현대적 열역학의 체제에서, 에너지를 얼만큼 소모하면서 평형으로부터 얼만큼 떨어져 있는지의 문제까지 포함하여 정량적으로 잘 기술되고 있다.

Concluding remarks: 그래픽스와 물리학의 관계 혹은 무관계

최근에 모종의 계기로 그래픽스와 물리학의 관계에 대해 생각을 많이 해 보고 있었는데, 마침 그래픽스와 능동물질 물리학의 이러한 오래된 연결을 알게 되어 꽤나 신나는 심정이다. 이러한 그래픽스와 물리학의 관계가 앞으로는 어떻게 전개될지 다소 추상적으로나마 생각해보았다.

그래픽스는 기본적으로 꼭 진실성을 추구하는 것이 아니라 예술적인 장면을 연출하기 위한 것이다 (진실성을 추구하면 그때부터는 문화기술이라기보다는 과학의 영역이며, 주로 그래픽스라기보다는 시뮬레이션이라고 불린다). 이것을 반드시 물리학에 기반해서 할 필요는 당연히 없다. 그러나 진실성과 별개로, 시청자를 설득할 만한 사실성은 대부분 필요하다. 사실적 표현을 하기 위해, 혹은 조금 덜 사실적이더라도 예술성을 기하기 위해 물리학과 그래픽스가 서로 영감을 주고받고, 더 나아가 물리학적 모형 및 방법론을 직접적으로 활용 가능한 지점은 꽤 많아 보인다.

현대 이론과학으로서 좁은 의미의 물리학뿐 아니라, 시간에 따른 자연현상의 수학적 기술이라는 좀더 넓은 의미의 물리학적 (혹은 동역학적) 방법론이라면 더욱 명백하게 그렇다. 어떤 경우엔 국소적인 상호작용을 물리학적 정확성에 집착하지 않아야 더 효율적으로 멋진 장면을 만들어낼 수도 있을 것이고, 또 어떤 경우에는 물리학 지식의 도움을 받아 쉽게 멋진 장면을 만들 수도 있을 것이다.

특히 최근에는 딥러닝 분야의 발전에 따라, 커다란 인공 신경망의 높은 일반화 성능, 그리고 특징추출 (feature extraction) 및 차원축소 (dimension reduction) 능력에 의해 동역학계 이론, 로보틱스, 컴퓨터비전, 컴퓨터그래픽스 등 여러 분야가 서로 glue되고 경계가 흐려지면서, 이러한 관심사는 더욱 여러 방향으로 구체적으로 전개되고 있다.

위에서는 과학분야로서의 시뮬레이션의 경우 진실성을 기하기 위해, 국소적 상호작용을 얄짤없이 일일이 재현해야 하는 것처럼 말했다. 물론 거의 모든 경우에는 맞다. 그러나 요새는 심지어 시뮬레이션의 경우에도 딥러닝의 도움을 받아서, 통계적으로 희귀하지만 꼭 보아야 하는 이벤트, 혹은 강한 비선형 효과 등에 대해 적은 계산량만으로도 올바른 결과를 내겠다는 연구가 많다. 그 결과의 진실성을 어떻게 확신할지는 기술적으로도, 과학철학적으로도 어려운 문제일테다.

아무튼 그래픽스에서 이러한 딥러닝 방법은 국소적 상호작용을 일일이 재현하지 않고 사실성에 기여하는 핵심적인 윤곽만을 효과적으로 추출해서, 계산량을 줄이면서도 물리학 지식의 도움을 효과적으로 받게 할 것으로 기대된다 (또한 이는 세상에 존재하는 거시적 현상들에서 뭐가 중요하며 어떻게 돌아가는지에 대한 미술가적인 이해를 돋우는, 일종의 '과학 아닌 과학' 역할을 해 줄 수 있을 것이라고 본다).

결론짓자면 많은 계산량으로 악명높은 그래픽스 분야가 때로는 물리학적 정확성에 대한 추구를 폐기하면서, 때로는 반대로 물리학으로부터 도움을 받으면서 더욱 발전하여 사람들에게 문화적인 즐거움을 주기를 바란다. 이러한 적절한 판단 필요성의 중심에는, 결국 한편으로는 정확한 수학적 모형화를 돕고, 한편으로는 계산량을 더욱 증가시키는 국소성의 양면이 있다.


Alookso에서 이 글 보기: https://alook.so/posts/LKtaxGk (이론물리학 그리고 배트맨 리턴즈: When does locality help?)

Facebook에서 이 글 보기: 링크