게시물 목록

Sunday, November 23, 2025

[Deepest S18 Seminar] Geometry of solution space: Flat minima, replica theory and mode connectivity

    Last Saturday, I hosted a seminar at Deepest (an SNU student deep learning club). I mainly focused on theoretical topics related to the loss function landscape in deep learning and the concept of flat minima, and briefly covered some additional topics on global geometry.


    The loss function \(L\left(\theta; \{x_\mu\}_{\mu=1}^P\right)\) is a function of numerous weights \(\theta$\) of a neural network, and the "landscape" of this function is determined by the dataset \(\{x_\mu\}_{\mu=1}^{P}\). S. Hochreiter proposed that, models that lie in 'flat minima' of the landscape generalize better (S. Hochreiter and J. Schmidhuber, NIPS (currently NeurIPS) 1994).

    The geometric intuition supporting this argument is simple: in order to make the loss landscape not distorted too much under a dataset change (training set -> test set), the model should lie on a broad region of the loss. This also agrees with the discussion on model complexity in the context of statistics and information theory, which says that simple models generalize better (ICLR 1995).

    In fact, one can show that maximum a posteriori (MAP) inference is equivalent to the minimization of cross-entropy loss while keeping the model simple (L2 regularization when \(-\ln P(\theta)\propto \theta^{2}\)). This is exactly what we do at deep learning. Moreover, this is also equivalent to the idea of minimum description length (MDL), which states that the total number of bits needed to identify the model and data should be as small as possible.

    The authors show that finding flat minima (whose loss values of the neighborhood are similar across as large as possible volume) is also linked to MDL. They further suggest a gradient descent method which is intentionally biased to prefer that kind of minima, which leads to good generalization.

    Research on flat minima is still continued in contemporary deep learning era. Nowadays it is widely accepted that, SGD natively prefers flat minima without adding any bias. There are also a few works rigorously connecting flat minima with generalization performance based on the PAC-Bayes framework.

    Another active line of research analyzes the global geometry of the disordered solution space of deep learning using statistical physics (E Gardner, J. Phys. A: Math. Gen. (1988)). They start from a simple perceptron model with random data, but they have been extended to more realistic architectures and datasets. In this paradigm, the frequently appearing factor \(\alpha=P/N\) (\(P\): data size, \(N\): model size) is crucial for the collective behavior of the neural network. For example, for random dataset, when α is small (large), the space of solutions tends to be connected (fragmented), which can be roughly related to flat minima. Moreover, at the limit where \(\alpha\) is finite but \(N,P\) goes to infinite, an accurate explicit formula of train loss for practical dataset (MNIST, etc.) is obtained.

    Lastly, this method can theoretically reproduce the renowned '(linear) mode connectivity' (PRL 2023) which is empirically reported in deep learning at the late 2010s, and furthermore predict that the structure of the connected region is star-shaped.

See this post on LinkedIn: link

See this post on Facebook: link


(국문)

    지난 11월 15일(토요일)에 서울대학교 딥러닝 동아리 Deepest에서 세미나를 호스팅했습니다. 딥러닝의 손실함수(loss function) 지형과 flat minima에 대한 이론적 주제를 자세히 다루었고, 보다 광역적인 구조에 대한 몇 가지 추가 주제도 소개하였습니다.

    손실함수 \(L\left(\theta; \{x_\mu\}_{\mu=1}^P\right)\)는 신경망 연결의 수많은 가중치 \(\theta\)를 정의역으로 갖고, 이 함수의 모양, 즉 "지형"(landscape)은 데이터셋 \(\{x_\mu\}_{\mu=1}^{P}\)에 따라 다르게 결정됩니다. 손실함수 지형 위의 한 점을 선택하는 것은, 신경망 가중치들이 확정되므로 모델을 확정하는 것과 같습니다. 대표적인 시계열 처리 모델인 LSTM의 제안자이기도 한 Sepp Hochreiter는 NIPS (현 NeurIPS) 1994에서, 손실함수 지형의 flat minima (평탄한 최소점) 에 위치한 모델이 일반화(generalization) 성능이 좋을 것이라고 제안하였습니다 (S. Hochreiter and J. Schmidhuber, NIPS 1994).

    이 논의의 근거가 되는 기하학적 직관은 간단합니다. 데이터셋이 training set에서 test set으로 바뀔 때에 그럼에도 불구하고 손실함수 지형이 덜 뒤틀리려면, 따라서 원래 모델에서 평가되었던 손실함수 값이 많이 바뀌지 않으려면 (즉 일반화를 잘 하려면) 모델은 지형의 널찍한 영역에 있어야 한다는 것입니다. 아래에서 MDL 개념을 바탕으로 보다 자세히 쓰겠지만, 이는 통계학 및 정보이론에서 model complexity와 관련하여 논의된, '단순한 모델일수록 일반화를 잘 한다'는 논의와도 일관적입니다 (J. Schmidhuber, ICLR 1995).

    베이즈 추론 맥락에서 최대사후확률(maximum a posteriori, MAP) 추론이, cross-entropy loss를 최소화하면서도 모형을 간단하게 유지하는 것(\(-\ln P(\theta)\propto \theta^{2}\)일 때 L2 regularization)과 동등합니다. 이것은 다름이 아니라 딥러닝에서 우리가 많이 하는 일입니다. 상상 속에 존재하는 매끄러운 data distribution과 달리 실제로 기계에게 주어지는 것은 개별적인 샘플들(즉 델타함수 분포)뿐임을 고려하면, 이렇게 simple model을 추구하는 것은 일반화에 매우 중요하다고 하겠습니다. 그런데 더 나아가서, 이것은 모형을 고르는 원리 중의 하나인 miminum description length (MDL), 즉 모델과 데이터를 기술하기 위한 비트 수의 총량이 가능한 한 작아야 한다는 원리와도 동치입니다.

    저자들은 flat minima를 찾는 것, 즉 최소점 중에서 그 주변에 자기 자신과 같은 loss 값을 갖는 점들의 부피가 가능한 한 많은 최소점을 찾는 것 역시 MDL과 관련됨을 보입니다. 더 나아가서, 그러한 minima를 선호하도록 의도적으로 bias된 새로운 gradient descent 방법을 제안하고 이를 통해 일반화를 잘 하는 모델을 찾을 수 있다는 것을 확인합니다.

    Flat minima와 관련된 연구는 딥 러닝이 정보기술의 전면에 등장한 현대에도 계속되고 있습니다. 최근에는 SGD가 별도의 의도적인 편향 없이도 그 특유의 통계학적, 동역학적 특성에 의해 native하게 flat minima를 선호하는 경향이 있다는 것이 상당히 널리 받아들여집니다. SGD는 단순히 batch size를 줄여서 최적화 과정을 효율화할 뿐 아니라, 그 결과로 보다 더 좋은 minima에 도달할 수 있게 해 준다는 것입니다. 최근에는 flat minima와 일반화 성능을 PAC-Bayes 프레임워크를 이용해서 보다 엄밀하게 연관짓는 일들도 있습니다.

    전통이 있으면서 현재까지도 활발한 또다른 연구의 흐름은, 딥 러닝의 무질서한(disordered) 해 공간의 광역적 구조를 통계역학을 이용해서 분석하는 것입니다 (E Gardner, J. Phys. A: Math. Gen. (1988)). 이러한 이론적 연구들은 주로 간단한 단일 퍼셉트론 및 랜덤 데이터셋과 같은 간단한 상황에서 출발했지만, 점점 보다 복잡하고 사실적인 상황들에 대해 적용되며 딥러닝에서 나타나는 현상을 상당히 잘 설명해냅니다. 이 패러다임에서는 \(\alpha=P/N\)라는 팩터(\(P\): 데이터셋 크기, \(N\): 모델 크기)가 자주 중요하게 등장합니다. 특히 \(\alpha\)를 유한하게 유지하되 \(N,P\) 모두 무한대로 보내는 극한에서 (수백~수천 차원에서 이미 실제 실험 결과들과도 꽤 잘 맞는 경우가 많습니다) 신경망의 많은 중요한 성질이 통계역학적으로 예측됩니다.

    이를테면, 랜덤 데이터셋에서, \(\alpha\)가 작을수록 퍼셉트론 분류 문제의 해들(보다 사실적인 신경망에서는 region with low loss)들이 서로 연결된 경향이 있고, \(\alpha\)가 클수록 해들이 쪼개져 있는(fragmented) 경향이 있습니다. 이는 통계역학 맥락에서 각각 replica symmetry (RS) 및 그 breaking (RSB)에 대응됩니다. Flat minima와의 관계도 생각해 볼 수 있습니다. 물론 flat minima는 국소적인 개념이고 RS/RSB는 훨씬 광역적인 개념이므로 일대일 대응시키기는 어렵지만, rough한 관계는 있을 것이라고 기대하고 Franz-Parisi entropy 등을 통해 보다 광범위하게 확인해야 할 것입니다.

    마지막으로, 이 통계역학적 방법은 2010년대 후반부터 딥 러닝 이론 커뮤니티에서 경험적으로 많이 보고된 '(linear) mode connectivity'를 이론적으로 재현해내기도 합니다. 이는 손실함수 지형 상에서 작은 loss 값을 갖는 영역들이 평평한 직선 경로를 통해 매우 넓게 연결되어 있다는 관찰을 뜻합니다. 그리고 나아가서, 이러한 연결 구조가 별 모양이라는 새로운 이론적 예측도 하며 (B. L. Annesi et al., PRL 2023), 이러한 예측을 보다 실제적인 신경망에서 확인하려는 시도도 이어지고 있습니다.

Sunday, November 2, 2025

한동석 작가 개인전 고스트프레임Ghost Frame 협업연구 참여

지난 2023년에, 한국문화예술위원회(ARKO, Art Council Korea) 다원예술지원사업에 선정된 한동석 작가님의 <다이빙 미러Diving Mirror> 프로젝트 참여의 일환으로 쇼케이스 <비전이 공간이 될 때When Vision becomes Space>에서 발제를 하고(본 블로그의 쇼케이스 소개 게시물: 링크), <표현 재조합 기계로서 딥러닝의 기술미학적 쟁점들>이라는 제목으로 발제문을 작성하였습니다(본 블로그의 발제문 소개 게시물: 링크).

해당 문제의식을 발전시켜, 올해에도 ARKO 다원예술창작산실의 지원을 받은 한동석 작가님의 개인전 <고스트 프레임Ghost Frame>에 참여하였습니다. 이번에도 지난번과 같은 제목의 쇼케이스에 참여하여 발제하였고, 전시 준비 과정에서 딥러닝의 매체성에 관련된 자문과 비평 글 작성을 진행하였습니다. 그뿐만 아니라 이번에는 직접 진행한 컴퓨터비전 실습 내용을 2분 가량의 영상으로 정리하여 전시공간에 상영하는 기회도 가질 수 있었습니다. 영상화 작업은 안소희 작가님께서 도와주셨습니다.

이 프로젝트에서는 패턴, 의미, 표현을 정량화하고 연산하는, 디지털에 근거한 새로운 아날로그 신호처리 장치로서 딥러닝이 가지는 특유의 매체성을 미학적으로 탐구하고자 하였습니다. 실습과제에서는 영상 예측 모델에 자기회귀적 구조를 도입하여 '있을법하지만 원본 없는' 가상을 만들어내고, 이러한 가상 화면들의 속성과 실패 양상을 통해 비전 모델들이 움직임, 형상, 시간 등을 어떻게 지각하는지 드러내고자 하였습니다.

아래에 세미나 및 전시를 홍보했던 소셜미디어 포스트, 전시 공간 방문 후기 및 관련 링크들을 옮겨둡니다. 준비 중인 전시 도록 또한 완성 시 링크할 예정입니다.

링크드인에서 이 게시물 보기: 링크

Last year, I participated in an art–technology project funded by ARKO (Arts Council Korea, 한국문화예술위원회). The project drew on my background in statistical physics and philosophical aesthetics, as well as my interest in deep learning as a new form of analog media sustained by the digital world—one that quantifies and operates on patterns and representations.

The project included an interdisciplinary showcase <When Vision Becomes Space: The Second Seminar>, and a solo exhibition <Ghost Frame> by media artist Han Dong Seock. I hosted a session at the seminar and participated in the exhibition, which was held at Hall1 on Seonyudo Island in Seoul.

Below is a brief explanation of my contribution to the exhibition. I developed an experimental computer vision practice that turns autoregressive video prediction into an aesthetic probe, using failure and overgeneralization to reveal how vision models “perceive” human motion, form, and time. The results were crafted into a two-minute video.

See this post at LinkedIn: link

_________________________________________________________________

<비전이 공간이 될 때: 두번째 세미나 When Vision becomes Space: the Second Seminar>

최근에 참여중인 다원예술 프로젝트 협업의 일환으로 <비전이 공간이 될 때: 두번째 세미나>가 오늘 다중지성의 정원 zoom 공간에서 진행됩니다. 정신이 없어서 다소 홍보가 늦었네요.
재작년 <비전이 공간이 될 때> 세미나에서는 딥러닝의 매체성, 그리고 딥러닝이 만들어내는 불완전한 시공간 및 중간적 시공간들에 대해서 기술미학 관점의 발제문을 작성하고 발표했었습니다. 올해는 이 내용과 관련지어 진행해본 기초적인 컴퓨터비전 실습결과와 함께하는, 소박하지만 조금 더 생생한 디스커션을 준비하였습니다. 제 발표 이외에도, 각기 다른 분야의 협업자 선생님들께서 각자의 부문에서 더욱 재미있는 결과들을 보여주실 예정입니다.
그리고 이번에는 오늘자 세미나에서 이론적인 내용을 소개하는 데에 그치지 않고, 10월 17일부터 11월 2일까지 선유도역 인근 Hall1에서 <고스트 프레임 Ghost Frame>이라는 제목으로 전시까지 진행하게 되었습니다. 한동석 작가님의 개인전이지만 저도 전시장 복층 공간에 작은 영역을 할당받아, 컴퓨터비전의 경계를 탐색하는 실습결과를 간단하게 디스플레이 해둘 예정입니다.
_________
전시 《고스트 프레임 Ghost Frame》(한동석展 / HANDONGSEOCK / 韓東奭 / media)의 일환으로 10월 5일 일요일 오후 2시반 줌 세미나가 열립니다.
관심 있는 누구나 참여 가능합니다.
□ 세미나 소개
일시: 2025.10.5.일요일_2:30pm / 다중지성의 정원 온라인 세미나 공간
10월 5일 오후 2:30에 개최될 『비전이 공간이 될 때, 두 번째 세미나』는 2023년에 있었던 『비전이 공간이 될 때』를 이어 진행됩니다. “다중지성의 정원”과 협력하여 온라인으로 진행되는 본 세미나에서는 『고스트 프레임』 작가를 포함한 서로 다른 분야에서 활동하는 7명이 모여 각자의 주제를 발표합니다. 주로 본 프로젝트의 협업자들로 구성된 발표자들이 펼치는 서로 다른 주제는, 곧 이어 Hall1에서 진행될 전시 『고스트 프레임』을 구심점으로 모입니다.

다중지성의 정원 Facebook 홍보 게시물: 링크
neolook 게시물: 링크
오용재 Facebook 게시물: 링크



_________________________________________________________________

<고스트 프레임 Ghost Frame>

오늘(10월 17일)부터 11월 2일까지 선유도역 인근 Hall1에서 진행되는 한동석 작가님 개인전 『고스트 프레임(Ghost Frame)』에 과학기술 자문 및 비디오 실습 역할로 참여하였습니다. 전시 포스터와 함께, 안소희 작가님이 편집 맡아 주신 제 작업의 스틸 일부와 리플렛을 공유합니다.
협업자로서 제가 담당한 영상 예측 자기회귀 실습은 전체 전시의 한 부분으로서 전시공간 복층 쪽에 있고, 컴퓨터비전 특유의 지각방식이 만들어내는 환영들에 대해 탐구한 리포트에 가깝습니다. 1층(지층)에 이번 전시의 메인이 되는, 더 흥미로운 인터랙티브 전시 내용들이 많이 있습니다.
자세한 내용은 neolook 링크(아래)를 참고해주시고 혹시 관심이 있다면 많이 보러와주세요. 제 작업 부분은 허락을 거쳐 추후 유튜브 등에 아카이빙할 계획도 있습니다.
_________
고스트 프레임 Ghost Frame
한동석展 / HANDONGSEOCK / 韓東奭 / media
2025_1017 ▶ 2025_1102
이 사업/작품은 2025년 한국문화예술위원회
다원예술창작산실의 지원을 받았습니다.
This project/work was supported with the support of
『2025 ARKO Partners Multidisciplinary Art』.
관람시간 / 12:00pm~08:00pm
홀원
Hall 1
서울 영등포구 양평로22마길 8 1층
@hallinfo2020
『고스트 프레임』 전은 컴퓨터 비전으로 재구성된 카메라 옵스큐라 공간을 탐구합니다. 관객이 걸으면 영상과 음악은 관객을 따라 움직이고, 걸음을 멈추면 영상과 음악은 관객의 위치를 떠나 새롭게 전개됩니다. 음악이 8마디에 이를 때만 장면이 전환됩니다. 관객을 쫓는 Hall1의 이미지는 인간이 더 이상 외부 세계의 관찰자가 아니라, 이미지 속에서 끊임없이 위치를 부여받는 '관찰의 대상'임을 암시합니다. 이는 카메라 옵스큐라 공간 안에서 달라진 인간의 위상을 드러냅니다. 최대 5명이 동시에 참여하는 이 인터랙티브 구성에서 각자의 시점은 서로 겹쳐지고, 누군가 멈추는 순간 개인적 시점은 사라지며 현재를 벗어난 이미지가 재생됩니다. 전시는 '무위(無爲)'를 통한 도약을, 끊임없이 진보하는 시스템 너머로의 이탈을 상상합니다. ■ 한동석




_________
예측되는 가상: 영상 예측 자기회귀 실습
『고스트 프레임』 展 협업자 오용재
동영상이라는 형식은 시간에 따른 이미지의 연쇄로 이해할 수 있다. 여기서 나타나는 패턴을 컴퓨터 비전기술을 통해 포착하는 비교적 고전적인 기법은 시계열 데이터를 처리하기에 적합한 LSTM 구조에, 이미지 특유의 공간적 상관성을 효과적으로 추출하는 합성곱(convolution) 구조를 결합한 ConvLSTM 신경망이다. 본 실습에서 사용한 PhyDNet 신경망은 여기에 PhyCell 구조를 추가하여 관성, 연속성, 변형의 국소성 등 물리적 움직임의 규칙을 학습한다. 이로써 공간 상에서의 움직임이 동영상으로 주어졌을 때 그 미래 프레임을 예측할 수 있다.
홉필드(Hopfield) 네트워크라는 고전적인 예시에서 보듯이, 신경망은 주어진 데이터를 국소적 신경 상호작용의 가중치들에 의해 형성되는 집단적 안정 상태로 패턴화하여 기억하는 아날로그 물리계이며 이는 현대의 딥 러닝 모델에서도 근본적으로 다르지 않다. 신경망의 학습은 상호작용의 가중치를 조절함으로써 물리계의 상태를 에너지 함수의 안정적인 골짜기로 이끄는 과정이며, 이 과정에서 데이터로부터 취합되고 추출된 시공간적 패턴들은 신경망 가중치 속에 분산적으로 각인된다. 프레임 예측은 이렇게 ‘정적인 수(數)로 기억된 동적 정보’를 불러내는 과정이라고 할 수 있다.
본 실습에서는 사람의 움직임에 관한 동영상 데이터로 위처럼 PhyDNet을 학습시킨 후 자기회귀적으로 구동하여, 예측의 형식을 빌려 본래의 영상 길이보다 더욱 긴 환영적 영상을 출력하게 하였다. 이러한 세팅에서는 모호하거나 지나치게 짧은 입력이 주어질 때 신경망이 기존에 학습한 패턴을 과잉 적용하여 일으키는 오류와, 학습 부족에 의한 불완전성 등이 크게 증폭된다. 이때 화면은 현실과는 거리가 있지만 여전히 일정한 시각적 문법을 따르는 낯선 가상으로 변모한다.
이러한 신경망이 인식하고 만들어내는 형체는 신경망 가중치 속에 분산적으로 각인된 상호작용이 재생산하는 패턴들이며 여기에는 의미, 원근, 깊이 등이 결여되어 있다. 이때 사람의 형상과 움직임은, 신경망 속에서 특정한 형태로 반복적으로 발생했다가 사라지는 일종의 결함 구조나 집단적 여기(勵起) 구조의 출력물로서 등장하게 된다. 이러한 환영들은 특정 과업에 대해 훈련된 신경망이 패턴 학습 및 텍스쳐 처리 기계로서 세계를 지각하는 방식과 그 한계를 음각적으로 드러낸다.


neolook 게시물: 링크
오용재 Facebook 게시물: 링크

실습결과(예측되는 가상: 영상 예측 자기회귀 실습): Youtube에서 보기


_________________________________________________________________

<전시 현장 방문 후기>

전시 두번째 날쯤 직접 가본 <고스트 프레임> 전시 공간은 독특한 분위기로 잘 꾸며져 있었다. 전시공간인 Hall1 자체를 point cloud로 따서 움직이는 영상으로 만들어 천장과 바닥에 프로젝션해 두고, 옆면은 형체를 흐릿하게 하는 반사판 같은 걸 깔아두어서, 공간이 실제보다 연장되어 있고 무언가 흐물흐물한 느낌이 났다. 고전적 광학장치인 카메라 옵스큐라 안에 맺히는 상들이 형성하는 모호하고 특별한 공간을 현대적 매체와 인터랙티브/컴퓨터비젼 기술을 통해 재사유한다는 취지에 어울리는 분위기였다.
1층에서는 우물을 중심으로 한 관객의 동선이 뒤쪽 위성안테나 모양의 커다란 나무 스크린에 원으로 나타나고, 관객 주변의 바닥에도 관객의 위치가 빛의 덩어리로 표시된다. 잔물결에 반사되는 빛의 이미지도 때때로 바닥면을 훑는다. 그리고 멀티채널 스피커로 된 음악이 여러 사람들의 집합적 동선에 반응하여 변화한다. 방문했던 날에는 아직 음악이 100% 의도대로 작동하고 있지는 않다고 하셨는데, 동선에 반응하는 느낌은 충분히 잘 전달되는 것 같았다. 지금은 의도대로 작동하지 않을까 한다.
전시장의 전면에 있는 반투명 스크린에는 회전하는 수평선의 이미지와, 전시공간을 촬영하여 편집한 영상이 중첩되어 표출된다. 스크린 뒤로는 계단과 그 위의 복층구조가 흐릿하게 보이는데, 계단을 따라 2층으로 올라가볼 수 있다. 여기에는 작가님이 나를 포함한 이번 전시의 과학기술관련 협업자들이 작은 아이디어를 직접 실현해볼수 있게 공간을 내주셨다. 올라가면 내 영상실습 작업과, 언어모델을 활용한 다른 협업자의 작업이 있다.
내 쪽 작업은 인터랙티브는 아니고 이미 만들어져 고정된 3분 가량의 영상으로, 바닥에 가까이 닿게 프로젝션 해두었다. 학습된 기계가 모호한 입력에 대해 만들어내는 환영들을 자기회귀적 영상 예측을 통해 증폭해서, 컴퓨터비전 특유의 시공간 지각과 그 매끄럽지 않은 이음매들을 보여주고자 했다.
실습 설명 자료도 인쇄해서 붙이고 왔는데 (이게 이 날 방문의 본 목적), 종이에 블루 펄 처리가 되어있어서 밝은 곳에서 보면 정말 예쁘지만 사진으로도 잘 안 담기고 어두운 전시 현장에서도 잘 안 보이는 점이 아쉽다.
뒤편의 노트북에 있는 언어모델 관련 인터랙티브 작업에서는, 1층 공간을 내려다보는 구도의 영상과, 관객이 직접 입력하는 (때로는 부조리할 수도 있는) 질문을 입력받아 언어모델을 통해 점층적으로 환영적 문장을 만들어낸다.

아무쪼록 느슨하게나마 거의 2년간 논의를 지켜보며 참여해 왔는데 이런 가시적인 형태의 산물로 마주하니 신기하기도 하고, 예술가 분들의 날카로운 직관과 세심한 감각에 자주 놀라기도 하고 이래저래 보람찬 경험이었다.

Facebook에서 이 글 보기: 링크

- 끝 -







Wednesday, August 27, 2025

한국연구재단 박사과정생연구장려금 선발 소식

이번 한국연구재단 박사과정생연구장려금(1년형) 지원사업에 <비평형계에서 확률적 정보 흐름의 정량화 및 활용>이라는 주제로 지원하여 선정되었다. 대학원생 신분으로 연구책임자가 되어 연구비를 직접 집행해 볼 수 있는 몇 안되는 기회인 것 같고, 연구계획서 작성하는 과정 자체도 많이 도움이 되었다.



너무 거창한 비전보다는 실제로 내가 쌓아올리고 있던 연구 계획과 그 기대 효과를 바탕으로 썼기 때문에 실현 가능성에서 좋은 평가를 받은 것 같고, 사업 특성상 학위연구목표 및 진로계획과의 연계가 충분히 구체적인지도 평가를 받지 않았을까 싶다. 물론 열심히 쓰기도 썼지만 이번에 선발과제 수를 1,200개 내외로 예년보다 크게 늘린 덕에 운이 좋기도 했을 듯하다.

이번 연구는 능동물질을 비롯한 미시적 기계들에서 나타나는 이례적인 집단 현상들을 열역학 제2법칙이 '국소적으로' 위반되는 것으로 보고, 큰 편차 이론(large deviation theory)을 통해 그 위반을 증폭시키거나 약화시켜 보면서 제2법칙 위반의 동역학적 구조를 체계적으로 탐색하고자 하는 연구이다. 하고자 하는 일은 꽤 명료하지만 왜인지 기존에 직접 시도된 바는 많지 않다.

직접 쌓아올려 애정을 가진 주제를 내 이름 앞으로 된 연구과제를 통해 수행해 볼 수 있어서 기쁘면서도 어깨가 무겁다. 연구 장비 구입, 인건비, 학술교류 참석 및 진행 등을 과제 취지에 맞게 잘 집행하면서, 연구 프로세스가 1년간 계획대로 잘 이루어질 수 있게 해야겠다.

Facebook에서 이 글 보기: 링크

Tuesday, July 15, 2025

[논문 소개] Phase separation of chemokinetic active particles

My second paper, "Phase separation of chemokinetic active particles," is now published in Communications Physics.

Active matter refers to systems composed of constituents (active particles) that consume energy and exhibit motility at the individual level. Examples include swarming bacteria, synthetic colloidal particles with catalytic coating on one side, or molecular motors that move along scattered cytoskeletal tracks.

Because these systems generate persistent fluxes at the microscopic level, they are inherently out of equilibrium and display collective phenomena that are impossible in equilibrium materials. For instance, in the Vicsek model (1995), which was proposed to model flocking behavior and initiated the field of active matter, globally ordered phases emerge even in two dimensions. This type of long-range order is forbidden in equilibrium systems by the Mermin–Wagner theorem.

Even in the absence of alignment interactions, active systems can exhibit non-equilibrium phase separation due to clustering induced by purely repulsive interactions. A well-known example is Motility-Induced Phase Separation (MIPS), where regions of low and high particle density spontaneously separate. This is often likened to bumper cars that collide and cannot escape from the jammed regions.

In most theoretical models, the motility of active particles is treated as a fixed system parameter, typically as a constant self-propulsion speed. However, in reality, such motility must be sustained by some source of energy — some form of fuel, which is subject to local consumption and finite-rate diffusion. This naturally leads to the possibility of local fuel depletion, which reduces the particles' speed in that region. In this work, we ask: what happens when the motility of active particles isn’t just a fixed system parameter, but a dynamic quantity that depends on locally consumed chemicals?

This effect can be considered as a minimal scenario of 'chemokinesis' — the lesser-investigated cousin of chemotaxis — where particles change their 'speed' in response to chemical concentration, rather than their 'direction' in response to chemical gradient.

Indeed, there can be more 'intelligent' scenario of chemokinesis, where a cell intentionally adjusts its speed (e.g., through cellular signaling mechanism) depending on the concentration of a certain chemical species. Our theory does not distinguish those two: they might be differ in the spatiotemporal scales of chemical consumption and diffusion, which can be covered by our theory.

Instead, we explore two distinct scenarios of chemical consumption: the Basal Metabolic Regime (BMR) and the Active Metabolic Regime (AMR). In both cases, we assume that the local speed of particles is proportional to the local concentration of chemical fuel. However, the rate at which the fuel is consumed differs between the two regimes, especially when particles become trapped in clusters.

In the Basal Metabolic Regime (BMR) which is our first scenario of chemical consumption, where chemical is consumed even when particles are stuck each other, leading to stronger depletion inside the cluster and enhanced cluster growth. In this regime, even immobile particles continue to deplete fuel, leading to deeply quenched interiors of clusters and promoting further aggregation. In effect, this enhances MIPS-like clustering.

However, in the Active Metabolic Regime (AMR), chemical is consumed only when the active particles actually experience their displacement, i.e., when they truly move. In this case, the local rate of consumption depends not only on particle density but also on actual particle velocity. Therefore, within dense clusters where mobility is suppressed, the fuel is saved. Therefore, when a chance arises, particles near the boundary can escape more easily due to higher available fuel.

This suppresses the clustering and gives rise to intriguing oscillatory and motile patterns for the AMR— a fuel–mobility feedback that is sensitive to the spatiotemporal scale of diffusion. Small clusters can become stabilized and static, or they can continually appear, disappear, or move around, depending on whether the system allows the fuel depletion to be replenished in time. If not, the imbalance persists and drives dynamic restructuring.

We first demonstrated these effects using particle-based simulations, and then derived a coarse-grained continuum model for the particle density via standard coarse-graining techniques. The linear stability analysis of the continuum theory (through the analysis on the signs of system eigenvalues) confirmed similar predictions observed in simulations.

The continuum framework, free from the noise caused by discrete particle movements (going into and out of the clusters), allowed for a cleaner observation of collective behaviors. To ensure these effects were not artifacts of specific inter-particle forces, we also ran simulations with an alternative model where interactions were governed by quorum sensing—particles reduce their speed in response to high local density rather than direct mechanical repulsion. These simulations produced phase diagrams qualitatively consistent with theoretical expectations.

Where my first paper focused on the flow of 'energy' in active systems, this work sheds light on the flow of 'material' which diffuses through space and unevenly consumed by the particles. In contrast to our first study, which assumed strict chemostatting (uniform global fuel supply) to explore the thermodynamics of energy injection, the present work foregrounds the materiality of the fuel, emphasizing how its local depletion and limited diffusivity affect system behavior. More broadly speaking, this study reveals how uneven resource availability, and the feedback from the active agents, shapes collective behavior in nonequilibrium systems.

This project is a collaboration with Euijoon Kwon, whose sharp modeling and simulation insights were central to its publication. I am pleased that this work has found its place in Communications Physics, a fully open-access journal launched in 2018.

See this post on LinkedIn: link

See this post on Facebook: link


(국문)

제 두번째 논문인 "Phase separation of chemokinetic active particles"(화학운동성 능동 입자들의 상분리)가 Communications Physics에 출판되었습니다.

능동 물질이란 개별 구성요소의 수준에서 에너지를 소모하고 운동성을 가지는 일군의 물질들로, 헤엄치는 박테리아의 군집, 한쪽 면에만 촉매가 칠해진 인공 콜로이드 입자들의 모임, 흩뿌려진 세포 골격 위를 운동하는 분자 크기 모터 (molecular motor) 등이 그 예시입니다.

이들은 개별 입자 수준에서 흐름을 형성하여 평형으로부터 벗어나 있으므로, 일반적인 평형 물질에서는 불가능한 집단현상을 나타냅니다. 예를 들어서 새들의 몰려다니는 운동(flocking)을 모사하기 위해 제안되었으며 능동물질 분야의 효시가 된 Vicsek model (1995)에서는 2차원에서도 전역적으로 정렬된 상이 나타나는데, 이는 평형 상태의 물질에서는 Mermin-Wagner theorem에 의해 금지되는 종류의 질서입니다.

또한 정렬효과가 없을 때에도, 입자들 간에 척력만 작용하는데도 클러스터가 생겨서 저밀도 영역과 고밀도 영역이 나누어지는 '운동성에 의한 상분리(Motility-induced Phase Separation, MIPS)'와 같은 능동물질 고유의 현상이 나타납니다. 이 현상은 흔히 범퍼카들이 충돌한 상태에서 서로 빠져나가지 못하는 것에 비유됩니다.

능동물질에서 운동성의 크기(즉 능동 입자의 디폴트 속력 값)는 흔히 상수로 주어진 것으로 모델링되나, 실제로는 그러한 운동성을 꾸준히 만들어낼 수 있는 어떤 원인, 즉 연료가 있을 것입니다. 연료의 확산 속도는 유한하므로, 어떤 지점 주변에서 연료가 국소적으로 많이 소모되어 사라진다면 그 지점 근처에서는 능동입자들의 속력이 느려질 것입니다. 즉, 각 지점에서 대략적으로 연료 농도와 입자들의 자체 추진 속력이 비례한다고 생각할 수 있습니다.

이를 미니멀한 형태의 화학운동성 (chemokinesis) 으로 생각할 수 있습니다. 물론 이렇게 연료의 국소적 고갈에 의한 자연스러운 효과 외에도, 박테리아의 경우 세포의 신호 처리 작용에 의해 특정 화학물질 농도를 감지하여 속력을 바꾸는 현상도 가능할 것입니다. 저희의 이론은 기본적으로는 이 두 가지를 구분하지 않으며 (물론 현상의 스케일 차이가 있을 수 있습니다) 이 글에서는 섞어서 사용하겠습니다.

화학물질의 농도 '기울기'에 반응하여 입자들의 운동 '방향'이 바뀌는 화학주성(주화성, chemotaxis)은 능동물질 분야에서 최근에 활발히 연구되었습니다. 입자의 자체추진 속력이 상수일때 나타나는 기본적인 MIPS와 비교할때, 단일 클러스터가 성장하는 대신에 유한한 크기로 다수의 클러스터가 유지되고, 심지어 진동(생성, 소멸을 특정 시간 스케일에서 반복)하거나 특정 방향으로 운동(motile band)하는 등 흥미로운 현상들이 나타납니다. 그러나 화학물질의 농도 자체에 따라 입자들의 운동 '속력'이 바뀌는 화학운동성의 효과는 저희가 아는 한 그동안 이론적으로 연구되지 않았습니다.

저희는 화학운동성을 직관적으로 비교적 쉽게 이해 가능한 두 가지(BMR/AMR)의 시나리오로 압축하였습니다. 먼저 화학물질의 농도에 자체추진 속력이 비례하는 건 공통적이지만, 입자들이 클러스터 안에서 서로 뭉쳐서 실질적으로 움직이지 못할 때 연료 소모의 방식에 차이점이 있습니다.

먼저 Basal metabolic regime (BMR)의 경우는, 클러스터 내부에서 움직이지 못할 때에도 화학물질이 계속 소모됩니다. 이러한 상황에서는 클러스터 내부에 연료 고갈이 심해져서 입자들이 더 움직이지 못하게 되므로, 디폴트 MIPS에 비해 클러스터가 더 효과적으로 성장하게 됩니다.

반면 Active metabolic regime (AMR)에서는 입자들이 실질적으로 움직일 때에만 화학물질이 소모됩니다. 즉, 국소적인 연료 소모율이 입자들의 밀도뿐 아니라 그 지점 근처의 입자들의 실제 속도에도 비례하게 됩니다. 따라서 클러스터 내부에서 입자들이 어차피 잘 움직이지 못하는 상황에서는 연료가 save되게 되며, 기회가 되면 클러스터 표면 근처에서 입자들이 빠른 속력으로 빠져나갈 수 있어, 클러스터 성장이 억제됩니다.

더욱 흥미롭게도, AMR에서는 연료 확산의 시공간적 눈금과 연료 소모율을 잘 선택함으로써, 작은 클러스터들이 안정화되어 가만히 있게 할 수도 있는 반면, 끊임없이 생성/소멸되거나 움직이게 할 수도 있습니다. 이는 입자의 연료소모를 연료의 확산 속도가 충분히 빨리 따라가느냐, 그렇지 못하느냐와 관련되어 있으며, 후자의 경우 이 불일치가 지속적으로 해소되지 못하여 클러스터들의 운동으로 이어지게 됩니다.

먼저 입자 기반의 시뮬레이션으로 이러한 현상들을 확인한 뒤, 거칠게 묶기 (coarse-graining) 를 통해 입자들의 밀도에 대한 연속체 관점의 방정식을 얻어, 시뮬레이션과 이론 양쪽 (이론의 경우 고유값의 부호 분석) 에서 유사한 결과를 확인했습니다.

특히 연속체에서는 개별 입자의 활발한 클러스터 출입에 따른 노이즈의 효과가 없으므로 여러 집단현상의 가능성을 훨씬 깨끗하게 관찰할 수 있었습니다. 이러한 현상들을 입자기반에서도 더 깨끗하게 보기 위해서, 입자들이 역학적 척력이 아닌 quorum sensing (주변에 다른 입자들이 많으면 속력을 줄임) 을 통해 상호작용하는 모형에서도 시뮬레이션하여, 이론적으로 예상되는 phase diagram과 유사한 결과를 관찰했습니다.

이 연구는 제 첫 번째 논문의 두 시나리오 (stuck되어야 연료 소모 / 움직여야 연료 소모) 를 조금 더 사실적으로 만들어서, 집단현상에 주는 영향까지 관찰해 보자는 문제의식에서 출발하였습니다. 첫 번째 논문은 능동물질계에 관여된 '에너지의 흐름'으로부터 열역학을 기술하는 데 집중하여 전 공간에서 연료를 strict하게 chemostatted한 반면, 이번 연구는 확산되거나 국소적으로 소모되는 연료의 물질성을 보다 구체적으로 고려하므로, '물질의 흐름'이 비평형계에 주는 효과를 연구한 것으로 생각할 수 있습니다. 더 확장하자면, 자원의 불균일한 분포에 가해지는 음성/양성 피드백이 시스템의 집단현상에 미치는 영향을 연구했다고 생각할 수 있습니다.

이번 연구의 진행은 함께 연구하는 권의준 학생의 탁월한 이론적 모형화 및 풀이, 전산 시뮬레이션에 핵심적인 도움을 받았습니다. 2018년에 만들어진 오픈액세스 저널 Communications Physics에 게재하게 된 것을 기쁘게 생각합니다.

- 끝 -

Sunday, July 6, 2025

[presentation material] Statistical physics approaches to deep learning: dynamical and structural perspectives

Recently I joined an interdisciplinary study group called the 'TMI group', which consists of students from various backgrounds including AI, neuroscience, physics, education studies and philosophy. This group is one of the most enthusiastic study groups I have ever attended, providing actually productive discussions and critical issues.


Last week, I hosted a zoom seminar for this group titled 'Statistical-physics approaches to deep learning: dynamical and structural perspectives (DL x SP)'. I aimed to convey that deep learning can be understood as a 'non-linear many-body system with non-deterministic dynamics', therefore being a legitimate topic of SP.


Even within SP, there are many incommensurable views for the analysis of DL. Some are indeed useful but relatively phenomenological, while others fundamentally tackle the structural aspects of DNNs. Recently, I believe 'disorder' is the most central concept of the SP view of DL.


NNs are highly complex, since they are non-linear combinations of functions with vastly different weights. But they are distinguishable from completely random fields since they learn something and form good representations. They are indeed complex, but they are somehow 'structured' and (especially thanks to the fact that they involves super high-dimensional space) the situation is not so bad.


This subtle regime is effectively tackled by theories developed for disordered systems including replica method. These calculations have been successfully connected to actually important concepts in DL community, such as lazy (kernel) learning versus feature learning, flat minima, linear mode connectivity (for example, see B. L. Annesi et al., "Star-shaped space of solutions of the spherical negative perceptron," Physical Review Letters 131 (2023)).


In fact, this perspective traces back to the ancient era of deep learning. Even at the 1980s and 90s, statistical physicists have focused on analyzing the phase behavior during the learning of multi-layer NNs (including quite practical issues such as teacher-student scenario). The Nobel Prize awarded last year to J. J. Hopfield was a controversial topic among physicists. But one lesser-known fact is that when G. Parisi won the prize in 2021, the citation already referred to AI theory—specifically in relation to his theories on glassy disordered systems and its relevance to DL.


Of course, as one of the TMI group members pointed out, to make these more practically applicable, they must be further refined by scholars in statistical learning theory, and should be integrated with the fields of computational theory and optimization. For example, one may see 'dynamical mean-field theory' approaches by T. Suzuki group (U Tokyo) and how they rigorously explain feature learning and in-context learning.


Next month, I will host a focus review session introducing high-dimensional random geometry (which also employs SP methods for disordered systems) in the context of modern deep learning. It begins with a simple and general geometric problem—separating labeled points (or ellipsoids) with a hyperplane—but ultimately explains the surprising success of modern AI, including few-shot learning and in-context learning.


For the former, see B. Sorscher, S. Ganguli and H Sompolinsky, "Neural representation geometry underlies few-shot concept learning," Prog. Natl. Acad. Sci. 119 (2022). For the latter, see A. J. Wakhloo, T. J. Sussman and SueYeon Chung, "Linear classification of neural manifolds with correlated variability," Phys. Rev. Lett. 131 (2023) and A. Kirsanov, C. N. Chou, Kyunghyun Cho and SueYeon Chung, "The geometry of prompting: Unveiling distinct mechanisms of task adaptation in language models," arXiv:2502.08009 (2025).


On a lighter note, in a KIAS lecture series planned to held at early August this year, Prof. SueYeon Chung is invited as a lecturer. I am looking forward the lecture since it is first time for me to attend Prof. Chung's lecture in-person.


See this post at LinkedIn: link
See this post at Facebook (Korean): link

Presentation Material

 

(국문)
몇 달 전 TMI group이라는 다학제적 모임에 조인하게 되었습니다. AI, 신경과학, 물리학, 교육학, 철학 등 여러 지적 배경의 대학원생들이 참여하는데요, 모임장님이 잘 리드하시는 덕분에 모임의 응집력도 꾸준히 유지되고, 다학제적 모임임에도 느슨한 교류를 넘어 상당히 구체적인 이론적 쟁점에 대한 논의들도 오가는 편이라서 많이 배워 가고 있습니다. 분석철학에서의 중국어 방 문제, 기존 언어학에서의 형식주의적 접근과 LLM의 통계적 해법의 화해 가능성, 신경과학의 자유에너지 원리 등에 대해 논문들을 바탕으로 개괄하고 토의하고 있습니다.

지난주 제 발표 순서에서는 '딥러닝에 대한 통계물리적 접근: 동역학적 및 구조적 관점(DL x SP)'라는 제목으로 세미나를 진행했습니다. 딥러닝이란 비선형성을 갖고 확률적인 동역학을 바탕으로 고차원 표현들을 형성하는 다체계이며, 따라서 통계역학의 적법한 주제가 되어왔음을 전달하고자 했습니다.

현대 딥러닝은 굉장히 많은 노하우들이 접목되어 탄생하였고 그만큼 다양한 관점에서 그 원리가 분석될 수 있습니다. 심지어 통계물리학 안에서도 딥러닝을 보는 여러 가지 관점들이 있고, 그들은 서로 다른 층위에 있으므로 단일한 픽쳐로 잘 합쳐지기가 어렵습니다. 그들 중 일부는 물론 쓸모있지만 비교적 현상론적인 반면, 다른 일부는 심층신경망의 구조적 특징을 꽤 근본적으로 건드립니다. 최근에 저는 'disorder'(마치 glassy system 즉 유리와 같은)가 딥러닝에 대한 통계물리적 관점에서 가장 중심적인 개념이라고 생각하고 있습니다.

수많은 서로 다른 가중치들이 비선형적으로 연결된 심층신경망은 지극히 복잡하지만, 그것이 무언가를 학습해서 좋은 표현을 형성하는 한 완전한 무작위 장과는 구분될 수도 있습니다. 복잡하지만, 분명히 어떤 식으로든 구조화되어 있고 (특히 차원이 너무나 높은 덕분에) 생각보다 상황이 좋을 수도 있다는 것입니다.

Replica method를 비롯한 무질서계에 대한 통계역학 이론들을 이러한 미묘하고 중간적인 영역에 적합하게 적용하여, 딥러닝 커뮤니티에서 실질적으로 중요한 여러 개념들, 예컨대 lazy (kernel) learning vs feature learning, flat minima, linear mode connectivity 등과 우아하게 연관지을 수 있습니다 (예시: B. L. Annesi et al., "Star-shaped space of solutions of the spherical negative perceptron," Physical Review Letters 131 (2023)).

사실 이러한 무질서계 관점은 딥러닝 초창기에 그 기원을 찾을 수 있습니다. 8-90년대에 물리학자들은 이미 다층 신경망의 패턴학습과 상전이를 분석하는 연구를 다수 진행했고 이는 때때로 현대 기준으로 보아도 상당히 프랙티컬한 주제(이를테면 전이학습에서의 teacher-student 시나리오)에 대한 관심으로 이어졌습니다.

작년 J. J. Hopfield의 노벨물리학상 수상은 세간에 화제였을뿐 아니라 물리학자들 사이에서 꽤나 논란이었는데요, 사람들이 잘 모르는 사실은 G. Parisi가 2021년에 물리학상을 수상했을 때에도 시상 취지 중 하나에 이미 머신러닝에의 이론적 기여가 명시적으로 포함되어 있었다는 점입니다. 이는 Parisi가 무질서계 해석을 위해 제안한 replica 방법이, 유리를 닮은 계 중에서도 특히 딥러닝을 설명하기에 유용했기 때문입니다.

물론, TMI group의 멤버께서 올바르게 지적했듯이, 이러한 통계역학적 관점이 흥미로운 설명을 넘어 실질적인 쟁점과 새로운 지식을 제공하기 위해서는 statistical learning theory 등을 비롯한 보다 수학에 가까운 분야의 이론가들의 참여를 통해 더욱 rigor를 갖추고, 계산이론 및 최적화 등과 관련지어질 필요도 있겠습니다. 최근에 dynamical mean field theory 쪽이 이러한 방향으로 상당한 진전을 보면서 feature learning, in-context learning 등의 설명에 이르고 있는데 (대표적으로 도쿄대학 Taiji Suzuki 그룹), 여기에 disorder 및 고차원과 같은 딥러닝의 특징이 얼마나 반영될 수 있는지 (혹은 그럴 필요가 없는지)는 저도 더 공부해보아야 할 것 같습니다.

다음달의 focus review에서는, 개괄적이었던 이번 세미나에서 꾸준히 시사되었으나 구체적으로 다뤄지지는 않은 '고차원'의 이점을 소개할 계획입니다. 위에도 썼듯 딥러닝의 성공은 무질서와 고차원 사이의 미묘함에 있다고 보기 때문입니다. 고차원 무작위 기하학을 바탕으로 딥러닝의 성능 척도를 성공적으로 예측하는 통계역학적 이론들을 다루고자 합니다.

이들은 매우 간단하고 일반적인 기하 문제 (색깔이 칠해진 채로 랜덤하게 흩뿌려진 점들 혹은 타원체들을 단 하나의 평면으로 올바르게 분리할 수 있는지 여부, 혹은 그럴 확률)에서 출발하여, few-shot learning, 그리고 prompt를 통한 in-context learning 등 현대 AI의 놀라운 현상들까지 기하적으로 잘 설명해냅니다.

전자에 대한 것은 B. Sorscher, S. Ganguli and H Sompolinsky, "Neural representation geometry underlies few-shot concept learning," Prog. Natl. Acad. Sci. 119 (2022), 후자에 대한 것은 A. J. Wakhloo, T. J. Sussman and SueYeon Chung, "Linear classification of neural manifolds with correlated variability," Phys. Rev. Lett. 131 (2023)A. Kirsanov, C. N. Chou, Kyunghyun Cho and SueYeon Chung, "The geometry of prompting: Unveiling distinct mechanisms of task adaptation in language models," arXiv:2502.08009 (2025) 등이 그 예시가 되겠습니다.

여담이지만 8월 초에 저도 참석하기로 한 고등과학원 lecture series에 정수연 교수님께서 강연자로 오시게 되었는데, 직접 말씀 들어 보는 것은 처음이라 매우 기대가 됩니다.

- 끝 -

Thursday, June 26, 2025

Review of "Thermodynamics of quantum information flows"

On June 26, I gave a talk at the 13th Workshop on Nonequilibrium Fluctuation Theorems, reviewing a paper (K. Ptazyński and M. Esposito, "Thermodynamics of quantum information flows," Physical Review Letters 2019, link) on quantum thermodynamics. I am grateful for Prof. Jong-Min Park of APCTP for giving me a good chance.

The paper itself have a clear, insightful message but quite concisely written, so I supplemented my talk with additional background and future directions. I began by introducing the concept of information flow, showing how this notion is elegantly connected to the second law of thermodynamics for subsystems.


This concept of information flow has been a central theme in my recent ongoing research. It underlies many apparently second-law-violating phenomena —flows emerging in the absence of gradients or even against gradients. Here, information flow can be understood as a thermodynamic resource like free energy.

Next, I outlined the density matrix formalism of QM, along with some basic concepts such as pure/mixed states and entangled/separable states. I especially enjoyed calculations using the operator properties and working with the Bell state examples by my hand. Although I had studied a little bit of textbook QM before, unfamiliarity on those formalism had often felt like barriers when reading papers in this area. What I have learned while preparing this part will likely make future readings much easier.

Next, I discussed about Lindblad equation which is a Markovian, CPTP framework of describing open quantum systems. Deriving Spohn's theorem (which is a key step for the emergence of thermodynamic irreversibility) from the 'contractive' property of Lindbladian dynamics was very impressive.

While the main body of the paper is not very extensive, it draws a close analogy with classical systems by defining an information flow between two subsystems in the Lindblad setting and successfully connects it with the (modified) second law for subsystems. Authors then exemplify their theory with a two-quantum-dot system.


What directions might future work take? In analogy with my ongoing work on classical regime, one could formulate a trajectory-level (before averaged) version of information flow in the quantum setting and conduct large deviation analysis to systematically unravel the trajectory-wise structure of apparent second-law violation.

Meanwhile, quantum entanglement is a very different type of resource from thermodynamic resources. For example, dissipation, which is typically seen as detrimental in thermodynamic terms, can actually enhance entanglement (called dissipative preparation). Since quantum mutual information approximates or bounds the entanglement, it may be possible—at least in restricted scenarios—to relate thermodynamic resources like information flow to entanglement.

Additionally, there has been works that leverage dissipation for quantum error correction, or overcoming barren plateau in quantum ML tasks like VQE. These kind of works may also be fruitfully connected to the framework of quantum (stochastic) thermodynamics.

See this post on LinkedIn: link
See this post on Facebook (Korean): link

Presentation material






(국문)
지난 6월 25-27일에 양평에서 진행된 13th Workshop on Nonequilibrium Fluctuation Theorem에서 톡을 할 기회를 얻어서, 제 최근 관심사이자 연구주제인 정보열역학의 continuous dynamical system 포말리즘을 양자역학에 확장한 논문(K. Ptazyński and M. Esposito, "Thermodynamics of quantum information flows," Physical Review Letters 2019, 링크)을 리뷰하는 시간을 가졌습니다.

논문은 명료한 main result를 가지고 있지만 핵심 내용만으로 발표를 구성하기엔 길이가 다소 짧아서, 발표 준비 과정에서 어차피 공부해야 했던 기초적인 내용들을 발표에 삽입하여 청중과 함께 살펴보고자 했습니다. 사실 이번 발표는 제가 잘 준비했다고 생각한 맨 앞부분에서 여러 질문에 답을 잘 못하는 바람에, 성공적이었다고 보기는 어려웠습니다. 그래도 많이 질문해 주신 덕분에 사후적으로 내용도 더 정리해 보고 많이 배우는 시간이 되었던 것 같습니다.

먼저 정보이론의 맥락에서 정의된 정보 흐름 (information flow)이 엔트로피와, 나아가서 열역학과 연결되는 과정을 소개했습니다. 정보흐름은 제 최근 연구 주제에서 핵심적인 역할을 하는 물리량인데요, 기울기가 없음에도, 혹은 아예 기울기를 역행하여 어떤 '흐름'이 발생하는 등 겉보기에 열역학 2법칙을 위반하는 여러 현상들의 열역학적 한계를 이야기해 줍니다. 정보 흐름 또한 마치 자유에너지처럼 우리가 유용한 일을 하기 위한 열역학적 자원인 것입니다.

다음으로 양자역학의 밀도행렬 포말리즘과, pure/mixed state, 양자 얽힘의 개념 등을 다루었습니다. 연산자의 성질을 바탕으로 여러 공식을 간단하게 만드는 과정과, Bell state를 가지고 pure/mixed, entanglement 등의 개념을 연습삼아 계산해보는 과정이 특히 재미있었습니다. 양자역학을 교과서로 공부하긴 했음에도 이런 개념들에 익숙하지는 않은 것이 양자쪽 논문 훑어볼 때 늘 장벽이 되었었는데, 이번 발표 준비를 계기로 조금 더 익숙해질 수 있었던 것 같습니다.

다음으로는 외부와 접촉하고 있는 열린 양자계(open quantum system)를 다루는 하나의 방법인 Lindblad equation을 소개하였습니다. Lindblad operator가 만족하는 contractive 성질(계속 가할수록 quantum relative entropy가 줄어든다)로부터 Spohn's inequality를 통해 열역학적 비가역성이 도출되는 것이 매우 인상적이었습니다. 앞으로는 Lindblad equation뿐 아니라 열린양자계를 기술하는 다른 여러가지 근사적 방정식들이 어떤 서로 다른 가정 하에 어떻게 얻어지는지도 공부해보면 좋을 것 같습니다.

논문의 메인 내용은 이렇게 기술되는 열린 양자계에서 고전역학에서의 개념을 거의 parallel하게 따라서 두 subsystem 사이의 정보 흐름을 정의하고, 이것이 subsystem에서의 2법칙 위배를 어떻게 설명하는지 보여주는 것입니다. 두 개의 양자점을 연결시키고 한쪽에 drive를 세게 걸어서 다른 쪽에서 기울기에 역행하는 흐름이 생기게 한 시스템을 예시로 보여줍니다.

후속연구로는 무엇이 가능할까요? 먼저 제가 현재 고전역학 영역에서 진행중인 연구와 패러렐하게, 양자에서도 '평균되기 전'의 정보 흐름(stochastic info flow라고 부르고 있습니다)을 정의하고 이에 대한 large deviation 분석을 수행하여 subsystem이 열역학 제2법칙을 위배하는 구조를 체계적으로 unravel해 볼 수 있습니다.

한편, 양자 얽힘과의 관계도 생각해볼 수 있습니다. 양자 얽힘은 자유에너지 등 흔히 생각하는 열역학적인 자원과는 굉장히 다른 종류의 resource라서, 열역학적 원리와의 연결이 그리 명백하거나 단순하지 않습니다. 예컨대 통념과 달리 외부와의 열적 접촉에 의해 오히려 얽힘이 늘어나는 일이 가능합니다 (dissipative preparation). 이러한 상황에서 quantum mutual information을 공통된 고리 삼아서, 제한된 상황에서나마 양자 얽힘에 대한 resouce theory와 양자 정보열역학을 연결지을 수 있을 것 같습니다 (이를테면 얽힘 형성의 speed limit 등).

이외에 꼭 정보흐름이랑 상관은 없더라도 양자역학 분야, 특히 추상화된 양자 알고리즘보다는 조금 더 통계물리학 백그라운드를 가진 학도로서 기여할 수 있는 부분들에 대해 개인적으로 요새 점점 관심이 커지고 있습니다. 예컨대 열적 접촉에 의한 노이즈를 활용하여 양자 오류정정(quantum error correction)을 하거나, VQE를 비롯한 양자 ML에서 barren plateau (대충 말하자면, 최적화 과정에서 빠져나가기 어려운 드넓은 영역)를 극복하는 등의 연구가 있습니다. 특히 후자는 고전적 딥 러닝에서 SGD를 통해 안 좋은 영역에서 빠져나오는 것과 약간 겹쳐 보여서 흥미롭게 느껴지기도 합니다. 또한 open quantum system과는 얼마나 관련될지 모르겠지만, quantum sensing에서는 quantum fisher information (파라미터가 변할 때 분포 변화의 민감성)이 상전이점 근처에서 발산하므로, 그 근처에서 초정밀한 측정이 가능하다는 내용이 있다고 합니다. 이 또한 통계물리학도로서 흥미롭게 느껴집니다.

아무리 타과 출신이라도, 물리학도로서 양자를 너무 모르는 것이 그동안 콤플렉스였는데, 밀도행렬 포말리즘을 기초부터 공부해 봄과 동시에 제 최근 관심사인 정보열역학과도 연결짓는 좋은 논문을 읽어 보고, 양자 쪽에 있는 고유한 이슈들을 이해해 볼 수 있어서 저로서도 유익한 시간이었습니다.

Saturday, June 14, 2025

AI미래기획수석에 네이버 하정우 소장 임명

새 정부의 AI미래기획수석에 네이버 하정우 소장이 임명되셨다. 이런 일을 맡게 될 것 같은 사람을 딱 한 명만 꼽는다면 이 분 말고는 잘 생각이 안 나긴 했다.

한국인/한국계 AI 연구자 개개인들은 인구 규모에 비해서는 세계적으로도 굉장히 잘 하고 있다고 생각한다. 유명하고 중요한 논문들에서 한국인들의 이름이 생각보다 정말 자주 보인다. 그러나 국가적인 수준에서 실제 ai 산업 생태계에서 뒤쳐지지 않는 것은 또 다른 문제다. 경쟁력 확보에 있어서 유효하게끔, 큰 그림부터 디테일한 지원까지 적확한 곳에 잘 이루어지기를 바라게 된다.



Facebook에서 이 글 보기: 링크

Thursday, May 8, 2025

2025-04-23 한국물리학회 봄학술대회 (대전) 참석 후기

수요일에서 금요일까지 진행된 한국물리학회 봄학술대회에 참여하고 일요일까지 대전에 조금 더 머물렀다.

학회에서는 맥스웰의 악마, 정보열역학 등에 대한 내 최근의 연구 주제를 바탕으로 포스터 발표를 했다. 사실 기본 틀 자체는 지난 학기에 한 것과 똑같은데, 이번에 큰 편차 이론(large deviation theory)을 바탕으로 진전된 내용들을 추가해서 가지고 갔다. 애정을 가진 주제인데 이번에도 교수님들께는 많이 못 보여드린 것이 아쉽긴 하지만 다행히 함께 공부하는 입장인 대학원생 동료들이 많이 와서 재밌게 들어주셨고, 통계물리가 아닌 다른 분야에 있는 분들에게도 어느정도 재미있게 설명이 가능한 주제인 것 같다는 생각을 했다.



통계물리 분야는 본래 이런저런 워크숍도 많고 서로 꽤나 돈독한 편인데, 이번 물리학회에 와보니 슬슬 모르는 얼굴들이 많아진다는 생각을 했다. 주로 대학원에 새로 들어오신 분들일 텐데, 그 분들과도 새롭게 통성명하고 인사를 나누고 싶지만, 달리 말하면 이는 어느새 졸업을 생각할 시기가 다가오고 있다는 뜻도 된다. 그동안 교수님과 동료 학생들의 도움을 참 많이 받았는데 앞으로는 떳떳한 박사가 될 수 있게 남은 기간 동안 내 스스로의 힘으로 포말리즘을 써 내려가고 계산을 뚫으면서 연구를 할 수 있다는 증명을 하면 좋을 것 같다.

학회 끝나고서는 일단 자전거를 꽤 많이 탔다. 대전이 자전거 타기에 참 좋은 도시다. 택시비를 쓰지 말아 보자는 생각으로, 어디 갈때면 공용자전거 타슈를 타고 지하철 역까지 가서 도시철도를 이용하는 식으로 이동했다. 특히 갑천을 따라 DCC부터 어은동에 이르는 길이 평탄하고 사람도 많지 않은지라 자전거를 타기에 정말 좋아서, 친구를 기다리며 편도로 세 번 정도 달려 보기도 했다.




주말 약속은 모두 고등학교 친구들이었다. 고교 동기들은 단 2년만 함께했는데도 불구하고 오랜만에 봐도 참 한결같다고 느껴질 때가 많아서 신기하다. 그래도 각자 가는 길은 다르다. 고등학교 때는 당연히 대부분 대학원 가서 박사 하고 그럴 줄 알았는데, 생각보다 대학원에 남아있는 사람이 많지는 않고 (특히 나랑 친했던 애들이 더 그런 것 같다) 다들 각자의 위치에서 잘 살고 있구나 생각했다. 이제 나만 잘하면 된다...ㅠㅠ

특히 이번에 카이스트 교수가 된 동기도 만나서, 연구실 구경할 겸 카이스트 산책도 했다. 우리 한성과학고 21기 중에 교수 임용은 처음인 걸로 아는데, 이 친구는 최근 수 년간 파격적으로 젊은 학자 채용을 많이 한 AI나 AI반도체 쪽이 아닌데도 불구하고 아주 젊은 나이에 임용된 거라 더 대단하다고 느낀다. 고교 시절이나 학부 때도 뽐내는 타입이 아닌데도 늘 잘하고 집념도 대단하고 태도도 남다르다고 생각했는데 잘되어서 보기에 참 좋았다.

그리고 대전역에 꿈돌이 매장이 있다고 하길래 마음의 준비 없이 들렀다가 홀린 듯이 많이 사 버렸다. 표정을 알 수 없고 무언가를 꿈꾸는 듯한 근본-꿈돌이는 지극히 담백하고 귀엽지만 다소간에 고전적인 '도안'의 개념에 묶여 있는 느낌도 있는데, 요새 재조명되면서 나오는 꿈돌이들은 표정도 풍부한 편이고 통통하며 친근감이 있다. 처음 볼 때는 상당히 낯설었는데 계속 보다 보니 또 괜찮은 듯하다. 한 도시의 (사실상)마스코트가 미래 과학기술 관련이고, 최고층 건물 이름도 사이언스센터인 것은 참 멋진 일인 듯하다.



주말에 묵은 숙소 바로 앞에는 옛날식 찻집이 있었는데, 어항도 여러 개 있고 식물도 많이 있어서 약간 2000년대 한국 영화 미장센 느낌이 났다. 주인분이 내 지갑에 있는 실밥들을 보시더니 오래 써야 된다며 라이터로 실밥을 태워주셔서 약간 무섭기도 했지만 호의도 느낄 수 있었다.

내가 식사빵 말고 간식빵은 별로 좋아하지 않아서 대전 올 때도 성심당을 잘 안 갔었는데, 이번에 아침에 줄이 별로 없길래 거의 처음으로 제대로 둘러봤다. 고구마 빵이랑 거북메론빵을 샀는데 가격도 저렴할뿐더러 아주 예쁘고 맛있었다. 내년 봄 KPS는 평소와 달리 대전에서 안 하는지라, 이번에 대전 한번 열심히 둘러보길 잘한 것 같다.

Facebook에서 이 글 보기: 링크