게시물 목록

Tuesday, July 15, 2025

[논문 소개] Phase separation of chemokinetic active particles

My second paper, "Phase separation of chemokinetic active particles," is now published in Communications Physics.

Active matter refers to systems composed of constituents (active particles) that consume energy and exhibit motility at the individual level. Examples include swarming bacteria, synthetic colloidal particles with catalytic coating on one side, or molecular motors that move along scattered cytoskeletal tracks.

Because these systems generate persistent fluxes at the microscopic level, they are inherently out of equilibrium and display collective phenomena that are impossible in equilibrium materials. For instance, in the Vicsek model (1995), which was proposed to model flocking behavior and initiated the field of active matter, globally ordered phases emerge even in two dimensions. This type of long-range order is forbidden in equilibrium systems by the Mermin–Wagner theorem.

Even in the absence of alignment interactions, active systems can exhibit non-equilibrium phase separation due to clustering induced by purely repulsive interactions. A well-known example is Motility-Induced Phase Separation (MIPS), where regions of low and high particle density spontaneously separate. This is often likened to bumper cars that collide and cannot escape from the jammed regions.

In most theoretical models, the motility of active particles is treated as a fixed system parameter, typically as a constant self-propulsion speed. However, in reality, such motility must be sustained by some source of energy — some form of fuel, which is subject to local consumption and finite-rate diffusion. This naturally leads to the possibility of local fuel depletion, which reduces the particles' speed in that region. In this work, we ask: what happens when the motility of active particles isn’t just a fixed system parameter, but a dynamic quantity that depends on locally consumed chemicals?

This effect can be considered as a minimal scenario of 'chemokinesis' — the lesser-investigated cousin of chemotaxis — where particles change their 'speed' in response to chemical concentration, rather than their 'direction' in response to chemical gradient.

Indeed, there can be more 'intelligent' scenario of chemokinesis, where a cell intentionally adjusts its speed (e.g., through cellular signaling mechanism) depending on the concentration of a certain chemical species. Our theory does not distinguish those two: they might be differ in the spatiotemporal scales of chemical consumption and diffusion, which can be covered by our theory.

Instead, we explore two distinct scenarios of chemical consumption: the Basal Metabolic Regime (BMR) and the Active Metabolic Regime (AMR). In both cases, we assume that the local speed of particles is proportional to the local concentration of chemical fuel. However, the rate at which the fuel is consumed differs between the two regimes, especially when particles become trapped in clusters.

In the Basal Metabolic Regime (BMR) which is our first scenario of chemical consumption, where chemical is consumed even when particles are stuck each other, leading to stronger depletion inside the cluster and enhanced cluster growth. In this regime, even immobile particles continue to deplete fuel, leading to deeply quenched interiors of clusters and promoting further aggregation. In effect, this enhances MIPS-like clustering.

However, in the Active Metabolic Regime (AMR), chemical is consumed only when the active particles actually experience their displacement, i.e., when they truly move. In this case, the local rate of consumption depends not only on particle density but also on actual particle velocity. Therefore, within dense clusters where mobility is suppressed, the fuel is saved. Therefore, when a chance arises, particles near the boundary can escape more easily due to higher available fuel.

This suppresses the clustering and gives rise to intriguing oscillatory and motile patterns for the AMR— a fuel–mobility feedback that is sensitive to the spatiotemporal scale of diffusion. Small clusters can become stabilized and static, or they can continually appear, disappear, or move around, depending on whether the system allows the fuel depletion to be replenished in time. If not, the imbalance persists and drives dynamic restructuring.

We first demonstrated these effects using particle-based simulations, and then derived a coarse-grained continuum model for the particle density via standard coarse-graining techniques. The linear stability analysis of the continuum theory (through the analysis on the signs of system eigenvalues) confirmed similar predictions observed in simulations.

The continuum framework, free from the noise caused by discrete particle movements (going into and out of the clusters), allowed for a cleaner observation of collective behaviors. To ensure these effects were not artifacts of specific inter-particle forces, we also ran simulations with an alternative model where interactions were governed by quorum sensing—particles reduce their speed in response to high local density rather than direct mechanical repulsion. These simulations produced phase diagrams qualitatively consistent with theoretical expectations.

Where my first paper focused on the flow of 'energy' in active systems, this work sheds light on the flow of 'material' which diffuses through space and unevenly consumed by the particles. In contrast to our first study, which assumed strict chemostatting (uniform global fuel supply) to explore the thermodynamics of energy injection, the present work foregrounds the materiality of the fuel, emphasizing how its local depletion and limited diffusivity affect system behavior. More broadly speaking, this study reveals how uneven resource availability, and the feedback from the active agents, shapes collective behavior in nonequilibrium systems.

This project is a collaboration with Euijoon Kwon, whose sharp modeling and simulation insights were central to its publication. I am pleased that this work has found its place in Communications Physics, a fully open-access journal launched in 2018.

See this post on LinkedIn: link

See this post on Facebook: link


(국문)

제 두번째 논문인 "Phase separation of chemokinetic active particles"(화학운동성 능동 입자들의 상분리)가 Communications Physics에 출판되었습니다.

능동 물질이란 개별 구성요소의 수준에서 에너지를 소모하고 운동성을 가지는 일군의 물질들로, 헤엄치는 박테리아의 군집, 한쪽 면에만 촉매가 칠해진 인공 콜로이드 입자들의 모임, 흩뿌려진 세포 골격 위를 운동하는 분자 크기 모터 (molecular motor) 등이 그 예시입니다.

이들은 개별 입자 수준에서 흐름을 형성하여 평형으로부터 벗어나 있으므로, 일반적인 평형 물질에서는 불가능한 집단현상을 나타냅니다. 예를 들어서 새들의 몰려다니는 운동(flocking)을 모사하기 위해 제안되었으며 능동물질 분야의 효시가 된 Vicsek model (1995)에서는 2차원에서도 전역적으로 정렬된 상이 나타나는데, 이는 평형 상태의 물질에서는 Mermin-Wagner theorem에 의해 금지되는 종류의 질서입니다.

또한 정렬효과가 없을 때에도, 입자들 간에 척력만 작용하는데도 클러스터가 생겨서 저밀도 영역과 고밀도 영역이 나누어지는 '운동성에 의한 상분리(Motility-induced Phase Separation, MIPS)'와 같은 능동물질 고유의 현상이 나타납니다. 이 현상은 흔히 범퍼카들이 충돌한 상태에서 서로 빠져나가지 못하는 것에 비유됩니다.

능동물질에서 운동성의 크기(즉 능동 입자의 디폴트 속력 값)는 흔히 상수로 주어진 것으로 모델링되나, 실제로는 그러한 운동성을 꾸준히 만들어낼 수 있는 어떤 원인, 즉 연료가 있을 것입니다. 연료의 확산 속도는 유한하므로, 어떤 지점 주변에서 연료가 국소적으로 많이 소모되어 사라진다면 그 지점 근처에서는 능동입자들의 속력이 느려질 것입니다. 즉, 각 지점에서 대략적으로 연료 농도와 입자들의 자체 추진 속력이 비례한다고 생각할 수 있습니다.

이를 미니멀한 형태의 화학운동성 (chemokinesis) 으로 생각할 수 있습니다. 물론 이렇게 연료의 국소적 고갈에 의한 자연스러운 효과 외에도, 박테리아의 경우 세포의 신호 처리 작용에 의해 특정 화학물질 농도를 감지하여 속력을 바꾸는 현상도 가능할 것입니다. 저희의 이론은 기본적으로는 이 두 가지를 구분하지 않으며 (물론 현상의 스케일 차이가 있을 수 있습니다) 이 글에서는 섞어서 사용하겠습니다.

화학물질의 농도 '기울기'에 반응하여 입자들의 운동 '방향'이 바뀌는 화학주성(주화성, chemotaxis)은 능동물질 분야에서 최근에 활발히 연구되었습니다. 입자의 자체추진 속력이 상수일때 나타나는 기본적인 MIPS와 비교할때, 단일 클러스터가 성장하는 대신에 유한한 크기로 다수의 클러스터가 유지되고, 심지어 진동(생성, 소멸을 특정 시간 스케일에서 반복)하거나 특정 방향으로 운동(motile band)하는 등 흥미로운 현상들이 나타납니다. 그러나 화학물질의 농도 자체에 따라 입자들의 운동 '속력'이 바뀌는 화학운동성의 효과는 저희가 아는 한 그동안 이론적으로 연구되지 않았습니다.

저희는 화학운동성을 직관적으로 비교적 쉽게 이해 가능한 두 가지(BMR/AMR)의 시나리오로 압축하였습니다. 먼저 화학물질의 농도에 자체추진 속력이 비례하는 건 공통적이지만, 입자들이 클러스터 안에서 서로 뭉쳐서 실질적으로 움직이지 못할 때 연료 소모의 방식에 차이점이 있습니다.

먼저 Basal metabolic regime (BMR)의 경우는, 클러스터 내부에서 움직이지 못할 때에도 화학물질이 계속 소모됩니다. 이러한 상황에서는 클러스터 내부에 연료 고갈이 심해져서 입자들이 더 움직이지 못하게 되므로, 디폴트 MIPS에 비해 클러스터가 더 효과적으로 성장하게 됩니다.

반면 Active metabolic regime (AMR)에서는 입자들이 실질적으로 움직일 때에만 화학물질이 소모됩니다. 즉, 국소적인 연료 소모율이 입자들의 밀도뿐 아니라 그 지점 근처의 입자들의 실제 속도에도 비례하게 됩니다. 따라서 클러스터 내부에서 입자들이 어차피 잘 움직이지 못하는 상황에서는 연료가 save되게 되며, 기회가 되면 클러스터 표면 근처에서 입자들이 빠른 속력으로 빠져나갈 수 있어, 클러스터 성장이 억제됩니다.

더욱 흥미롭게도, AMR에서는 연료 확산의 시공간적 눈금과 연료 소모율을 잘 선택함으로써, 작은 클러스터들이 안정화되어 가만히 있게 할 수도 있는 반면, 끊임없이 생성/소멸되거나 움직이게 할 수도 있습니다. 이는 입자의 연료소모를 연료의 확산 속도가 충분히 빨리 따라가느냐, 그렇지 못하느냐와 관련되어 있으며, 후자의 경우 이 불일치가 지속적으로 해소되지 못하여 클러스터들의 운동으로 이어지게 됩니다.

먼저 입자 기반의 시뮬레이션으로 이러한 현상들을 확인한 뒤, 거칠게 묶기 (coarse-graining) 를 통해 입자들의 밀도에 대한 연속체 관점의 방정식을 얻어, 시뮬레이션과 이론 양쪽 (이론의 경우 고유값의 부호 분석) 에서 유사한 결과를 확인했습니다.

특히 연속체에서는 개별 입자의 활발한 클러스터 출입에 따른 노이즈의 효과가 없으므로 여러 집단현상의 가능성을 훨씬 깨끗하게 관찰할 수 있었습니다. 이러한 현상들을 입자기반에서도 더 깨끗하게 보기 위해서, 입자들이 역학적 척력이 아닌 quorum sensing (주변에 다른 입자들이 많으면 속력을 줄임) 을 통해 상호작용하는 모형에서도 시뮬레이션하여, 이론적으로 예상되는 phase diagram과 유사한 결과를 관찰했습니다.

이 연구는 제 첫 번째 논문의 두 시나리오 (stuck되어야 연료 소모 / 움직여야 연료 소모) 를 조금 더 사실적으로 만들어서, 집단현상에 주는 영향까지 관찰해 보자는 문제의식에서 출발하였습니다. 첫 번째 논문은 능동물질계에 관여된 '에너지의 흐름'으로부터 열역학을 기술하는 데 집중하여 전 공간에서 연료를 strict하게 chemostatted한 반면, 이번 연구는 확산되거나 국소적으로 소모되는 연료의 물질성을 보다 구체적으로 고려하므로, '물질의 흐름'이 비평형계에 주는 효과를 연구한 것으로 생각할 수 있습니다. 더 확장하자면, 자원의 불균일한 분포에 가해지는 음성/양성 피드백이 시스템의 집단현상에 미치는 영향을 연구했다고 생각할 수 있습니다.

이번 연구의 진행은 함께 연구하는 권의준 학생의 탁월한 이론적 모형화 및 풀이, 전산 시뮬레이션에 핵심적인 도움을 받았습니다. 2018년에 만들어진 오픈액세스 저널 Communications Physics에 게재하게 된 것을 기쁘게 생각합니다.

- 끝 -

Sunday, July 6, 2025

[presentation material] Statistical physics approaches to deep learning: dynamical and structural perspectives

Recently I joined an interdisciplinary study group called the 'TMI group', which consists of students from various backgrounds including AI, neuroscience, physics, education studies and philosophy. This group is one of the most enthusiastic study groups I have ever attended, providing actually productive discussions and critical issues.


Last week, I hosted a zoom seminar for this group titled 'Statistical-physics approaches to deep learning: dynamical and structural perspectives (DL x SP)'. I aimed to convey that deep learning can be understood as a 'non-linear many-body system with non-deterministic dynamics', therefore being a legitimate topic of SP.


Even within SP, there are many incommensurable views for the analysis of DL. Some are indeed useful but relatively phenomenological, while others fundamentally tackle the structural aspects of DNNs. Recently, I believe 'disorder' is the most central concept of the SP view of DL.


NNs are highly complex, since they are non-linear combinations of functions with vastly different weights. But they are distinguishable from completely random fields since they learn something and form good representations. They are indeed complex, but they are somehow 'structured' and (especially thanks to the fact that they involves super high-dimensional space) the situation is not so bad.


This subtle regime is effectively tackled by theories developed for disordered systems including replica method. These calculations have been successfully connected to actually important concepts in DL community, such as lazy (kernel) learning versus feature learning, flat minima, linear mode connectivity (for example, see B. L. Annesi et al., "Star-shaped space of solutions of the spherical negative perceptron," Physical Review Letters 131 (2023)).


In fact, this perspective traces back to the ancient era of deep learning. Even at the 1980s and 90s, statistical physicists have focused on analyzing the phase behavior during the learning of multi-layer NNs (including quite practical issues such as teacher-student scenario). The Nobel Prize awarded last year to J. J. Hopfield was a controversial topic among physicists. But one lesser-known fact is that when G. Parisi won the prize in 2021, the citation already referred to AI theory—specifically in relation to his theories on glassy disordered systems and its relevance to DL.


Of course, as one of the TMI group members pointed out, to make these more practically applicable, they must be further refined by scholars in statistical learning theory, and should be integrated with the fields of computational theory and optimization. For example, one may see 'dynamical mean-field theory' approaches by T. Suzuki group (U Tokyo) and how they rigorously explain feature learning and in-context learning.


Next month, I will host a focus review session introducing high-dimensional random geometry (which also employs SP methods for disordered systems) in the context of modern deep learning. It begins with a simple and general geometric problem—separating labeled points (or ellipsoids) with a hyperplane—but ultimately explains the surprising success of modern AI, including few-shot learning and in-context learning.


For the former, see B. Sorscher, S. Ganguli and H Sompolinsky, "Neural representation geometry underlies few-shot concept learning," Prog. Natl. Acad. Sci. 119 (2022). For the latter, see A. J. Wakhloo, T. J. Sussman and SueYeon Chung, "Linear classification of neural manifolds with correlated variability," Phys. Rev. Lett. 131 (2023) and A. Kirsanov, C. N. Chou, Kyunghyun Cho and SueYeon Chung, "The geometry of prompting: Unveiling distinct mechanisms of task adaptation in language models," arXiv:2502.08009 (2025).


On a lighter note, in a KIAS lecture series planned to held at early August this year, Prof. SueYeon Chung is invited as a lecturer. I am looking forward the lecture since it is first time for me to attend Prof. Chung's lecture in-person.


See this post at LinkedIn: link
See this post at Facebook (Korean): link

Presentation Material

 

(국문)
몇 달 전 TMI group이라는 다학제적 모임에 조인하게 되었습니다. AI, 신경과학, 물리학, 교육학, 철학 등 여러 지적 배경의 대학원생들이 참여하는데요, 모임장님이 잘 리드하시는 덕분에 모임의 응집력도 꾸준히 유지되고, 다학제적 모임임에도 느슨한 교류를 넘어 상당히 구체적인 이론적 쟁점에 대한 논의들도 오가는 편이라서 많이 배워 가고 있습니다. 분석철학에서의 중국어 방 문제, 기존 언어학에서의 구조의미론과 LLM의 통계적 해법의 화해 가능성, 신경과학의 자유에너지 원리 등에 대해 논문들을 바탕으로 개괄하고 토의하고 있습니다.

지난주 제 발표 순서에서는 '딥러닝에 대한 통계물리적 접근: 동역학적 및 구조적 관점(DL x SP)'라는 제목으로 세미나를 진행했습니다. 딥러닝이란 비선형성을 갖고 확률적인 동역학을 바탕으로 고차원 표현들을 형성하는 다체계이며, 따라서 통계역학의 적법한 주제가 되어왔음을 전달하고자 했습니다.

현대 딥러닝은 굉장히 많은 노하우들이 접목되어 탄생하였고 그만큼 다양한 관점에서 그 원리가 분석될 수 있습니다. 심지어 통계물리학 안에서도 딥러닝을 보는 여러 가지 관점들이 있고, 그들은 서로 다른 층위에 있으므로 단일한 픽쳐로 잘 합쳐지기가 어렵습니다. 그들 중 일부는 물론 쓸모있지만 비교적 현상론적인 반면, 다른 일부는 심층신경망의 구조적 특징을 꽤 근본적으로 건드립니다. 최근에 저는 'disorder'(마치 glassy system 즉 유리와 같은)가 딥러닝에 대한 통계물리적 관점에서 가장 중심적인 개념이라고 생각하고 있습니다.

수많은 서로 다른 가중치들이 비선형적으로 연결된 심층신경망은 지극히 복잡하지만, 그것이 무언가를 학습해서 좋은 표현을 형성하는 한 완전한 무작위 장과는 구분될 수도 있습니다. 복잡하지만, 분명히 어떤 식으로든 구조화되어 있고 (특히 차원이 너무나 높은 덕분에) 생각보다 상황이 좋을 수도 있다는 것입니다.

Replica method를 비롯한 무질서계에 대한 통계역학 이론들을 이러한 미묘하고 중간적인 영역에 적합하게 적용하여, 딥러닝 커뮤니티에서 실질적으로 중요한 여러 개념들, 예컨대 lazy (kernel) learning vs feature learning, flat minima, linear mode connectivity 등과 우아하게 연관지을 수 있습니다 (예시: B. L. Annesi et al., "Star-shaped space of solutions of the spherical negative perceptron," Physical Review Letters 131 (2023)).

사실 이러한 무질서계 관점은 딥러닝 초창기에 그 기원을 찾을 수 있습니다. 8-90년대에 물리학자들은 이미 다층 신경망의 패턴학습과 상전이를 분석하는 연구를 다수 진행했고 이는 때때로 현대 기준으로 보아도 상당히 프랙티컬한 주제(이를테면 전이학습에서의 teacher-student 시나리오)에 대한 관심으로 이어졌습니다.

작년 J. J. Hopfield의 노벨물리학상 수상은 세간에 화제였을뿐 아니라 물리학자들 사이에서 꽤나 논란이었는데요, 사람들이 잘 모르는 사실은 G. Parisi가 2021년에 물리학상을 수상했을 때에도 시상 취지 중 하나에 이미 머신러닝에의 이론적 기여가 명시적으로 포함되어 있었다는 점입니다. 이는 Parisi가 무질서계 해석을 위해 제안한 replica 방법이, 유리를 닮은 계 중에서도 특히 딥러닝을 설명하기에 유용했기 때문입니다.

물론, TMI group의 멤버께서 올바르게 지적했듯이, 이러한 통계역학적 관점이 흥미로운 설명을 넘어 실질적인 쟁점과 새로운 지식을 제공하기 위해서는 statistical learning theory 등을 비롯한 보다 수학에 가까운 분야의 이론가들의 참여를 통해 더욱 rigor를 갖추고, 계산이론 및 최적화 등과 관련지어질 필요도 있겠습니다. 최근에 dynamical mean field theory 쪽이 이러한 방향으로 상당한 진전을 보면서 feature learning, in-context learning 등의 설명에 이르고 있는데 (대표적으로 도쿄대학 Taiji Suzuki 그룹), 여기에 disorder 및 고차원과 같은 딥러닝의 특징이 얼마나 반영될 수 있는지 (혹은 그럴 필요가 없는지)는 저도 더 공부해보아야 할 것 같습니다.

다음달의 focus review에서는, 개괄적이었던 이번 세미나에서 꾸준히 시사되었으나 구체적으로 다뤄지지는 않은 '고차원'의 이점을 소개할 계획입니다. 위에도 썼듯 딥러닝의 성공은 무질서와 고차원 사이의 미묘함에 있다고 보기 때문입니다. 고차원 무작위 기하학을 바탕으로 딥러닝의 성능 척도를 성공적으로 예측하는 통계역학적 이론들을 다루고자 합니다.

이들은 매우 간단하고 일반적인 기하 문제 (색깔이 칠해진 채로 랜덤하게 흩뿌려진 점들 혹은 타원체들을 단 하나의 평면으로 올바르게 분리할 수 있는지 여부, 혹은 그럴 확률)에서 출발하여, few-shot learning, 그리고 prompt를 통한 in-context learning 등 현대 AI의 놀라운 현상들까지 기하적으로 잘 설명해냅니다.

전자에 대한 것은 B. Sorscher, S. Ganguli and H Sompolinsky, "Neural representation geometry underlies few-shot concept learning," Prog. Natl. Acad. Sci. 119 (2022), 후자에 대한 것은 A. J. Wakhloo, T. J. Sussman and SueYeon Chung, "Linear classification of neural manifolds with correlated variability," Phys. Rev. Lett. 131 (2023)A. Kirsanov, C. N. Chou, Kyunghyun Cho and SueYeon Chung, "The geometry of prompting: Unveiling distinct mechanisms of task adaptation in language models," arXiv:2502.08009 (2025) 등이 그 예시가 되겠습니다.

여담이지만 8월 초에 저도 참석하기로 한 고등과학원 lecture series에 정수연 교수님께서 강연자로 오시게 되었는데, 직접 말씀 들어 보는 것은 처음이라 매우 기대가 됩니다.

- 끝 -

Thursday, June 26, 2025

Review of "Thermodynamics of quantum information flows"

On June 26, I gave a talk at the 13th Workshop on Nonequilibrium Fluctuation Theorems, reviewing a paper (K. Ptazyński and M. Esposito, "Thermodynamics of quantum information flows," Physical Review Letters 2019, link) on quantum thermodynamics. I am grateful for Prof. Jong-Min Park of APCTP for giving me a good chance.

The paper itself have a clear, insightful message but quite concisely written, so I supplemented my talk with additional background and future directions. I began by introducing the concept of information flow, showing how this notion is elegantly connected to the second law of thermodynamics for subsystems.


This concept of information flow has been a central theme in my recent ongoing research. It underlies many apparently second-law-violating phenomena —flows emerging in the absence of gradients or even against gradients. Here, information flow can be understood as a thermodynamic resource like free energy.

Next, I outlined the density matrix formalism of QM, along with some basic concepts such as pure/mixed states and entangled/separable states. I especially enjoyed calculations using the operator properties and working with the Bell state examples by my hand. Although I had studied a little bit of textbook QM before, unfamiliarity on those formalism had often felt like barriers when reading papers in this area. What I have learned while preparing this part will likely make future readings much easier.

Next, I discussed about Lindblad equation which is a Markovian, CPTP framework of describing open quantum systems. Deriving Spohn's theorem (which is a key step for the emergence of thermodynamic irreversibility) from the 'contractive' property of Lindbladian dynamics was very impressive.

While the main body of the paper is not very extensive, it draws a close analogy with classical systems by defining an information flow between two subsystems in the Lindblad setting and successfully connects it with the (modified) second law for subsystems. Authors then exemplify their theory with a two-quantum-dot system.


What directions might future work take? In analogy with my ongoing work on classical regime, one could formulate a trajectory-level (before averaged) version of information flow in the quantum setting and conduct large deviation analysis to systematically unravel the trajectory-wise structure of apparent second-law violation.

Meanwhile, quantum entanglement is a very different type of resource from thermodynamic resources. For example, dissipation, which is typically seen as detrimental in thermodynamic terms, can actually enhance entanglement (called dissipative preparation). Since quantum mutual information approximates or bounds the entanglement, it may be possible—at least in restricted scenarios—to relate thermodynamic resources like information flow to entanglement.

Additionally, there has been works that leverage dissipation for quantum error correction, or overcoming barren plateau in quantum ML tasks like VQE. These kind of works may also be fruitfully connected to the framework of quantum (stochastic) thermodynamics.

See this post on LinkedIn: link
See this post on Facebook (Korean): link

Presentation material






(국문)
지난 6월 25-27일에 양평에서 진행된 13th Workshop on Nonequilibrium Fluctuation Theorem에서 톡을 할 기회를 얻어서, 제 최근 관심사이자 연구주제인 정보열역학의 continuous dynamical system 포말리즘을 양자역학에 확장한 논문(K. Ptazyński and M. Esposito, "Thermodynamics of quantum information flows," Physical Review Letters 2019, 링크)을 리뷰하는 시간을 가졌습니다.

논문은 명료한 main result를 가지고 있지만 핵심 내용만으로 발표를 구성하기엔 길이가 다소 짧아서, 발표 준비 과정에서 어차피 공부해야 했던 기초적인 내용들을 발표에 삽입하여 청중과 함께 살펴보고자 했습니다. 사실 이번 발표는 제가 잘 준비했다고 생각한 맨 앞부분에서 여러 질문에 답을 잘 못하는 바람에, 성공적이었다고 보기는 어려웠습니다. 그래도 많이 질문해 주신 덕분에 사후적으로 내용도 더 정리해 보고 많이 배우는 시간이 되었던 것 같습니다.

먼저 정보이론의 맥락에서 정의된 정보 흐름 (information flow)이 엔트로피와, 나아가서 열역학과 연결되는 과정을 소개했습니다. 정보흐름은 제 최근 연구 주제에서 핵심적인 역할을 하는 물리량인데요, 기울기가 없음에도, 혹은 아예 기울기를 역행하여 어떤 '흐름'이 발생하는 등 겉보기에 열역학 2법칙을 위반하는 여러 현상들의 열역학적 한계를 이야기해 줍니다. 정보 흐름 또한 마치 자유에너지처럼 우리가 유용한 일을 하기 위한 열역학적 자원인 것입니다.

다음으로 양자역학의 밀도행렬 포말리즘과, pure/mixed state, 양자 얽힘의 개념 등을 다루었습니다. 연산자의 성질을 바탕으로 여러 공식을 간단하게 만드는 과정과, Bell state를 가지고 pure/mixed, entanglement 등의 개념을 연습삼아 계산해보는 과정이 특히 재미있었습니다. 양자역학을 교과서로 공부하긴 했음에도 이런 개념들에 익숙하지는 않은 것이 양자쪽 논문 훑어볼 때 늘 장벽이 되었었는데, 이번 발표 준비를 계기로 조금 더 익숙해질 수 있었던 것 같습니다.

다음으로는 외부와 접촉하고 있는 열린 양자계(open quantum system)를 다루는 하나의 방법인 Lindblad equation을 소개하였습니다. Lindblad operator가 만족하는 contractive 성질(계속 가할수록 quantum relative entropy가 줄어든다)로부터 Spohn's inequality를 통해 열역학적 비가역성이 도출되는 것이 매우 인상적이었습니다. 앞으로는 Lindblad equation뿐 아니라 열린양자계를 기술하는 다른 여러가지 근사적 방정식들이 어떤 서로 다른 가정 하에 어떻게 얻어지는지도 공부해보면 좋을 것 같습니다.

논문의 메인 내용은 이렇게 기술되는 열린 양자계에서 고전역학에서의 개념을 거의 parallel하게 따라서 두 subsystem 사이의 정보 흐름을 정의하고, 이것이 subsystem에서의 2법칙 위배를 어떻게 설명하는지 보여주는 것입니다. 두 개의 양자점을 연결시키고 한쪽에 drive를 세게 걸어서 다른 쪽에서 기울기에 역행하는 흐름이 생기게 한 시스템을 예시로 보여줍니다.

후속연구로는 무엇이 가능할까요? 먼저 제가 현재 고전역학 영역에서 진행중인 연구와 패러렐하게, 양자에서도 '평균되기 전'의 정보 흐름(stochastic info flow라고 부르고 있습니다)을 정의하고 이에 대한 large deviation 분석을 수행하여 subsystem이 열역학 제2법칙을 위배하는 구조를 체계적으로 unravel해 볼 수 있습니다.

한편, 양자 얽힘과의 관계도 생각해볼 수 있습니다. 양자 얽힘은 자유에너지 등 흔히 생각하는 열역학적인 자원과는 굉장히 다른 종류의 resource라서, 열역학적 원리와의 연결이 그리 명백하거나 단순하지 않습니다. 예컨대 통념과 달리 외부와의 열적 접촉에 의해 오히려 얽힘이 늘어나는 일이 가능합니다 (dissipative preparation). 이러한 상황에서 quantum mutual information을 공통된 고리 삼아서, 제한된 상황에서나마 양자 얽힘에 대한 resouce theory와 양자 정보열역학을 연결지을 수 있을 것 같습니다 (이를테면 얽힘 형성의 speed limit 등).

이외에 꼭 정보흐름이랑 상관은 없더라도 양자역학 분야, 특히 추상화된 양자 알고리즘보다는 조금 더 통계물리학 백그라운드를 가진 학도로서 기여할 수 있는 부분들에 대해 개인적으로 요새 점점 관심이 커지고 있습니다. 예컨대 열적 접촉에 의한 노이즈를 활용하여 양자 오류정정(quantum error correction)을 하거나, VQE를 비롯한 양자 ML에서 barren plateau (대충 말하자면, 최적화 과정에서 빠져나가기 어려운 드넓은 영역)를 극복하는 등의 연구가 있습니다. 특히 후자는 고전적 딥 러닝에서 SGD를 통해 안 좋은 영역에서 빠져나오는 것과 약간 겹쳐 보여서 흥미롭게 느껴지기도 합니다. 또한 open quantum system과는 얼마나 관련될지 모르겠지만, quantum sensing에서는 quantum fisher information (파라미터가 변할 때 분포 변화의 민감성)이 상전이점 근처에서 발산하므로, 그 근처에서 초정밀한 측정이 가능하다는 내용이 있다고 합니다. 이 또한 통계물리학도로서 흥미롭게 느껴집니다.

아무리 타과 출신이라도, 물리학도로서 양자를 너무 모르는 것이 그동안 콤플렉스였는데, 밀도행렬 포말리즘을 기초부터 공부해 봄과 동시에 제 최근 관심사인 정보열역학과도 연결짓는 좋은 논문을 읽어 보고, 양자 쪽에 있는 고유한 이슈들을 이해해 볼 수 있어서 저로서도 유익한 시간이었습니다.

Thursday, April 3, 2025

이항 관계(Binary relations)의 개념과 몇 가지 성질

어떤 집합 \(A\)에서 정의되는 이항 관계(binary relation), 혹은 단순히 관계(relation) \(\mathrm{R}\)는, 그 집합의 원소들의 순서쌍 \((x,y)\)들을 원소로 갖는 어떤 집합이다.


이런 것을 왜 정의하는가? 일상 언어에서의 '관계가 있다'라는 말을 집합의 언어로 형식화한다고 생각하면 이해가 쉽다. 세 원소 \(a,b,c \in A\) 가 만드는 순서쌍 중, 예를 들어서 \((a,b)\)는 특정한 관계를 만족하지만, \((a,c)\)는 그러한 관계를 만족하지 않는 상황을 얼마든지 생각할 수 있다. 이를 \((a,b)\in\mathrm{R}\), \((a,c)\notin\mathrm{R}\)로 하여, '관계를 만족한다(만족하지 않는다)'는 것을 '집합 \(\mathrm{R}\)의 원소이다(원소가 아니다)'라고 형식화하는 것이다.


이때 이항 관계 \(\mathrm{R}\)에 별다른 조건은 없다. 즉 사람 눈으로 보기에 이게 정확히 어떤 관계인지 의미를 부여하기 어렵더라도 상관이 없다. 마치 함수(실제로 이항 관계는 함수의 일반화이다)가 반드시 우리가 아는 어떤 식 \(f(\cdot)\)를 이용하여 \(y=f(x)\) 꼴로 간결하게 나타내어지거나 일상 언어로 의미가 부여될 필요는 없는 것과 같다.


이를 간단히 \(a\mathrm{R}b\)라고 표기하기도 한다. 이렇게 표기하면 상당히 생소해 보이지만, 결국 집합에 대한 이야기이므로 너무 낯설어하지 않아도 되며, 공부하다가 확실하지 않은 것은 집합의 언어로 풀어 쓰면서 확인하고 이해해 볼 수 있다. 그렇지만 이항 관계들을 능숙하게 다루기 위해서는 그렇게 매번 집합의 언어로 바꾸어서 다루기보다는, 이항 관계의 주요 성질들을 숙지한 뒤 \(a\mathrm{R}b\)와 같은 표기법을 바탕으로 다룰 줄 아는 것도 필요할테다.


이하에서는 주어진 이항 관계가 만족하거나 만족하지 않는 몇 가지 주요 성질들(비대칭성, (비)반사성, 반대칭성 등)을 소개하고, 집합과 논리를 연습할 겸 간단한 정리 1개의 증명을 다룬다.


1. 비대칭성(asymmetry)

\[\forall x,y \in A,\, (x,y)\in\mathrm{R} \Rightarrow (y,x)\notin\mathrm{R}.\]

이항관계 \(\mathrm{R}\)이 비대칭적(asymmetric)이라는 것은, \((x,y)\)가 그 관계를 만족할 경우 이것을 뒤집은 \((y,x)\)는 그 관계를 만족하지 않는다는 뜻이다. 집합의 원소를 점으로 표현하고 관계를 화살표로 표현하면, 이를 어떤 두 점 사이에도 화살표가 한 방향으로만 있어야 한다(혹은 아예 없거나)고 말할 수 있다. 그림을 통한 이해는 최하단 사진에서 볼 수 있다.


2. 반사성(reflexive)와 비반사성(irreflexive)

(1) 반사성

\[\forall a\in A, (a,a)\in\mathrm{R}.\]

이항관계 \(\mathrm{R}\)이 반사적이라는 말의 정의는, \(A\)의 모든 원소 \(a\)에 대해 \(a\)에서 출발해서 바로 자기 자신으로 돌아가는 화살표가 있어야 한다는 것이다 (여러 점을 거쳐서 다시 들어가는 것은 가능하다. 이항(binary), 즉 두 원소 사이의 관계이므로 이런 것은 고려의 대상이 아니다).

(2) 비반사성

\[\forall a\in A, (a,a)\notin\mathrm{R}.\]

이항관계 \(\mathrm{R}\)이 비반사적이라는 것은, \(A\)의 어떤 원소 \(a\)에 대해서도, \(a\)에서 출발해서 바로 자기 자신으로 돌아가는 화살표가 없어야 한다는 뜻이다. 이러한 비반사성은 단순히 '반사적이지 않다'는 것과는 다르다.


3. 반대칭성(antisymmetry)

\[\forall x,y\in A, \quad (x,y)\,\mathrm{and}\,(y,x)\in\mathrm{R}\,\,\Rightarrow\,\, x=y.\]

이항관계 \(\mathrm{R}\)이 반대칭적(antisymmetric)이라는 것은, 두 순서쌍 \((x,y),(y,x)\)가 모두 \(\mathrm{R}\)을 만족하는 경우는 \(x,y\)가 사실 같은 원소인 경우뿐이라는 뜻이다. 이를 반대로 생각하면(대우명제) 더 쉬운데, \(x,y\)가 다른 원소일 경우에는 양쪽 화살표 둘 모두가 존재해서는 안 되고, 한쪽만 있거나 아예 없어야 한다는 뜻이다. 자기 자신에서 나와서 자기 자신으로 들어가는 화살표는 가능하다.


이상의 정의로부터, 어떤 이항관계가 반대칭인데, 자기 자신에서 나와서 자기 자신으로 들어가는 화살표까지 없으면, 그 이항관계는 비대칭이라는 것은 직관에 따라 비교적 명확하다. 실제로 다음이 성립한다. 즉 비대칭성과, '반대칭성 & 비반사성'은 서로 필요충분조건이다.

\[\textrm{R is asymmetric}\,\,\Leftrightarrow\,\,\textrm{R is irreflexive and antisymmetric}\]


이를 집합의 언어로 증명해 보자. 증명 과정을 명료하게 써 보는 일, 그러면서도 그림을 통한 직관적인 이해와 align시켜 보는 일은 생각보다 재미있다.

① \((\Rightarrow)\)

i) asymmetric \(\Rightarrow\) irreflexive

이항관계 \(\mathrm{R}\)이 비대칭일 때,

만약 어떤 \(a_1,a_2\in A\)가 존재하여 \(a_1=a_2\,(=a)\)이고 \((a_1,a_2)\in\mathrm{R}\)이라면 (가정)

비대칭성의 정의에 의하여, 순서를 바꾼 순서쌍 \((a_2,a_1)\) 은 \(\mathrm{R}\)의 원소가 아니다.

그러나 \(a_1=a_2\)이므로 실제로는 이는 원래 순서쌍과 동일하며 따라서 \(\mathrm{R}\)의 원소여야 한다는 결론이 나온다. 이는 모순이다. 따라서 가정은 잘못되었다.

즉, 어떠한 \(a\in A\)에 대해서도 \((a,a)\notin\mathrm{R}\)이다. 곧, \(\mathrm{R}\)은 비반사적이다.

ii) asymmetric \(\Rightarrow\) antisymmetric

이항관계 \(\mathrm{R}\)이 비대칭일 때,

\((x,y)\in\mathrm{R}\,\,\Rightarrow\,\,(y,x)\notin\mathrm{R}\)이므로,

반대칭 여부를 판단하기 위한 조건인 \((x,y)\,\mathrm{and}\,(y,x)\,\in\mathrm{R}\)을 만족하는 순서쌍 자체가 존재하지 않는다. 따라서 \(x=y\)는 vacuously true이다. 곧, \(\mathrm{R}\)은 반대칭이다.


② \((\Leftarrow)\)

이항관계 \(\mathrm{R}\)이 비반사적이고 반대칭일 때,

만약 어떤 \((x,y)\in\mathrm{R}\)에 대해 \((y,x)\in\mathrm{R}\)이라면 (가정)

\(x,y\)의 관계는 같거나 다르거나 둘 중 하나인데,

\(x=y\)라면 \((x,x)\in\mathrm{R}\)이므로 비반사성에 모순이고,

\(x\neq y\)라면, \((x,y)\,\mathrm{and}\,(y,x)\,\in\mathrm{R}\)인데 \(x\neq y\)이므로 반대칭성에 모순이다.

따라서 어떤 경우에도 가정은 잘못되었다.

즉 모든 \((x,y)\in\mathrm{R}\)에 대해 \((y,x)\notin\mathrm{R}\)이다. 곧, \(\mathrm{R}\)은 비대칭이다.


①, ②를 종합하면, 증명하고자 했던 정리가 참임을 알 수 있다.




Facebook에서 이 글 보기: 링크

- 끝 -

Tuesday, March 11, 2025

딥러닝의 일반화 성능에서 'flat minima' 테제의 역사 (history of 'flat minima' argument on the generalization performance of deep learning)

뉴럴 네트워크가 지극히 성공적인 이유를 설명할 때 주로 핵심이 되는 키워드는 일반화(generalization)이다. 일반화란 주어진 데이터에 과적합(overfitting)되지 않고 새로운 샘플들이 들어와도 좋은 성능을 내는 능력을 말한다. 이는 모델의 단순성(simplicity)과도 어느 정도 관련된다. 모델이 지나치게 복잡하면 training set은 아주 잘 맞출 수 있겠지만, (동일한 가상의 분포로부터 왔다고 간주되는) 새롭게 주어지는 test set은 잘 맞추지 못하게 되기 때문이다.

문헌들에서는 딥러닝이 이러한 높은 일반화 성능을 보여주는 이유가, loss function landscape의 flat minima와 거의 동일시되는 경우가 많다. 뉴럴 네트워크의 가중치들이 SGD와 같은 최적화 과정을 통해 도달한 지점이, 뾰족하지 않고 널찍한 곳일 때에 일반화를 잘 한다는 것이다.


SGD를 포함한 표준적인 딥러닝 학습 알고리즘의 recipe가 신경망 가중치들로 하여금 왜 이러한 flat minima를 선호하게 되는지, 혹은 표준적인 recipe를 어떻게 수정해서 flat minima를 일부러 더 선호하게 할지에 대해서, 비평형 통계물리학을 포함한 다양한 관점에서의 많은 연구가 존재한다.

그런데 더 기본으로 돌아가서, 이러한 flat minima가 일반화 성능과 동일시될 수 있는 이유는 정확히 무엇인가? 근래의 딥러닝 논문들에서 이 주장을 정당화할 때, loss landscape가 조금 뒤틀어져도 (즉, 데이터셋이 조금 바뀌어도) 모델의 특성이 크게 바뀌는 게 없어서라고 직관적으로만 주로 설명한다. 이는 설득력이 있으며 일반적으로 널리 받아들여진다. 그러나 정말로 그러한지, 그리고 이론적으로는 어떻게 설명할 수 있는지는 별개의 문제이다. 이에 문헌 조사를 해 보았다.

[1] S. Hochreiter and J. Schmidhuber, "Simplifying neural nets by discovering flat minima," NIPS 1994.

[2] S. Hochreiter and J. Schmidhuber, "Flat minimum search finds simple nets," Technische Universität München Technical report FKI-200-94, 1994.

[3] S. Hochreiter and J. Schmidhuber, "Flat minima," Neural Computation 9(1), 1997.

찾아본 결과, 위 논문 [1]이 머신 러닝에서 flat minima가 generalization에 좋다는 것을 논의한 제일 첫 문헌인 것 같다. 나는 사실 NIPS (NeurIPS의 예전 이름)가 1994년에 존재했는지도 몰랐다.

같은 저자들의 1997년 논문([3], 제목이 그냥 flat minima인)이 보통 최초라고 간주되고 많이 인용되는데, 상대적으로 인용이 덜 된 위 문헌이 사실 몇 년 더 먼저이고, [3]에도 [1]이 이미 인용이 되어 있다. 아마 조금 더 자세한 기술적 디테일과 실험 결과를 담은 technical report([2], 웹 검색으로 찾기 조금 어려운 편인데 Schmidhuber의 웹사이트에서 다행히 찾을 수 있었다)와 함께 NIPS 1994에 먼저 리포트한 뒤에, 이를 종합하고 보완해서 정식 저널에 1997년에 출판한 것으로 보인다. 내용들은 거의 비슷비슷하다.

이 논문들 역시 flat minima에 대해 위에서 서술한 직관에서 출발하지만, 그것을 이론적, 실험적으로 보다 엄밀하게 보이고자 한다. 먼저, 모델이 generalization를 잘 하기 위해서 가급적 simple해야 한다는 것 자체는 이 논문 이전에도 널리 알려진 것 같다. 이를 위해서 좋은 Gaussian prior를 골라야 한다는 Hinton 등의 연구가 있었다고 한다. 또한 지금은 Santa Fe 연구소에서 계산의 열역학을 연구하고 있는 D. H. Wolpert의 연구 또한 이 대목에서 인용된다.

반면 이 연구에서는 prior에 덜 의존하면서도 높은 generalization 성능을 달성하기 위해, flat minima를 처음으로 제안한다. 위에서 이야기한 것처럼, flat minima 제안의 토대가 되는 직관 자체는 현재 우리가 이해하고 있는 것(모델이 simple함 \(\rightarrow\) weight가 바뀌어도 GE가 많이 안 변해야 함 \(\rightarrow\) flat minima여야 함)과 거의 일치한다. Prior에 대해 덜 엄격한 가정만이 필요하다는 것은, appendix A.1.에서 GE를 overfitting error와 underfitting error로 나누고, 전자에서 베이즈 통계 기반으로 정당화한다.

다음으로 모델의 simplicity를 정보이론 내지는 코딩 이론의 MDL (minimum description length) 을 이용하여 설득력 있게 정량화하고, 이것이 loss의 Hessian과 관련지어지므로 landscape의 flatness에 대응된다는 것을 appendix 및 technical report에서 보이는 것 같다. 이론적으로 가장 흥미로운 부분이다.

이를 바탕으로, 일반적인 mean square error에 flatness를 선호하게끔 하는 항을 explicitly 더해준 채로 gradient descent를 하고, noisy classification 및 recurrent network 문제에서 그 성능을 검증해 보았다고 한다.

다만 현대 딥러닝에서는 이 논문처럼 flatness를 일부러 선호하게 해 주는 대신, 'stochastic' gradient descent가 random process로서 갖는 통계적 특성 자체가 implicit하게 flatness를 선호하게 해 주는 효과를 갖는다고 이해되고 있으며 이는 비평형 통계물리학 이론을 통해서도 활발히 연구된 바 있다. SGD는 단지 batch size 절약을 통해 계산 비용을 절감하는 것뿐 아니라, 더 나은 minima에 도달하기 위한 과정인 것이다.

Flat minima를 포함해서, 현대적인 딥러닝의 recipe에서 표준에 가깝게 받아들여지는 각각의 요소가 여러가지 다원적인 기여에 의해 만들어지는 과정이 참 흥미롭다. 수십 년 동안 제안되고 발전되어 온 여러 방법 및 개념들 중에서도, inductive bias가 적고 large scale에서도 성공적으로 작동한다고 검증된 것들이, 현재 트랜스포머 기반의 초거대 ai 시대에도 현재진행형으로 역할을 하며 도도하게 남아있는 걸 보면 너무 멋진 듯하다 (정작 트랜스포머의 원류가 되는 Kyunghyun Cho 교수님의 attention mechanism 논문은 딥러닝 붐 초기라고 할수 있는 2014년에 나오긴 했다). 이러한 과정이, 마치 양자역학의 초기 역사처럼 과학기술사가들에 의해 잘 탐구되고 정리되면 좋을 듯하다.

한편, 저자인 Hochreiter는 Neural computation 9(8) 1997에서 LSTM(Long Short-Term Memory)을 최초로 제안한 연구자이기도 하다. 1967년생이라고 하니, 20대 후반~30대 초반에 이 일련의 중요한 논문들을 쓴 셈이다.

Linkedin에서 이 글 보기: 링크
Facebook에서 이 글 보기: 링크

Tuesday, January 14, 2025

Sanaka AI의 swarm intelligence와 AI Scientist의 관계가 그 윤곽을 드러내다

Sanaka AI는 자연-모방 계산(nature-inspired computing), 무리짓는 지능(swarm intelligence) 등을 테마로 해서 창업된 회사이다. 이 테마는 silicon photonics, reservoir computing, probabilistic 및 thermodynamic computing 등과 함께 비전형적(unconventional) 컴퓨팅, 그 중에서도 analog computing의 한 종류에 잠재적으로 해당할 수 있다.


그런데 Sakana AI가 발표한 초기 결과들(특히 굉장한 화제가 된 The AI Scientist: 링크)은 이 테마와는 언뜻 크게 관련 없어 보이는, LLM을 이용한 과학 연구 자동화 쪽이어서 나로서는 한동안 의아하게 생각하고 있었다. 그런데 ASAL(Automated Search for Artificial Life)을 비롯한 최근에 발표되는 결과들(ASAL 논문: https://arxiv.org/pdf/2412.17799 , LinkedIn 포스트: https://bit.ly/40fGL9Z )을 보니 이것이 회사의 본래 테마와 어떻게 연결되는지 어느 정도 이해가 된다.

내 과거 포스트 "세포 자동자와 능동 물질: 비교하고 접점을 탐색하기" (블로그 링크: https://lnkd.in/gbM_EGMz)에서는 SmoothLife 및 Lenia를 비롯한 세포 자동자(특히 전통적인 세포 자동자와 달리 연속적 공간에서 정의되는)의 여러 예시들을 간단히 소개하고, 제 연구 분야인 능동 물질(active matter)과의 연관성도 생각해 본 바 있다.

최소주의적 상호작용 규칙을 통해 자발적으로 구성되고 유지되는 이러한 '인공세포'들의 패턴형성과 각종 기능수행은 눈으로 감상하기에 매우 재미있을 뿐만 아니라, 무리짓는 지능을 구현할 수 있는 잠재력이 크다. Sakana AI의 창립자인 David Ha 역시 과거부터 이 분야에 관심이 많았다.

그러나 이들을 이용한 저전력 아날로그 계산이 실현되려면, 이러한 인공 세포들이 디지털 컴퓨터 속에서 고비용으로 emulate되는 데에 그치지 않고 실제 물리적 제약을 만족시킬 필요가 있다 (실제로 Lenia의 최근 버전인 Flow-Lenia는 보존법칙, 국소성을 비롯한 이러한 부분에 집중한 것으로 알고 있다. 논문 링크: https://bit.ly/3PzwMHr).

ASAL을 보니, Sakana AI가 과학연구 자동화 솔루션을 만든 목적 역시, 잠재적으로 존재할 수 있는 인공세포들의 거대한 공간 속에서, 원하는 형태론적 조건을 충족시키거나 원하는 기능을 수행하면서도 물리적 제약을 만족하는 상호작용 규칙을 LLM으로 광범위하게 탐색하고 자동적으로 찾아내는 데에 초점이 맞추어진 것 같다. 이러한 광범위한 탐색 과업은, 인간의 창조성이 기계를 통해 간접적으로 행사되게 함으로써 스케일을 키우고 자동화한 AI Scientist의 시도와 잘 어울려 보인다.

이러한 무리짓는 지능은 현재 주류 패러다임인 디지털 컴퓨터 기반의 계산뿐 아니라 다른 비전형적 컴퓨팅 방법과 비교하더라도 당장의 현실화와는 꽤나 거리가 있어 보인다. 그럼에도 앞으로 이 창의적인 분야의 방법론적, 내용적 발전을 더욱 기대하게 된다.



LinkedIn에서 이 글 보기: https://bit.ly/40uFjlc
Facebook에서 이 글 보기: 링크

Thursday, November 21, 2024

복잡계 분야 윤혜진 교수님의 서울대 경영대 부임 소식

우리 교수님의 교수님이신 정하웅 교수님의 또다른 박사 제자이신 윤혜진 교수님(켈로그 스쿨)께서 이번에 서울대학교 경영대학으로 옮겨 오셨다는 소식(링크)이다. 부임한 지 얼마 안 되셔서 바쁘시겠지만 우리 연구실에도 초청 강연을 추진해 보면 좋겠다.

복잡계물리 쪽 연구방법론으로 인문사회 쪽 전공에 임용되신 또다른 경우로는 서울대 사회학과 손윤규 교수님이 계시며, 융합적인 전공에서 데이터 기반으로 인문사회학적 문제를 연구하시는 분들로 넓혀 보면 경희대학교 육순형 교수님, 숭실대학교 윤진혁 교수님 등 더욱 많이 계신다.


Facebook에서 이 글 보기: 링크

Tuesday, October 8, 2024

2024년 노벨물리학상 및 노벨화학상에 대한 단상들

2024.10.08.

올해 노벨물리학상은 굉장한 화제와 논란을 낳고 있는데 개인적으로는 매우 환영하는 바이며 전혀 이상하지 않게 느껴진다. 수상자 중에 제프리 힌튼(Geoffrey Hinton)이야 딥러닝 분야의 최고 기여자로 늘 세 손가락 안에 꼽힐 정도로 유명하고, 또다른 수상자인 존 홉필드(J. J. Hopfield)가 어떤 분인지에 대해서는 마침 작년에 썼던 글이 있어서 공유해본다 (게시물: 링크).

나야 무척 환영이지만 논쟁적인 수상이긴 할 것 같기는 한데, 심지어 물리학을 공부하는 대학원생들 중에서도 순수물리학이 아닌 인공지능 분야가 노벨물리학상을 받았다며 비꼬거나 부정적으로 보는 분들이 많이 있는 걸 보면 분위기가 별로 좋지만은 않은 듯하다.

먼저 사람들이 크게 오해하고 있는 부분은, AI가 성공하고 나니까 물리학이 뒤늦게 숟가락을 얹어서 시상을 했다는 생각이다. 힌튼은 또 몰라도, 홉필드의 경우 신경망 연구를 하긴 했지만 그 때나 지금이나 완전히 물리학자였고, 그 신경망 연구도 명백한 물리학의 한 분야로 인식되고 연구된 것이니, 충분히 물리학상에 worth하다고 생각하긴 한다.

게다가 홉필드만 일탈적으로 그런 연구를 한게 아니라 한국을 포함한 수많은 나라의 물리학자들이 당시에 신경망 학습 연구를 했다. 과거에 트랜지스터도 물리학자들이 발명한 뒤에 공학자들에 의해 미세화되면서 전기전자공학을 뒤집어 놓은 건데, 첫 발명자인 물리학자들이 노벨 물리학상을 받은것에 사람들이 큰 이의는 없듯이... 인공지능도 전혀 다르지 않은데 사람들이 잘 몰라주는 듯해서 아쉽다.


수차례 언급했듯이 딥러닝의 기초 원리(뿐만 아니라 self-supervised learning, transfer learning 등을 비롯한 상당수의 현대적 학습기법까지)는 인공신경망에 있어서 비선형 신경 동역학 관점의 간접화, 역전파법의 적용, 연산방법 혁신 및 하드웨어 연산량의 증대 등을 거쳐서, 딥러닝이 현실화되기 한참 전인 90년대경에 상당부분 수립되어 있었다. 그리고 그것을 주도한 것은 주로 패턴 기억과 재현에 관심을 가진 통계물리학자, 신경생물학자, 컴퓨터과학자들이기도 했다. 2012년 ImageNet을 계기로 딥러닝이 실현가능한 영역에 들어온 이후의 주요 발명 중에, 내가 아는 한에서 정말로 많이 새롭다고 할수 있는건 어텐션과 트랜스포머 정도일 것 같다.


홉필드는 작년에 우리 통계물리 분야 최고 상인 볼츠만 메달도 받은 바 있는데, 그게 이번 수상의 빌드업이었나 싶기도 하다. 아카데미 상을 받는 영화들이 그전까지 다른 시상식들에서 상을 쓸어담는 레이스를 하면서 분위기를 뜨겁게 달구는 것처럼, 과학계도 각 분야 최고 상을 휩쓰는 흐름이 노벨상 수상에 지표가 되는 그런 게 좀 있는 듯하다. 찾아보니, 또다른 통계물리분야 노벨상 수상자인 Kenneth Wilson과 Giorgio Parisi도 노벨상 받기 이전에 볼츠만 메달을 받은 바 있다.

Facebook에서 이 글 보기: 링크




2024.10.09.

알파폴드(AlphaFold)를 개발한 딥마인드의 데미스 허사비스가 언젠가는 노벨화학상을 받을 거라는 관측은 많았지만, 이렇게 빠르게 시상한 것은 예측을 뛰어넘는다는 평이다. 게다가 딥마인드 외에도, 원래부터 오랫동안 단백질 디자인 및 단백질구조 예측을 해온 대가인 David Baker도 수상을 했다.
(여담이지만 데미스 허사비스의 재미있는 경력에 대해서 이전에 포스팅한 바 있다. hapseda 블로그 링크, 본 블로그 링크)

물론 Baker는 단백질 연구에 대한 장기간의 큰 기여에 따라 종합적으로 받았다고 보아야 하기는 하며, 노벨상 공식 시상 취지에서는 단백질 디자인 쪽이 더 강조되어 있다. 그러나 알파폴드처럼 AI를 써서 단백질 구조 예측의 대혁신에 주요하게 기여한 연구로서, 2021년 게재 이후 순식간에 Baker의 현시점 최다 인용 논문이 되어버린 로제타폴드(RoseTTAfold)는 다름이 아니라 서울대학교 백민경 교수님이 Baker 그룹에 포닥으로 계실 때 1저자로 직접 개발하신 것이다.

로제타폴드 논문은 당시 알파폴드2랑 같은 날에 출판되어 큰 화제가 되었다. 나는 운좋게도 로제타폴드가 세상에 본격적으로 공개되기도 전에 백민경 교수님의 세미나를 들어 볼 기회가 있었는데 (관련 글 링크 - 클래리티와 로제타폴드: 한국출신 유명과학자들의 강연을 들었던 귀중한 경험들), 비록 백 교수님께 노벨상이 직접 주어지지는 않았지만, 그래핀과 위상부도체라는 2개의 분야에서 빼놓을 수 없는 업적을 세우신 김필립 교수님을 비롯한 몇몇 분들과 더불어서, 노벨상 업적과의 학문적 거리가 가장 가까운 한국인 중 한 분이 되신 듯하다.

Facebook에서 이 글 보기: 링크




2024.10.09.

인공신경망의 패턴학습에 대한 물리학적 연구는 오히려 옛날에 상전이, 무질서계의 이론 등을 바탕으로 꽤 널리 이루어졌었고 (물론 물리학자들의 것만은 아니고 컴퓨터과학, 신경과학/인지과학 등과 함께) 그런 연구들이 축적되고 발전해서 지금처럼 된 것이라, 일각의 잘못된 이해처럼 홉필드 등의 연구의 사소한 연관성을 바탕으로 이제 와서 억지로 물리와 엮는다고 보기는 어렵다. 오히려 인공신경망 연구의 중심에서 통계물리학이 주도해 온 역사가 있으며 당대에 인공신경망 연구는 명백한 물리학의 한 연구 주제로 취급되었다.

관련해서 이전에도 이미 Facebook에 업로드한 적 있지만, 그 시절에 한국어로 나왔던 논문 하나를 캡쳐해서 첨부한다 (김형균, 권철안, "서로 다른 구조를 가지는 신경망 사이의 학습," 새물리 39, 6 (1999)., 첫 페이지는 하단에 캡쳐). 현재 딥러닝과의 공통점 및 차이점들에 주목해 보면 어떤 느낌이었는지 알 수 있을 것이다.




이외에도 내 서재에는 이런 주제들로 된, 국내기관인 APCTP에서 발간한 당대의 국제 프로시딩집도 있는데, 이 프로시딩집이 왜 나한테 흘러들어왔는지는 잘 모르겠다.

이 시절에는 인공신경망을 제안하고 개선하는 것과, 그 작동원리를 분석하고 입증하는 것 사이의 거리가 지금보다 가까웠던 것으로 보인다. 그런데 지금은 인공신경망을 실제로 발전시키는 연구와 인공신경망의 성능의 비밀을 설명, 분석하는 연구 중 전자는 다들 알다시피 어마어마하게 성공하며 커졌고, 우리 통계물리학의 역할은 주로 후자 중에서도 일부분을 담당하고 있는 듯하다.

지금보다 더 모를 때에 나열 식으로만 썼던 글이긴 한데, 후자의 방향에서 물리학자들의 현재 이론적 관심사에 대해 22년도에 개인적으로 정리해 본 글이 있다 (머신러닝의 물리학: 개괄 및 문헌 소개).

조만간 쓸 기회가 있겠지만, 해당 글에는 없지만 보다 최근에 부상하는 또다른 관점 중에는 바로 고차원 잠재공간의 기하학에서 오는 뉴럴넷의 우수한 표현능력(expressibility)을 무질서계의 통계역학을 통해 분석하는 것도 있다. 이는 사전학습된 거대 모델을 활용하는 최근의 딥러닝 흐름에도 상당히 부합하는 이론적 연구방향으로 보인다.

물리학적 방법 외에 Neural Scaling Law 쪽을 비롯한 대규모 실험연구나, 수학적 증명을 통해 성능을 설명하는 연구, 프롬프팅을 통해 마치 인간 행동을 연구하듯이 LLM을 평가하는 연구 등 여러 방법으로 펀더멘털한 연구들이 많은데, 이들은 실제 딥러닝 업계와 보다 활발히 교류하는 듯하다.

Facebook에서 이 글 보기: 링크

Wednesday, September 18, 2024

Simple script for solving matrix equations via Mathematica

Using the Solve[...] function provided by Mathematica, users can solve matrix equations. For example, a set of matrix equations \(AC+CA^\mathrm{T} = 2D\) and \(C=C^\mathrm{T}\) will be solved below.

AMatrix = (* define a matrix *);                           
                                                           
Diff = (* define a matrix *);                              
                                                           
n = (Dimensions[AMatrix][[1]]);                            
                                                           
CMat = Array[x, {n, n}]; (* set proper dimension *)        
                                                           
Csol = Solve[                                              
   AMatrix.CMat + CMat.Transpose[AMatrix] == (2*Diff) &&   
    Transpose[CMat] == CMat                                
    (* replace this with your own equations *)             
, Flatten[CMat]];                                          
                                                           
Cvec = Array[x, {(n*n), 1}];                               
                                                           
For[i = 1, i < ((n*n) + 1), i++,                           
  Cvec[[i, 1]] = Csol[[All, i, 2]][[1]];                   
  ];                                                       
                                                           
CMat = Transpose[ArrayReshape[Cvec, {(2*n), (2*n)}]];      

This is a convenient and neat way to solve matrix equations. Indeed, one should always care about the existence and (non-)uniqueness of the solutions, which Mathematica may fail to address completely. Also note that fully symbolic calculations are quite heavy.

Friday, August 9, 2024

지중해의 휴양지, 코르시카 꺄흐제즈(Cargèse) 여름 학교에 가다!

여기에 와서 유럽 학생들이랑 어울리겠다고 처음으로 WhatsApp이랑 PayPal을 다 깔아봤다.
지금 참석 중인 Summer School은 지중해의 코르시카 섬에 있는 Cargèse라는 마을에서 열리고 있다. 교과서적 프랑스어 발음으로 말하자면 꺄흐제즈 정도일 텐데 여기 사람들은 그냥 카르제스 정도로 부른다. 코르시카의 최대도시인 아작시오(Ajaccio)에서 셔틀버스를 타고 산악지대 풍경을 보면서 굽이굽이 길을 따라 1시간 정도 오면 도착한다.

여긴 통신이 잘 안 터질 때가 많고 에어컨이랑 찬 음료가 없어서 좀 지치긴 한다. 아이스 바닐라 라떼와 제로콜라가 그립다... 내가 있는곳은 숙소 겸 학회장소 (IESC, Institut d'Études Scientifiques de Cargèse) 인데, 주변엔 아무것도 없고 정말 이 시설뿐이다. 손전등 들고 30분 정도 산길을 걸으면 상점과 식당이 있는 중심가가 있어서 저녁은 거기서 먹는다. 거기도 말이 중심가지 인구가 1300명 정도 된다고 한다. 살면서 와 본 모든 곳 중 제일 외진 듯.

물론 멋진 점이 훨씬 많아서, 위와 같은 약간의 불편함들도 낭만으로 느껴진다. 밤이 되면 수많은 별들이랑 심지어 은하수까지 흐릿하게나마 보일 정도로 하늘이 깨끗하고 (12일 밤에는 페르세우스 유성우도 떨어진다고 해서 무척 기대 중이다), 이 일대에 말 그대로 우리밖에 없다 보니, 바닷가가 꽤 넓은데도 굉장히 프라이빗하고 깨끗하다. 엄청 오랜만에 사람들과 어울려서 해수욕 해 봤다. 그리고 빌리지가 멀다보니 아침 점심은 다 숙소에서 해결하는데 메인메뉴 작은 거 하나에 과일, 요거트, 빵 정도라서 뭔가 살 빠지고 건강해지는 느낌이 든다. 더워서 숙소 창문은 활짝 열고 자는데, 바닷가 + 산골인데도 곤충이나 뱀이 안 들어오는 것도 신기하다. 섬 자체에 뱀은 좀 있긴 하지만 독사는 없다고 한다. 밤길에 보면 도마뱀이랑 박쥐는 있다.

그렇다면 왜 스쿨을 이 곳에서 하는가? 이 스쿨은 나도 무척 관심 많은 곳인 룩셈부르크 대학의 통계물리, 생물물리 그룹들에서 주최하는 것인데, 코르시카가 약간 유럽인들에게는 제주도 포지션이라 그쪽 교수님들이 휴양 겸해서 하려고 여기로 잡은 것 같다. 그런데 찾아보니 그뿐만이 아니라 이 IESC라는 곳 자체가 1960년대에 출범해서 그때부터 이런 학회를 꾸준히 호스팅해온 근본있는 시설이라고 한다.

특히 이론물리학자 헤라르뒤스 엇호프트(Gerardus t'Hooft, 아직도 살아 계시고 작년인가에 한국이 주최하는 워크숍에서도 강연하심)가 이휘소 박사님의 강연을 듣고 영감을 받아 후일에 노벨상을 받게 되는 업적을 이룬 게 다름이 아니라 여기 카르제스 스쿨에서 일어난 일이라고 한다. 여기 시설에 뭔가 연혁이 써 있거나 흔적이 있거나 하지는 않던데, 그래도 그런 역사가 일어난 곳이라고 하니 반갑고 뜻깊다는 생각이 들었다.

아무튼 21일에 한국 돌아가자마자 삼척에서 invited talk 하는 게 있어서 맘 편히 있지는 못하고 그것도 틈틈이 준비 해야 되기는 하지만, 다시 오기 힘든 좋은 곳인만큼 스쿨 참여도, 휴양도 즐겁게 한 뒤에 귀국해야겠다.

Facebook에서 이 글 보기: 링크 (사진 포함)