옛날에 물리학자들이 computation in edge of chaos (혼돈의 가장자리에서의 계산) 이라고 해서, 창발적인 정보처리 시스템 (말하자면 일종의 아날로그 계산기)가 바로 임계점 (criticality), 즉 혼돈과 질서의 경계 근처에서 작동을 잘 한다는 연구를 많이 했었다. 주로 세포 자동자(cellular automata)를 바탕으로 한 연구들인데, 이런 개념이 90년대 당시의 신경망 연구에도 나름 적용이 시도되었던 것으로 안다.
딥러닝 붐 이후의 deep information propagation이라는 일련의 연구 흐름에서도 꽤 비슷한 메시지가 있다. 정보가 뉴럴넷의 layer를 따라서 충분히 깊게까지 전파되려면 뉴럴넷의 파라미터들이 임계점 근처로 초기화되어 있어야 한다. 그런데 untrained 뉴럴넷에서의 정보 전파의 평균 깊이는, 다름아니라 훈련 가능성 (trainability) 과 dual 관계임이 알려져 있다. 따라서 뉴럴넷이 학습이 잘 되기 위해서는 임계점 근처에서 초기화 되어야 한다는 것이다.
그런데 현실의 딥러닝에서는 이런 이상적인 뉴럴넷이 아니라 복잡한 기법이 덕지덕지 붙어 있는 아키텍쳐를 사용하는데, 과연 이러한 empirical한 상황들에서도 위와 같은 얘기가 의미가 있을까? 현재까지 생각하기로는, 정답은 '있다'인 것 같다. 대표적으로, 유명한 ResNet 모델처럼 skip connection을 주면, gradient가 exponentially explode하지 않고 따라서 뉴럴넷이 edge of chaos에 더욱 효과적으로 머무른다(hover)는 연구가 있다.
이외에도, 모델이 vanilla하고 단순할수록 임계점에서 쉽게 멀어져 버리고, 복잡한 기법들이 덕지덕지 더해졌을때 오히려 임계점 근처에 잘 머무를 수 있다는 생각은, 물리에서 스스로 짜인 임계성 (self-organized criticality) 이 왜 그리 특별하게 받아들여지는지 상상해 보면 그리 이상하지 않은 것 같다. 사실 내가 SoC를 제대로 공부해본건 아니어서 부정확한 상상일수도 있지만 말이다.
그리고 이런 식의 각론을 떠나서, 너무 질서있지도, 너무 혼란스럽지도 않은 딱 중간지점에서 자명하지 않고 재미있는 현상들이 나타날 것이라는 게 복잡계 과학을 연구하는 통계물리학자들 사이의 어떤 믿음이기도 하다. 그리고 통계물리학자라면 finite-size effect라는 이름으로 많이 들어 보았겠지만, 시스템의 크기가 무한하지 않을 때 이러한 혼돈의 경계는 sharp한 경계선 (메져 제로) 이 아닌 유한한 영역으로 뭉개지게(?)되고, 따라서 파라미터를 잘 고르면 실제로 달성이 가능하게 된다.
위와 같은 맥락에서 최근에 나는 트랜스포머의 셀프-어텐션 메커니즘 기반의 거대 모델들이 임계점 근처에서 작동할 거라는 상상을 하고 있다. 이거는 위의 맥락뿐 아니라 조리있는 언어 데이터 (요즘 말로 하면 거대언어모델의 출력데이터) 가 멱법칙을 보인다는 오래 연구된 관찰과도 합치한다. 그런데 이상하게도 이것을 직접 다루는 논문은 물론이고 간접적으로 시사하는 논문도 그리 많지는 않으며, 임팩트가 높지 않은 논문들만이 몇 건 있다.
복잡계 과학이라고 하는 분야가 임계현상, 혼돈의 경계, 비선형성, 자기조직화 임계성 등의 키워드 그 자체만으로 대단한 흥밋거리와 떡밥이 되는 시절은 아쉽게도 좀 지나가긴 했다. 그래도 물리학 및 인접분야 사람들이 이런 걸 분명히 많이 알고는 있을텐데 최근의 트랜스포머 기반의 거대모델에 대해 많이 적용을 안 한 것을 보면, 이미 다 계산해 봤는데 별다른 재밌는 게 안나오거나, 아니면 충분히 가능한 픽쳐인데도 아직 어려워서 안하거나 둘 중 하나일 것이다. 똑똑한 사람이 워낙 많으니 전자일 가능성이 높겠지만... 이쪽을 한번 공부하고 탐구해 보아도 재미있을 것 같다.
Facebook에서 이 글 보기: 링크
No comments:
Post a Comment