Sanaka AI는 자연-모방 계산(nature-inspired computing), 무리짓는 지능(swarm intelligence) 등을 테마로 해서 창업된 회사이다. 이 테마는 silicon photonics, reservoir computing, probabilistic 및 thermodynamic computing 등과 함께 비전형적(unconventional) 컴퓨팅, 그 중에서도 analog computing의 한 종류에 잠재적으로 해당할 수 있다.
Yongjae Oh
Interested in Physics and Related Topics
Labels
- active matter
- analog computing
- codes
- complex networks
- graph theory
- information geometry
- information theory
- linear algebra
- machine learning
- my research life
- non-equilibrium statistical physics
- nonlinear dynamics
- optimal transport
- physics_general
- probability
- Science of semantics
- soft matter
- statistical physics
게시물 목록
Tuesday, January 14, 2025
Sanaka AI의 swarm intelligence와 AI Scientist의 관계가 그 윤곽을 드러내다
Thursday, November 21, 2024
복잡계 분야 윤혜진 교수님의 서울대 경영대 부임 소식
우리 교수님의 교수님이신 정하웅 교수님의 또다른 박사 제자이신 윤혜진 교수님(켈로그 스쿨)께서 이번에 서울대학교 경영대학으로 옮겨 오셨다는 소식(링크)이다. 부임한 지 얼마 안 되셔서 바쁘시겠지만 우리 연구실에도 초청 강연을 추진해 보면 좋겠다.
복잡계물리 쪽 연구방법론으로 인문사회 쪽 전공에 임용되신 또다른 경우로는 서울대 사회학과 손윤규 교수님이 계시며, 융합적인 전공에서 데이터 기반으로 인문사회학적 문제를 연구하시는 분들로 넓혀 보면 경희대학교 육순형 교수님, 숭실대학교 윤진혁 교수님 등 더욱 많이 계신다.
Facebook에서 이 글 보기: 링크
Tuesday, October 8, 2024
2024년 노벨물리학상 및 노벨화학상에 대한 단상들
2024.10.08.
올해 노벨물리학상은 굉장한 화제와 논란을 낳고 있는데 개인적으로는 매우 환영하는 바이며 전혀 이상하지 않게 느껴진다. 수상자 중에 제프리 힌튼(Geoffrey Hinton)이야 딥러닝 분야의 최고 기여자로 늘 세 손가락 안에 꼽힐 정도로 유명하고, 또다른 수상자인 존 홉필드(J. J. Hopfield)가 어떤 분인지에 대해서는 마침 작년에 썼던 글이 있어서 공유해본다 (게시물: 링크).
나야 무척 환영이지만 논쟁적인 수상이긴 할 것 같기는 한데, 심지어 물리학을 공부하는 대학원생들 중에서도 순수물리학이 아닌 인공지능 분야가 노벨물리학상을 받았다며 비꼬거나 부정적으로 보는 분들이 많이 있는 걸 보면 분위기가 별로 좋지만은 않은 듯하다.
먼저 사람들이 크게 오해하고 있는 부분은, AI가 성공하고 나니까 물리학이 뒤늦게 숟가락을 얻어서 시상을 했다는 생각이다. 힌튼은 또 몰라도, 홉필드의 경우 신경망 연구를 하긴 했지만 그 때나 지금이나 완전히 물리학자였고, 그 신경망 연구도 명백한 물리학의 한 분야로 인식되고 연구된 것이니, 충분히 물리학상에 worth하다고 생각하긴 한다.
게다가 홉필드만 일탈적으로 그런 연구를 한게 아니라 한국을 포함한 수많은 나라의 물리학자들이 당시에 신경망 학습 연구를 했다. 과거에 트랜지스터도 물리학자들이 발명한 뒤에 공학자들에 의해 미세화되면서 전기전자공학을 뒤집어 놓은 건데, 첫 발명자인 물리학자들이 노벨 물리학상을 받은것에 사람들이 큰 이의는 없듯이... 인공지능도 전혀 다르지 않은데 사람들이 잘 몰라주는 듯해서 아쉽다.
수차례 언급했듯이 딥러닝의 기초 원리(뿐만 아니라 self-supervised learning, transfer learning 등을 비롯한 상당수의 현대적 학습기법까지)는 인공신경망에 있어서 비선형 신경 동역학 관점의 간접화, 역전파법의 적용, 연산방법 혁신 및 하드웨어 연산량의 증대 등을 거쳐서, 딥러닝이 현실화되기 한참 전인 90년대경에 상당부분 수립되어 있었다. 그리고 그것을 주도한 것은 주로 패턴 기억과 재현에 관심을 가진 통계물리학자, 신경생물학자, 컴퓨터과학자들이기도 했다. 2012년 ImageNet을 계기로 딥러닝이 실현가능한 영역에 들어온 이후의 주요 발명 중에, 내가 아는 한에서 정말로 많이 새롭다고 할수 있는건 어텐션과 트랜스포머 정도일 것 같다.
Wednesday, September 18, 2024
Simple script for solving matrix equations via Mathematica
Friday, August 9, 2024
지중해의 휴양지, 코르시카 꺄흐제즈(Cargèse) 여름 학교에 가다!
Monday, July 1, 2024
뜻밖에 마주한 앨런 소칼의 이름
8월에 있는 세미나를 준비하기 위해 우리 비평형 통계물리학 분야의 논문(M. Esposito and M. Polettini, "Effective thermodynamics for a marginal observer," Phys. Rev. Lett. 119 (2017))을 읽고 있는데, 참고문헌에 '지적 사기'로 유명한 앨런 소칼(Alan D. Sokal, 위키백과 문서: 링크)의 이름이 있어서 뜻밖의 조우에 반가움을 느꼈다.
커리어 대부분 미국에서 훈련받고 재직했지만 2006년부터는 영국 UCL에 재직 중이고 현재도 꽤 활발하게 전공분야 논문이 출판되고 있다. 수리물리학을 다루는 데 있어서 수학과랑 물리학과의 구분이 유난히 흐린 편인 영국 학계 특유의 색깔에 굉장히 잘 어울리는 연구 스타일을 가진 분인 듯하다.
Facebook에서 이 글 보기: 링크
Wednesday, June 12, 2024
딥러닝 학습기법 개선 연구의 두 방향: 클래스를 확장하기, 한정시킴으로써 정당화하기
딥 러닝을 이론적으로 분석하거나 개선할 때 그 원리적인 부분에 집중해서 end to end rigor를 추구하는 것은 이론학도의 입장에서 지적으로 무척 재미있고 자연스럽지만 사실 끝이 없는 일이다. 뉴럴 네트워크라는 시스템과 그 동역학은 워낙에 여러 관점, 여러 공간에서 볼 수가 있다 보니, 애초에 표준적인 단일한 관점이 없기도 하고 말이다.
그렇다 보니 end to end 정당화는 안 되더라도, 특정 레벨, 특정 스페이스에서 직관을 바탕으로 해서 다양한 타 분야의 아이디어를 접목해서 성능 개선을 했다는 논문이 꽤 많다. 이런 점에서 퀀트 쪽이랑 좀 비슷한 것 같다는 생각이 문득 들었다. 핵심 아이디어 부분의 작용 원리가 사람에게 설득이 되고 실제 성능도 좋다면, 그 아이디어가 딥러닝의 전체 과정에 다소간에 덕지덕지 결합해 있더라도 긍정적으로 받아들여지는 그런 느낌에서 말이다. 딥러닝이 아니더라도 여러 가지 최첨단 공학의 산물들이 그렇게 덕지덕지 되어 있는 경우가 많으니 이것은 특별히 이상한 것은 아니다.
근데 문제는 딥러닝에서는 그렇게 창의적으로 제안된 학습 방법 혹은 아키텍쳐들이, 특정한 세팅 하에서의 작은 모델에서는 잘 validate될지언정 large scale에서의 보편적 실증은 잘 안 될 수가 있다는 점이다. 내가 배움이 부족하다 보니 이런 일의 전모와 잘 대응이 되는 말인지는 모르겠으나, inductive bias라는 키워드도 관련이 되는 것 같고 말이다.
일례로 트랜스포머의 온갖 마이너한 개선들이 있지만 그 중에 아직까지도 vanilla한 아키텍쳐와 셀프-어텐션 메커니즘을 large model에서 근본적으로 넘어서는 게 아직 없는 것 같다고 듣기도 했다. 물론 이것은 트랜스포머가 특히 처음부터 너무 잘 만들어져서 더 그런 것 같긴 한데... 아무튼 마침 오늘이 그 유명한 'Attention is all you need' 논문(NeurIPS 웹사이트에서 논문 보기: 링크, 구글 스콜라 기준 2024.06.13일자로 확인되는 인용 수 124195회)이 처음 나온지 딱 7년 되는 날이라 이 얘기도 적어 둔다.
그렇다면 위와 같은 창의적인 아키텍쳐 및 학습기법 연구들이 더 잘 정당화되려면 어떤 방향의 보완이 필요할까? 자신의 아이디어를 딥러닝의 end to end rigor 속에 구겨넣고 이론적으로 해석해서 더 엄밀하게 입증해야 하나? 물론 그렇게 된다면 너무 아름답고 좋은 논문이겠지만, 직관에 근거하여 창의적으로 제시된 practical한 개선 방법일수록 그렇게 하기가 어렵다.
애초부터 그렇게 구겨넣을 필요가 없게, vanilla한 기법의 내부 원리와 자연스럽게 융화하도록 아름답게 원리적 개선을 꾀한 연구들은 참 흔치가 않다. 그런 연구들은 특유의 스타일이 있는데, 기존의 모델이 알고 보니 더 넓은 클래스의 모델들의 한쪽 끝에 불과하다는 것을 알아내고, (억지스럽지 않게 정의되며 기존에도 성질이 잘 알려진) 그 넓은 클래스 안에서 제일 좋은 모델을 찾는 식의 접근을 대개 취하는 듯하다.
한편 자신의 아이디어가 분명히 성능은 좋지만 위와 같은 방식으로 정당화되기는 어려운 성격의 것이라면, 토이 데이터셋 말고 현실적인 커다란 과제에서도 보편적으로 성공적인지를 따져 보면 된다. 그러나 위에서 언급했듯이 그렇게 scale up된 검증을 통과하는 연구는 전체 연구의 개수에 비해서는 많지 않을 것으로 짐작된다. 결국 자신이 제안한 기법이 어떤 종류의 문제에 대해, 어떤 학습 상황에서 얼마나 성공적인지를 스스로 끊임없이 의심해 가며 명확히 밝혀서, '한정시킴으로써 정당화'해야 할 것으로 보인다.
자랑하자면 우리 연구실에서 나온 논문 중에도 위의 두 요건을 모두 만족하는 접근을 취한 것이 있다 (Euijoon Kwon and Yongjoo Baek, "
Facebook에서 이 글 보기: 링크
Wednesday, May 22, 2024
전공설계지원센터 간담회 후기 - 퀀트 헤지펀드: 전공을 넘나드는 투자전략
5월 21일 화요일에 전공설계지원센터에서 진행한 진로 특강(링크)에는 퀀트 리서쳐로 일하는 분이 특강을 오셨다. 연사분이 너무 자세한 얘기는 할 수가 없다고 하셨고 실제로 그랬음에도 불구하고 무척 명료하고 구체적인 lesson들이 있는 유익한 톡이었다. 블로그에 올리기에는 좀 specific하다고 느껴지는 업계 얘기 몇 개는 빼고, 질의응답 중에 흥미로운 내용들을 밑에 옮겨본다.
개인적으로는 LLM이 이미 광범위하게 업계에 적용 중이라는 것과 (코딩 돕는 것뿐 아니라 투자 알고리즘 자체에 적용한 일부 사례는 본 적 있는데 이 정도인 줄은 몰랐음), 퀀트 리서치에 SDE가 당연히 절대적인 비중인 줄 알았는데 그게 아니라는 것이 제일 놀라웠다.
물론 현업 최전선에서 알파를 창출하기에 부족하다는 것이지, 확률과정 지식을 통한 포트폴리오 이론과 파생상품론의 수리적 이해는 기초 소양으로 잘 갖추고 있어야 하긴 할 거라고 내 마음대로 생각해 보기도 했다.
그리고 5월 23일(목요일)에는 AI, 언어처리 쪽 국내 리서치 엔지니어 분이 특강을 해 주셨는데, 이 분과는 끝나고 운좋게 커피챗 하는 시간도 가져 볼 수 있었다. 다소 시니컬하게 이야기하셨지만 현재 업계 동향과 함께, 학부뿐 아니라 석박사 졸업생들까지 염두에 둔 진로 관련 조언들을 해주셨다. 나랑 학부 학번이 같으시고 생각보다 human distance도 가까운 덕분에 겹지인들이 꽤 있다보니, 학교 졸업하고 떠난 그때 그 시절 사람들 얘기도 오랜만에 해 볼 수 있기도 했다.
밑에는 분야 자체에 대한 질의응답 위주로만 썼는데, 사실 이번 특강 시리즈의 포커스는 다중전공자 및 희망자의 학업 및 진로설계 쪽이었다. 센터에서 각종 경로를 통해 다중전공자나 특이 이력자를 파악하고 있다가 연락을 줘서 섭외를 한다고 하는데, 나도 평범하지 않게 다중전공을 했던 경우인만큼, 만약에 나도 나중에 훌륭한 사람이 되어서 이런 자리에 섭외가 된다면 보람차겠다는 상상도 해 보게 된다.
질의응답 요약
Saturday, March 30, 2024
차이의 감각에서 비롯되는 사회적 행동의 LLM 표현공간을 이용한 모형화 제안
다개체 동역학 시스템(Multi-agent dynamical systems)의 관점에서, 타 개체에 대한 아주 원초적인 호불호의 감각들과 기본적인 사회적 행동의 규칙들만을 바탕으로 여러 가지 복잡다단해 보이는 social behavior들 (대표적으로 이지메 같은 것)을 재현해 낼 수 있지 않을까 하는 생각을 한 적이 있었다. 그것들이 재현된다면, 반대로 최소한의 개입으로 특정한 현상을 억제하는 external control도 개발해 볼 수 있을 것이다.
이러한 아이디어의 아주 원시적인 버전을, 2018-2 학부 시절에 수강한 최적제어이론 수업 프로젝트에서도 풀어낸 적이 있다. 그 때 내가 다룬 문제는 이지메는 아니었고, 죄수의 딜레마 (정확히는 죄수의 딜레마를 연속 시간 및 연속적인 협력도에 대해 일반화한 CAIPD라는 모형) 때문에 낮은 수준의 협력에 머무르고 있는 동역학계가 있을 때, 한 agent에만 외부 제어입력을 가함으로써 인위적으로 협력의 수준을 끌어올리는 것이었다.
협력도를 높이기 위한 최적의 제어입력을 구하는 것이 해석적으로 풀리는 문제는 아니어서, 기본적인 분석만 한 뒤에 제약된 조건에서 의사-최적 해를 수치적으로 구했다.
여기서 중요한 목표는 당연히 최종 시점의 협력도를 높게 하는 것인데, 이것을 약간 더 재미있게 하기 위해서 나는 시간에 따른 두 개체의 '협력도 차이의 누적량'을 최소화하라는 조건도 넣었다. 사실적으로 생각해 보면, 최종 협력도가 높더라도 한쪽만 협력 의사가 많고 다른 쪽은 협력 의사가 별로 없을 경우 상당히 stressful한 상황이 되고, 실제 고도의 사회적 상호작용과 목표 달성은 실패하고 있는 상황일 수 있기 때문이다.
여기에 더해서, 개체들간에 고도의 지적 판단 없이도 본능적으로 느끼고 표출하는 '차이의 감각'이 서로를 이해하거나 배제하는 핵심 기제가 되지 않을까 하는 내 오래된 직관과도 관련이 있다. 간단하지만 지금 봐도 꽤 재밌는 디자인이다.
그런데 그런 원초적인 호불호의 감각이나 다양한 감정에 해당하는 internal state를 그럴듯하게 모형화하는 것이 어렵다 보니, 이 프로젝트는 각 개체의 상태가 '협력도'라는 단 한 개의 축으로 되어 있는 지극히 간단한 모델을 이용하여 수행되었다. 게다가 더 심한 문제는, 개체에 가해 주는 외부 입력의 인간학적 해석 자체가 불명확하다는 것이다. 그냥, 이유는 모르지만 한 개체가 갑자기 협력할 의사를 갖게 될 뿐이다. 겸손하게 말하자면, 협력도를 높이라고 시켰으니 당연히 높아지는 상황 정도에 그친 것이다.
물론 기본적으로 낮은 협력도를 유지하게 만들어진 모델인데도, 한쪽만 일부러 높여 주면 다른 쪽이 같이 올라갈 수 있다는 내 관찰은 죄수의 딜레마 모델의 동역학적 특성에 대한 분석으로서 의미가 있기는 하다.
여하튼 이러한 한계의 이유는 더 말할 것도 없이 모델이 너무 단순해서이다. 그러나 이를 굳이 거창하게 말해 보자면, 내가 사용한 모델의 internal state가, 외부 입력에 의해 간접적으로만 액세스되는 인간의 감정적, 사회적 특징을 모사하지 못했고, 그 이전에 state space의 차원 (협력도라는 1차원 축) 자체도 그런 일을 절대 수행하지 못할 만큼 낮았기 때문이라고 할 수 있겠다. 그렇다 보니, 제대로 된 모델이 떠오르기 이전에는 이 주제와 관련해서 더 자세한 탐구는 하지 않게 되었었다.
생성AI 시대가 된 지금, 오랜만에 이 주제를 꺼내 보고 다시 떠오르는 게 있다. 먼저 위와 같은 감정적인 부분에 대한 internal representation을 갖고 있는 LLM agent들을, 그런 부분들 위주만으로 남겨서 경량화하거나 미세조정(fine-tuning)한다. 만약에 경량화시키는 방식 자체를 달리하거나 혹은 노이즈를 주어서 agent별로 약간의 차이를 두면, 이는 사람별 성격 차이 혹은 인지 도식의 미세한 차이에 대응될 것이다. 그리고 이러한 representation을 여러 방법으로 뜯어서 이해해 본다.
그 다음에 특정한 상황을 제시하고, 이렇게 만들어진 여러 agent들 사이에 최소한의 짧은 사회적 상호작용들과 의사소통을 하게 한다 (이런 것 자체는 이미 여러가지 있었던 것 같다). 이러한 상호작용은 그 종류에 따라 LLM으로 하여금 서로 다른 emotional, social한 representation을 시시각각 동원하게 할 것이다. 만약에 경량화를 했더니 상황에 대한 이해가 떨어지고 인간적 능력이 깎여 나가는 것이 관찰된다면, full weight를 가지면서도 최소한의 짧은 상호작용만을 하는 stylized output을 내도록 프롬프팅을 할 수도 있다.
그렇게 한 다음에 dialogue의 한 round보다 훨씬 긴 시간 동안 관찰을 하면, LLM이라고 특별한 취급을 할 것 없이, 정해진 weight 값과 약간의 stochasticity를 바탕으로 서로 신호를 주고받는 어떠한 연속시간 동역학계라고 간주할 수 있다. 물론 LLM인 만큼 굉장히 차원이 크겠지만, 로컬에서 inference할 수 있게 경량화된 LLM 같은 것도 있다고 하니 비용 면에서 아주 불가능한 수준의 일은 아닐 것 같다.
이러한 상황에서, 주어진 설정과 외부 환경 하에서 각 개체별 차이에 의해 어떤 social behavior들이 창발하는지, 각 개체들이 어떠한 역할에 놓이게 되는지 관찰해보고, 그러한 현상들이 각 LLM agent들의 고차원 internal representation에 비추어 볼 때 어떠한 인간학적 해석을 갖는지까지 뜯어본다면, 서두에서 언급한 내 오래된 상상을 조금 더 구체적으로 다룰 수 있지 않을까 한다.
이런 작업의 결과가 실제 사회학이나 심리학 같은 게 될 수는 없겠지만, 통계물리에서도 일부 진행하고 있는, 협력, 진화, 생태 등에서 영감을 받아서 단순화한 모형을 다루는 비선형 동역학 연구에는 포함될 수 있지 않을까 한다. 거대 딥러닝 모델이 자신에게 주어진 loss를 minimize하기 위해 알아서 형성해주는 고차원의 internal representation들을, 우리가 그냥 주어진 고정된 물체처럼 생각하고(?) 다방면으로 꺼내서 쓰면서 또다른 연구들에도 활용할 수 있는 것이다.
Facebook에서 이 글 보기: 링크
Wednesday, March 20, 2024
거대모델이 건설되는 기술사회학적 과정, 그리고 90년대의 딥러닝 역사
삼전 DS부문 경계현 사장은 박사학위를 1994년에 뉴럴 네트워크를 결합한 로봇 제어기법으로 받았다. 이러한 이력을 보고 떠오른, 그러나 이 분 자체에 대한 인물평은 전혀 아닌 몇 가지 생각들을 써 본다.
![]() |
삼성전자의 인공지능 칩 개발을 리드하는 경계현 사장. |
![]() |
경계현 사장의 1994년도 박사학위논문 서지사항. |
AI 칩 관련 기술혁신 최전선의 돌파구를 탐색하는 데 있어서, 현재와는 많이 다른 모습이었을 뉴럴 네트워크 분야에 대한 이분의 학술연구 경험이, 주로 반도체 설계와 관련해서 삼성전자 내에서 쌓은 혁신적 리더십 경험에 견줄 만큼의 구체적인 도움이 되고 있을 가능성은 사실 높지 않을 것 같긴 하다. 그럼에도 불구하고, 90년대에 인공신경망 연구를 했다는 것은 개인사적으로 재미있게 느껴지는, 개인적 소회가 어떠실지 무척 궁금해지는 지점이기는 하다.
여담이지만 나는 학사졸업연구를 전기과 내의 제어 트랙에서 다개체시스템 제어 쪽으로 했는데 (트랙이란 것은 공식적인 것은 아니고 그냥 졸업연구를 제어 연구실에서 해 보았다는 정도이다), 이것이 경계현 사장님이 졸업한 제어계측공학과의 후신 격인 테크트리라는 점에서 또 한 번의 공연한 친밀감을 형성해 본다.