게시물 목록

Thursday, November 21, 2024

복잡계 분야 윤혜진 교수님의 서울대 경영대 부임 소식

우리 교수님의 교수님이신 정하웅 교수님의 또다른 박사 제자이신 윤혜진 교수님(켈로그 스쿨)께서 이번에 서울대학교 경영대학으로 옮겨 오셨다는 소식(링크)이다. 부임한 지 얼마 안 되셔서 바쁘시겠지만 우리 연구실에도 초청 강연을 추진해 보면 좋겠다.

복잡계물리 쪽 연구방법론으로 인문사회 쪽 전공에 임용되신 또다른 경우로는 서울대 사회학과 손윤규 교수님이 계시며, 융합적인 전공에서 데이터 기반으로 인문사회학적 문제를 연구하시는 분들로 넓혀 보면 경희대학교 육순형 교수님, 숭실대학교 윤진혁 교수님 등 더욱 많이 계신다.


Facebook에서 이 글 보기: 링크

Tuesday, October 8, 2024

2024년 노벨물리학상 및 노벨화학상에 대한 단상들

2024.10.08.

올해 노벨물리학상은 굉장한 화제와 논란을 낳고 있는데 개인적으로는 매우 환영하는 바이며 전혀 이상하지 않게 느껴진다. 수상자 중에 제프리 힌튼(Geoffrey Hinton)이야 딥러닝 분야의 최고 기여자로 늘 세 손가락 안에 꼽힐 정도로 유명하고, 또다른 수상자인 존 홉필드(J. J. Hopfield)가 어떤 분인지에 대해서는 마침 작년에 썼던 글이 있어서 공유해본다 (게시물: 링크).

나야 무척 환영이지만 논쟁적인 수상이긴 할 것 같기는 한데, 심지어 물리학을 공부하는 대학원생들 중에서도 순수물리학이 아닌 인공지능 분야가 노벨물리학상을 받았다며 비꼬거나 부정적으로 보는 분들이 많이 있는 걸 보면 분위기가 별로 좋지만은 않은 듯하다.

먼저 사람들이 크게 오해하고 있는 부분은, AI가 성공하고 나니까 물리학이 뒤늦게 숟가락을 얻어서 시상을 했다는 생각이다. 힌튼은 또 몰라도, 홉필드의 경우 신경망 연구를 하긴 했지만 그 때나 지금이나 완전히 물리학자였고, 그 신경망 연구도 명백한 물리학의 한 분야로 인식되고 연구된 것이니, 충분히 물리학상에 worth하다고 생각하긴 한다.

게다가 홉필드만 일탈적으로 그런 연구를 한게 아니라 한국을 포함한 수많은 나라의 물리학자들이 당시에 신경망 학습 연구를 했다. 과거에 트랜지스터도 물리학자들이 발명한 뒤에 공학자들에 의해 미세화되면서 전기전자공학을 뒤집어 놓은 건데, 첫 발명자인 물리학자들이 노벨 물리학상을 받은것에 사람들이 큰 이의는 없듯이... 인공지능도 전혀 다르지 않은데 사람들이 잘 몰라주는 듯해서 아쉽다.


수차례 언급했듯이 딥러닝의 기초 원리(뿐만 아니라 self-supervised learning, transfer learning 등을 비롯한 상당수의 현대적 학습기법까지)는 인공신경망에 있어서 비선형 신경 동역학 관점의 간접화, 역전파법의 적용, 연산방법 혁신 및 하드웨어 연산량의 증대 등을 거쳐서, 딥러닝이 현실화되기 한참 전인 90년대경에 상당부분 수립되어 있었다. 그리고 그것을 주도한 것은 주로 패턴 기억과 재현에 관심을 가진 통계물리학자, 신경생물학자, 컴퓨터과학자들이기도 했다. 2012년 ImageNet을 계기로 딥러닝이 실현가능한 영역에 들어온 이후의 주요 발명 중에, 내가 아는 한에서 정말로 많이 새롭다고 할수 있는건 어텐션과 트랜스포머 정도일 것 같다.


홉필드는 작년에 우리 통계물리 분야 최고 상인 볼츠만 메달도 받은 바 있는데, 그게 이번 수상의 빌드업이었나 싶기도 하다. 아카데미 상을 받는 영화들이 그전까지 다른 시상식들에서 상을 쓸어담는 레이스를 하면서 분위기를 뜨겁게 달구는 것처럼, 과학계도 각 분야 최고 상을 휩쓰는 흐름이 노벨상 수상에 지표가 되는 그런 게 좀 있는 듯하다. 찾아보니, 또다른 통계물리분야 노벨상 수상자인 Kenneth Wilson과 Giorgio Parisi도 노벨상 받기 이전에 볼츠만 메달을 받은 바 있다.

Facebook에서 이 글 보기: 링크




2024.10.09.

알파폴드(AlphaFold)를 개발한 딥마인드의 데미스 허사비스가 언젠가는 노벨화학상을 받을 거라는 관측은 많았지만, 이렇게 빠르게 시상한 것은 예측을 뛰어넘는다는 편이다. 게다가 딥마인드 외에도, 원래부터 오랫동안 단백질 디자인 및 단백질구조 예측을 해온 대가인 David Baker도 수상을 했다.
(여담이지만 데미스 허사비스의 재미있는 경력에 대해서 이전에 포스팅한 바 있다. hapseda 블로그 링크, 본 블로그 링크)

물론 Baker는 단백질 연구에 대한 장기간의 큰 기여에 따라 종합적으로 받았다고 보아야 하기는 하며, 노벨상 공식 시상 취지에서는 단백질 디자인 쪽이 더 강조되어 있다. 그러나 알파폴드처럼 AI를 써서 단백질 구조 예측의 대혁신에 주요하게 기여한 연구로서, 2021년 게재 이후 순식간에 Baker의 현시점 최다 인용 논문이 되어버린 로제타폴드(RoseTTAfold)는 다름이 아니라 서울대학교 백민경 교수님이 Baker 그룹에 포닥으로 계실 때 1저자로 직접 개발하신 것이다.

로제타폴드 논문은 당시 알파폴드2랑 같은 날에 출판되어 큰 화제가 되었다. 나는 운좋게도 로제타폴드가 세상에 본격적으로 공개되기도 전에 백민경 교수님의 세미나를 들어 볼 기회가 있었는데 (관련 글 링크 - 클래리티와 로제타폴드: 한국출신 유명과학자들의 강연을 들었던 귀중한 경험들), 비록 백 교수님께 노벨상이 직접 주어지지는 않았지만, 그래핀과 위상부도체라는 2개의 분야에서 빼놓을 수 없는 업적을 세우신 김필립 교수님을 비롯한 몇몇 분들과 더불어서, 노벨상 업적과의 학문적 거리가 가장 가까운 한국인 중 한 분이 되신 듯하다.

Facebook에서 이 글 보기: 링크




2024.10.09.

인공신경망의 패턴학습에 대한 물리학적 연구는 오히려 옛날에 상전이, 무질서계의 이론 등을 바탕으로 꽤 널리 이루어졌었고 (물론 물리학자들의 것만은 아니고 컴퓨터과학, 신경과학/인지과학 등과 함께) 그런 연구들이 축적되고 발전해서 지금처럼 된 것이라, 일각의 잘못된 이해처럼 홉필드 등의 연구의 사소한 연관성을 바탕으로 이제 와서 억지로 물리와 엮는다고 보기는 어렵다. 오히려 인공신경망 연구의 중심에서 통계물리학이 주도해 온 역사가 있으며 당대에 인공신경망 연구는 명백한 물리학의 한 연구 주제로 취급되었다.

관련해서 이전에도 이미 Facebook에 업로드한 적 있지만, 그 시절에 한국어로 나왔던 논문 하나를 캡쳐해서 첨부한다 (김형균, 권철안, "서로 다른 구조를 가지는 신경망 사이의 학습," 새물리 39, 6 (1999)., 첫 페이지는 하단에 캡쳐). 현재 딥러닝과의 공통점 및 차이점들에 주목해 보면 어떤 느낌이었는지 알 수 있을 것이다.




이외에도 내 서재에는 이런 주제들로 된, 국내기관인 APCTP에서 발간한 당대의 국제 프로시딩집도 있는데, 이 프로시딩집이 왜 나한테 흘러들어왔는지는 잘 모르겠다.

이 시절에는 인공신경망을 제안하고 개선하는 것과, 그 작동원리를 분석하고 입증하는 것 사이의 거리가 지금보다 가까웠던 것으로 보인다. 그런데 지금은 인공신경망을 실제로 발전시키는 연구와 인공신경망의 성능의 비밀을 설명, 분석하는 연구 중 전자는 다들 알다시피 어마어마하게 성공하며 커졌고, 우리 통계물리학의 역할은 주로 후자 중에서도 일부분을 담당하고 있는 듯하다.

지금보다 더 모를 때에 나열 식으로만 썼던 글이긴 한데, 후자의 방향에서 물리학자들의 현재 이론적 관심사에 대해 22년도에 개인적으로 정리해 본 글이 있다 (머신러닝의 물리학: 개괄 및 문헌 소개).

조만간 쓸 기회가 있겠지만, 해당 글에는 없지만 보다 최근에 부상하는 또다른 관점 중에는 바로 고차원 잠재공간의 기하학에서 오는 뉴럴넷의 우수한 표현능력(expressibility)을 무질서계의 통계역학을 통해 분석하는 것도 있다. 이는 사전학습된 거대 모델을 활용하는 최근의 딥러닝 흐름에도 상당히 부합하는 이론적 연구방향으로 보인다.

물리학적 방법 외에 Neural Scaling Law 쪽을 비롯한 대규모 실험연구나, 수학적 증명을 통해 성능을 설명하는 연구, 프롬프팅을 통해 마치 인간 행동을 연구하듯이 LLM을 평가하는 연구 등 여러 방법으로 펀더멘털한 연구들이 많은데, 이들은 실제 딥러닝 업계와 보다 활발히 교류하는 듯하다.

Facebook에서 이 글 보기: 링크

Wednesday, September 18, 2024

Simple script for solving matrix equations via Mathematica

Using the Solve[...] function provided by Mathematica, users can solve matrix equations. For example, a set of matrix equations \(AC+CA^\mathrm{T} = 2D\) and \(C=C^\mathrm{T}\) will be solved below.

AMatrix = (* define a matrix *);                           
                                                           
Diff = (* define a matrix *);                              
                                                           
n = (Dimensions[AMatrix][[1]]);                            
                                                           
CMat = Array[x, {n, n}]; (* set proper dimension *)        
                                                           
Csol = Solve[                                              
   AMatrix.CMat + CMat.Transpose[AMatrix] == (2*Diff) &&   
    Transpose[CMat] == CMat                                
    (* replace this with your own equations *)             
, Flatten[CMat]];                                          
                                                           
Cvec = Array[x, {(n*n), 1}];                               
                                                           
For[i = 1, i < ((n*n) + 1), i++,                           
  Cvec[[i, 1]] = Csol[[All, i, 2]][[1]];                   
  ];                                                       
                                                           
CMat = Transpose[ArrayReshape[Cvec, {(2*n), (2*n)}]];      

This is a convenient and neat way to solve matrix equations. Indeed, one should always care about the existence and (non-)uniqueness of the solutions, which Mathematica may fail to address completely. Also note that fully symbolic calculations are quite heavy.

Friday, August 9, 2024

지중해의 휴양지, 코르시카 꺄흐제즈(Cargèse) 여름 학교에 가다!

여기에 와서 유럽 학생들이랑 어울리겠다고 처음으로 WhatsApp이랑 PayPal을 다 깔아봤다.
지금 참석 중인 Summer School은 지중해의 코르시카 섬에 있는 Cargèse라는 마을에서 열리고 있다. 교과서적 프랑스어 발음으로 말하자면 꺄흐제즈 정도일 텐데 여기 사람들은 그냥 카르제스 정도로 부른다. 코르시카의 최대도시인 아작시오(Ajaccio)에서 셔틀버스를 타고 산악지대 풍경을 보면서 굽이굽이 길을 따라 1시간 정도 오면 도착한다.

여긴 통신이 잘 안 터질 때가 많고 에어컨이랑 찬 음료가 없어서 좀 지치긴 한다. 아이스 바닐라 라떼와 제로콜라가 그립다... 내가 있는곳은 숙소 겸 학회장소 (IESC, Institut d'Études Scientifiques de Cargèse) 인데, 주변엔 아무것도 없고 정말 이 시설뿐이다. 손전등 들고 30분 정도 산길을 걸으면 상점과 식당이 있는 중심가가 있어서 저녁은 거기서 먹는다. 거기도 말이 중심가지 인구가 1300명 정도 된다고 한다. 살면서 와 본 모든 곳 중 제일 외진 듯.

물론 멋진 점이 훨씬 많아서, 위와 같은 약간의 불편함들도 낭만으로 느껴진다. 밤이 되면 수많은 별들이랑 심지어 은하수까지 흐릿하게나마 보일 정도로 하늘이 깨끗하고 (12일 밤에는 페르세우스 유성우도 떨어진다고 해서 무척 기대 중이다), 이 일대에 말 그대로 우리밖에 없다 보니, 바닷가가 꽤 넓은데도 굉장히 프라이빗하고 깨끗하다. 엄청 오랜만에 사람들과 어울려서 해수욕 해 봤다. 그리고 빌리지가 멀다보니 아침 점심은 다 숙소에서 해결하는데 메인메뉴 작은 거 하나에 과일, 요거트, 빵 정도라서 뭔가 살 빠지고 건강해지는 느낌이 든다. 더워서 숙소 창문은 활짝 열고 자는데, 바닷가 + 산골인데도 곤충이나 뱀이 안 들어오는 것도 신기하다. 섬 자체에 뱀은 좀 있긴 하지만 독사는 없다고 한다. 밤길에 보면 도마뱀이랑 박쥐는 있다.

그렇다면 왜 스쿨을 이 곳에서 하는가? 이 스쿨은 나도 무척 관심 많은 곳인 룩셈부르크 대학의 통계물리, 생물물리 그룹들에서 주최하는 것인데, 코르시카가 약간 유럽인들에게는 제주도 포지션이라 그쪽 교수님들이 휴양 겸해서 하려고 여기로 잡은 것 같다. 그런데 찾아보니 그뿐만이 아니라 이 IESC라는 곳 자체가 1960년대에 출범해서 그때부터 이런 학회를 꾸준히 호스팅해온 근본있는 시설이라고 한다.

특히 이론물리학자 헤라르뒤스 엇호프트(Gerardus t'Hooft, 아직도 살아 계시고 작년인가에 한국이 주최하는 워크숍에서도 강연하심)가 이휘소 박사님의 강연을 듣고 영감을 받아 후일에 노벨상을 받게 되는 업적을 이룬 게 다름이 아니라 여기 카르제스 스쿨에서 일어난 일이라고 한다. 여기 시설에 뭔가 연혁이 써 있거나 흔적이 있거나 하지는 않던데, 그래도 그런 역사가 일어난 곳이라고 하니 반갑고 뜻깊다는 생각이 들었다.

아무튼 21일에 한국 돌아가자마자 삼척에서 invited talk 하는 게 있어서 맘 편히 있지는 못하고 그것도 틈틈이 준비 해야 되기는 하지만, 다시 오기 힘든 좋은 곳인만큼 스쿨 참여도, 휴양도 즐겁게 한 뒤에 귀국해야겠다.

Facebook에서 이 글 보기: 링크 (사진 포함)

Monday, July 1, 2024

뜻밖에 마주한 앨런 소칼의 이름

8월에 있는 세미나를 준비하기 위해 우리 비평형 통계물리학 분야의 논문(M. Esposito and M. Polettini, "Effective thermodynamics for a marginal observer," Phys. Rev. Lett. 119 (2017))을 읽고 있는데, 참고문헌에 '지적 사기'로 유명한 앨런 소칼(Alan D. Sokal, 위키백과 문서: 링크)의 이름이 있어서 뜻밖의 조우에 반가움을 느꼈다.


이분이 지적사기 논쟁 말고 수리물리학자로서의 본업에서 어느 분야를 연구하는지는 잘 몰랐는데, Google Scholar를 찾아보니까 통계역학 및 장론에서 등장하는 그래프이론 및 조합론적 이슈를 다루는 게 제일 main interest인 것 같다. 캡쳐한 논문에서도 state간의 transition을 나타내는 그래프에서 뭔가를 잘 분해해서 계산하기 위한 contraction principle 관련해서 소칼을 인용하고 있다.


커리어 대부분 미국에서 훈련받고 재직했지만 2006년부터는 영국 UCL에 재직 중이고 현재도 꽤 활발하게 전공분야 논문이 출판되고 있다. 수리물리학을 다루는 데 있어서 수학과랑 물리학과의 구분이 유난히 흐린 편인 영국 학계 특유의 색깔에 굉장히 잘 어울리는 연구 스타일을 가진 분인 듯하다.


Facebook에서 이 글 보기: 링크



Wednesday, June 12, 2024

딥러닝 학습기법 개선 연구의 두 방향: 클래스를 확장하기, 한정시킴으로써 정당화하기

딥 러닝을 이론적으로 분석하거나 개선할 때 그 원리적인 부분에 집중해서 end to end rigor를 추구하는 것은 이론학도의 입장에서 지적으로 무척 재미있고 자연스럽지만 사실 끝이 없는 일이다. 뉴럴 네트워크라는 시스템과 그 동역학은 워낙에 여러 관점, 여러 공간에서 볼 수가 있다 보니, 애초에 표준적인 단일한 관점이 없기도 하고 말이다.


그렇다 보니 end to end 정당화는 안 되더라도, 특정 레벨, 특정 스페이스에서 직관을 바탕으로 해서 다양한 타 분야의 아이디어를 접목해서 성능 개선을 했다는 논문이 꽤 많다. 이런 점에서 퀀트 쪽이랑 좀 비슷한 것 같다는 생각이 문득 들었다. 핵심 아이디어 부분의 작용 원리가 사람에게 설득이 되고 실제 성능도 좋다면, 그 아이디어가 딥러닝의 전체 과정에 다소간에 덕지덕지 결합해 있더라도 긍정적으로 받아들여지는 그런 느낌에서 말이다. 딥러닝이 아니더라도 여러 가지 최첨단 공학의 산물들이 그렇게 덕지덕지 되어 있는 경우가 많으니 이것은 특별히 이상한 것은 아니다.


근데 문제는 딥러닝에서는 그렇게 창의적으로 제안된 학습 방법 혹은 아키텍쳐들이, 특정한 세팅 하에서의 작은 모델에서는 잘 validate될지언정 large scale에서의 보편적 실증은 잘 안 될 수가 있다는 점이다. 내가 배움이 부족하다 보니 이런 일의 전모와 잘 대응이 되는 말인지는 모르겠으나, inductive bias라는 키워드도 관련이 되는 것 같고 말이다.


일례로 트랜스포머의 온갖 마이너한 개선들이 있지만 그 중에 아직까지도 vanilla한 아키텍쳐와 셀프-어텐션 메커니즘을 large model에서 근본적으로 넘어서는 게 아직 없는 것 같다고 듣기도 했다. 물론 이것은 트랜스포머가 특히 처음부터 너무 잘 만들어져서 더 그런 것 같긴 한데... 아무튼 마침 오늘이 그 유명한 'Attention is all you need' 논문(NeurIPS 웹사이트에서 논문 보기: 링크, 구글 스콜라 기준 2024.06.13일자로 확인되는 인용 수 124195회)이 처음 나온지 딱 7년 되는 날이라 이 얘기도 적어 둔다.


그렇다면 위와 같은 창의적인 아키텍쳐 및 학습기법 연구들이 더 잘 정당화되려면 어떤 방향의 보완이 필요할까? 자신의 아이디어를 딥러닝의 end to end rigor 속에 구겨넣고 이론적으로 해석해서 더 엄밀하게 입증해야 하나? 물론 그렇게 된다면 너무 아름답고 좋은 논문이겠지만, 직관에 근거하여 창의적으로 제시된 practical한 개선 방법일수록 그렇게 하기가 어렵다.


애초부터 그렇게 구겨넣을 필요가 없게, vanilla한 기법의 내부 원리와 자연스럽게 융화하도록 아름답게 원리적 개선을 꾀한 연구들은 참 흔치가 않다. 그런 연구들은 특유의 스타일이 있는데, 기존의 모델이 알고 보니 더 넓은 클래스의 모델들의 한쪽 끝에 불과하다는 것을 알아내고, (억지스럽지 않게 정의되며 기존에도 성질이 잘 알려진) 그 넓은 클래스 안에서 제일 좋은 모델을 찾는 식의 접근을 대개 취하는 듯하다.


한편 자신의 아이디어가 분명히 성능은 좋지만 위와 같은 방식으로 정당화되기는 어려운 성격의 것이라면, 토이 데이터셋 말고 현실적인 커다란 과제에서도 보편적으로 성공적인지를 따져 보면 된다. 그러나 위에서 언급했듯이 그렇게 scale up된 검증을 통과하는 연구는 전체 연구의 개수에 비해서는 많지 않을 것으로 짐작된다. 결국 자신이 제안한 기법이 어떤 종류의 문제에 대해, 어떤 학습 상황에서 얼마나 성공적인지를 스스로 끊임없이 의심해 가며 명확히 밝혀서, '한정시킴으로써 정당화'해야 할 것으로 보인다.


자랑하자면 우리 연구실에서 나온 논문 중에도 위의 두 요건을 모두 만족하는 접근을 취한 것이 있다 (Euijoon Kwon and Yongjoo Baek, "𝛼-divergence improves the entropy production estimation via machine learning," Physical Review E (2024)., 저널 웹사이트에서 논문 보기: 링크).


Facebook에서 이 글 보기: 링크

Wednesday, May 22, 2024

전공설계지원센터 간담회 후기 - 퀀트 헤지펀드: 전공을 넘나드는 투자전략

5월 21일 화요일에 전공설계지원센터에서 진행한 진로 특강(링크)에는 퀀트 리서쳐로 일하는 분이 특강을 오셨다. 연사분이 너무 자세한 얘기는 할 수가 없다고 하셨고 실제로 그랬음에도 불구하고 무척 명료하고 구체적인 lesson들이 있는 유익한 톡이었다. 블로그에 올리기에는 좀 specific하다고 느껴지는 업계 얘기 몇 개는 빼고, 질의응답 중에 흥미로운 내용들을 밑에 옮겨본다.


개인적으로는 LLM이 이미 광범위하게 업계에 적용 중이라는 것과 (코딩 돕는 것뿐 아니라 투자 알고리즘 자체에 적용한 일부 사례는 본 적 있는데 이 정도인 줄은 몰랐음), 퀀트 리서치에 SDE가 당연히 절대적인 비중인 줄 알았는데 그게 아니라는 것이 제일 놀라웠다.

물론 현업 최전선에서 알파를 창출하기에 부족하다는 것이지, 확률과정 지식을 통한 포트폴리오 이론과 파생상품론의 수리적 이해는 기초 소양으로 잘 갖추고 있어야 하긴 할 거라고 내 마음대로 생각해 보기도 했다.


그리고 5월 23일(목요일)에는 AI, 언어처리 쪽 국내 리서치 엔지니어 분이 특강을 해 주셨는데, 이 분과는 끝나고 운좋게 커피챗 하는 시간도 가져 볼 수 있었다. 다소 시니컬하게 이야기하셨지만 현재 업계 동향과 함께, 학부뿐 아니라 석박사 졸업생들까지 염두에 둔 진로 관련 조언들을 해주셨다. 나랑 학부 학번이 같으시고 생각보다 human distance도 가까운 덕분에 겹지인들이 꽤 있다보니, 학교 졸업하고 떠난 그때 그 시절 사람들 얘기도 오랜만에 해 볼 수 있기도 했다.


밑에는 분야 자체에 대한 질의응답 위주로만 썼는데, 사실 이번 특강 시리즈의 포커스는 다중전공자 및 희망자의 학업 및 진로설계 쪽이었다. 센터에서 각종 경로를 통해 다중전공자나 특이 이력자를 파악하고 있다가 연락을 줘서 섭외를 한다고 하는데, 나도 평범하지 않게 다중전공을 했던 경우인만큼, 만약에 나도 나중에 훌륭한 사람이 되어서 이런 자리에 섭외가 된다면 보람차겠다는 상상도 해 보게 된다.


질의응답 요약

- 퀀트 일은 크게 연구 / 검증(구현 포함) / 운용 으로 나뉘는데 기본적으로는 (프랙티컬한) 리서치직이라고 생각하면 된다. 손가락 끝에 수백억이 달린 트레이더와는 구분되는 편이다. 물론 퀀트 리서쳐도 회사의 미래에 대한 책임이 당연히 아주 큰데, 트레이더와는 책임의 양상이 다른 것이다. 검증 및 구현은 연구의 연장선이라 생각하면 된다. 운용은 회사의 방향과 관련된 거시적인 의사결정을 말하는데, 운용 관련 능력은 학교에서 쌓긴 어렵고 업계에서 연차를 쌓으며 얻어야 하는 것.


- 퀀트는 계속 배워야 살아남고, 수학, 물리, 통계학적 기초체력이 높아야 한다. 학업 내용들 자체보다도, 어떤 새로운 걸 봐도 쫄지 않고 잘 이해할 수 있는 능력.
(이건 오늘 오신 인공지능, 언어모델 쪽 연사 분도 정확히 같은 단어를 써서 이야기하신 부분. 이공계 쪽 챌린징한 일들은 대부분 마찬가지인 듯)


- fancy한 업계에서의 튀는 이력일수록, 그 당시 업계 사정에서만 가능했던 예외 사례일 수 있다. 그렇다고 표준적인 이력을 따라가서 성공한 사람을 너무 롤모델 삼아 따라가려 하지도 말아야 한다. 이력상에 안 나오는 요소들이 영향을 주었을 수 있다 (퀀트뿐 아니라 general하게 의미 있는 wisdom인 듯).


- SDE를 비롯한 금융수학이 얼마나 활용되나?
: SDE는 퀀트헷지펀드를 기준으로 옵션, 단기예측 쪽에서는 활용을 하는 것 같은데, 현재 퀀트 전반적으로 각광받고 많이 쓰이지는 않는다. 경우에따라 재조명될 수도 있겠지만. 자신이 SDE라는 수학분야를 알고 있으니 그게 그 자체로 많이 쓰일 거라고 기대를 하기보다는, 나는 이런 정도의 수학을 이해하고 내 아이디어로 삼아서 사용할 수 있다 라는 개인역량으로 어필한다고 생각해야 한다.


- 시장을 읽고 대응하는 능력, 수리적 이해능력, 빠른 습득 및 적용 능력 중 퀀트에 가장 중요한 역량을 꼽자면?
하나만 꼽기보다는 순위를 매기자면 1: 시장 2: 수리 3: 빠른적용 이다. 그런데 LLM 도입 이전까지는 정반대였다. 3이 edge가 되는 리서쳐는 빠른 속도로 사라지고 있다. 2는 LLM이 대체할 수도 있겠지만 훨씬 늦거나 제한적일 것으로 본다. 1은, 시장 분석까지는 LLM으로 되겠지만 의사결정은 자신의 몫이므로 대체되기 힘들 것 같다. 그리고 애초에 시장에 대한 이해와 관심이 높지 않다면 좋은 질문을 던지고 좋은 아이디어를 내는게 어렵다.
(여담이지만 이건 내가 등록한 사전질문인데 아주 좋은 질문이라고 해 주셔서 뿌듯했음)


- 자격증은 가점이 굳이 된다면 CFA 정도이지만 크지는 않다. 그 자체로 가점이 된다기보다는, 쌩 이과 출신인데 CFA가 있다면 금융 모르지는 않겠구나 정도이다. 그렇다고 CFA 있는 걸 특이하다거나 낭비라고 보는건 아니고, 있으면 당연히 좋다.


- 추천하는 실전 경제 공부법이 있다면?
1. 작은 금액이라도 다양한 섹터를 해보기
2. 실질 소득을 냉정하게 판단 (세금, 은행 이자수익 대비 상대값, 현금화비용 등 다 고려)
3. 확증 편향을 안 하는 습관


- 물리학 전공자가 여전히 많은가? 업계 경험상 그들이 특별히 보완해야 할 능력?
: rocket scientists in wall street 시절뿐 아니라 지금까지도 여전히 굉장히 많다.
: 특별히 보완해야 할 능력? 이론적으로 파다 보면 리서치의 호흡이 느려진다. 일단 들어오고 나서 연습해도 되는 거긴 하지만, 문제 해결 능력이나 view를 전환, 도입하는 능력의 속도를 높이는게 필요하다.


- 비 stem 리서치 경험도 채용에 도움?
: 무조건 된다. 새로운 아이디어를 재밌어하고 연구 경험을 좋게 본다. 예컨대 퀀트를 위한 LLM 프롬프트 엔지니어링에 철학 전공이 도움이 된 사례.
: 본인의 아이디어가 테스트로 확인이 안 되더라도 말이 되고 창의적이라면 채용에 가점이 될 수 있다.


- hedgefund brainteaser 이런 식으로 구글링하면 나오는 퀴즈를 많이 풀어 보는 게 좋다.


- 너무 이것저것 요건을 채우기보다 자신만의 edge를 만들어서 어필하는 게 좋다. 들어와서도 마찬가지다.

Facebook에서 이 글 보기: 링크

Saturday, March 30, 2024

차이의 감각에서 비롯되는 사회적 행동의 LLM 표현공간을 이용한 모형화 제안

다개체 동역학 시스템(Multi-agent dynamical systems)의 관점에서, 타 개체에 대한 아주 원초적인 호불호의 감각들과 기본적인 사회적 행동의 규칙들만을 바탕으로 여러 가지 복잡다단해 보이는 social behavior들 (대표적으로 이지메 같은 것)을 재현해 낼 수 있지 않을까 하는 생각을 한 적이 있었다. 그것들이 재현된다면, 반대로 최소한의 개입으로 특정한 현상을 억제하는 external control도 개발해 볼 수 있을 것이다.


이러한 아이디어의 아주 원시적인 버전을, 2018-2 학부 시절에 수강한 최적제어이론 수업 프로젝트에서도 풀어낸 적이 있다. 그 때 내가 다룬 문제는 이지메는 아니었고, 죄수의 딜레마 (정확히는 죄수의 딜레마를 연속 시간 및 연속적인 협력도에 대해 일반화한 CAIPD라는 모형) 때문에 낮은 수준의 협력에 머무르고 있는 동역학계가 있을 때, 한 agent에만 외부 제어입력을 가함으로써 인위적으로 협력의 수준을 끌어올리는 것이었다.

협력도를 높이기 위한 최적의 제어입력을 구하는 것이 해석적으로 풀리는 문제는 아니어서, 기본적인 분석만 한 뒤에 제약된 조건에서 의사-최적 해를 수치적으로 구했다.


여기서 중요한 목표는 당연히 최종 시점의 협력도를 높게 하는 것인데, 이것을 약간 더 재미있게 하기 위해서 나는 시간에 따른 두 개체의 '협력도 차이의 누적량'을 최소화하라는 조건도 넣었다. 사실적으로 생각해 보면, 최종 협력도가 높더라도 한쪽만 협력 의사가 많고 다른 쪽은 협력 의사가 별로 없을 경우 상당히 stressful한 상황이 되고, 실제 고도의 사회적 상호작용과 목표 달성은 실패하고 있는 상황일 수 있기 때문이다.



여기에 더해서, 개체들간에 고도의 지적 판단 없이도 본능적으로 느끼고 표출하는 '차이의 감각'이 서로를 이해하거나 배제하는 핵심 기제가 되지 않을까 하는 내 오래된 직관과도 관련이 있다. 간단하지만 지금 봐도 꽤 재밌는 디자인이다.


그런데 그런 원초적인 호불호의 감각이나 다양한 감정에 해당하는 internal state를 그럴듯하게 모형화하는 것이 어렵다 보니, 이 프로젝트는 각 개체의 상태가 '협력도'라는 단 한 개의 축으로 되어 있는 지극히 간단한 모델을 이용하여 수행되었다. 게다가 더 심한 문제는, 개체에 가해 주는 외부 입력의 인간학적 해석 자체가 불명확하다는 것이다. 그냥, 이유는 모르지만 한 개체가 갑자기 협력할 의사를 갖게 될 뿐이다. 겸손하게 말하자면, 협력도를 높이라고 시켰으니 당연히 높아지는 상황 정도에 그친 것이다.

물론 기본적으로 낮은 협력도를 유지하게 만들어진 모델인데도, 한쪽만 일부러 높여 주면 다른 쪽이 같이 올라갈 수 있다는 내 관찰은 죄수의 딜레마 모델의 동역학적 특성에 대한 분석으로서 의미가 있기는 하다.


여하튼 이러한 한계의 이유는 더 말할 것도 없이 모델이 너무 단순해서이다. 그러나 이를 굳이 거창하게 말해 보자면, 내가 사용한 모델의 internal state가, 외부 입력에 의해 간접적으로만 액세스되는 인간의 감정적, 사회적 특징을 모사하지 못했고, 그 이전에 state space의 차원 (협력도라는 1차원 축) 자체도 그런 일을 절대 수행하지 못할 만큼 낮았기 때문이라고 할 수 있겠다. 그렇다 보니, 제대로 된 모델이 떠오르기 이전에는 이 주제와 관련해서 더 자세한 탐구는 하지 않게 되었었다.


생성AI 시대가 된 지금, 오랜만에 이 주제를 꺼내 보고 다시 떠오르는 게 있다. 먼저 위와 같은 감정적인 부분에 대한 internal representation을 갖고 있는 LLM agent들을, 그런 부분들 위주만으로 남겨서 경량화하거나 미세조정(fine-tuning)한다. 만약에 경량화시키는 방식 자체를 달리하거나 혹은 노이즈를 주어서 agent별로 약간의 차이를 두면, 이는 사람별 성격 차이 혹은 인지 도식의 미세한 차이에 대응될 것이다. 그리고 이러한 representation을 여러 방법으로 뜯어서 이해해 본다.

그 다음에 특정한 상황을 제시하고, 이렇게 만들어진 여러 agent들 사이에 최소한의 짧은 사회적 상호작용들과 의사소통을 하게 한다 (이런 것 자체는 이미 여러가지 있었던 것 같다). 이러한 상호작용은 그 종류에 따라 LLM으로 하여금 서로 다른 emotional, social한 representation을 시시각각 동원하게 할 것이다. 만약에 경량화를 했더니 상황에 대한 이해가 떨어지고 인간적 능력이 깎여 나가는 것이 관찰된다면, full weight를 가지면서도 최소한의 짧은 상호작용만을 하는 stylized output을 내도록 프롬프팅을 할 수도 있다.

그렇게 한 다음에 dialogue의 한 round보다 훨씬 긴 시간 동안 관찰을 하면, LLM이라고 특별한 취급을 할 것 없이, 정해진 weight 값과 약간의 stochasticity를 바탕으로 서로 신호를 주고받는 어떠한 연속시간 동역학계라고 간주할 수 있다. 물론 LLM인 만큼 굉장히 차원이 크겠지만, 로컬에서 inference할 수 있게 경량화된 LLM 같은 것도 있다고 하니 비용 면에서 아주 불가능한 수준의 일은 아닐 것 같다.

이러한 상황에서, 주어진 설정과 외부 환경 하에서 각 개체별 차이에 의해 어떤 social behavior들이 창발하는지, 각 개체들이 어떠한 역할에 놓이게 되는지 관찰해보고, 그러한 현상들이 각 LLM agent들의 고차원 internal representation에 비추어 볼 때 어떠한 인간학적 해석을 갖는지까지 뜯어본다면, 서두에서 언급한 내 오래된 상상을 조금 더 구체적으로 다룰 수 있지 않을까 한다.

이런 작업의 결과가 실제 사회학이나 심리학 같은 게 될 수는 없겠지만, 통계물리에서도 일부 진행하고 있는, 협력, 진화, 생태 등에서 영감을 받아서 단순화한 모형을 다루는 비선형 동역학 연구에는 포함될 수 있지 않을까 한다. 거대 딥러닝 모델이 자신에게 주어진 loss를 minimize하기 위해 알아서 형성해주는 고차원의 internal representation들을, 우리가 그냥 주어진 고정된 물체처럼 생각하고(?) 다방면으로 꺼내서 쓰면서 또다른 연구들에도 활용할 수 있는 것이다.


Facebook에서 이 글 보기: 링크

Wednesday, March 20, 2024

거대모델이 건설되는 기술사회학적 과정, 그리고 90년대의 딥러닝 역사

삼전 DS부문 경계현 사장은 박사학위를 1994년에 뉴럴 네트워크를 결합한 로봇 제어기법으로 받았다. 이러한 이력을 보고 떠오른, 그러나 이 분 자체에 대한 인물평은 전혀 아닌 몇 가지 생각들을 써 본다.


삼성전자의 인공지능 칩 개발을 리드하는 경계현 사장.



경계현 사장의 1994년도 박사학위논문 서지사항.


AI 칩 관련 기술혁신 최전선의 돌파구를 탐색하는 데 있어서, 현재와는 많이 다른 모습이었을 뉴럴 네트워크 분야에 대한 이분의 학술연구 경험이, 주로 반도체 설계와 관련해서 삼성전자 내에서 쌓은 혁신적 리더십 경험에 견줄 만큼의 구체적인 도움이 되고 있을 가능성은 사실 높지 않을 것 같긴 하다. 그럼에도 불구하고, 90년대에 인공신경망 연구를 했다는 것은 개인사적으로 재미있게 느껴지는, 개인적 소회가 어떠실지 무척 궁금해지는 지점이기는 하다.

여담이지만 나는 학사졸업연구를 전기과 내의 제어 트랙에서 다개체시스템 제어 쪽으로 했는데 (트랙이란 것은 공식적인 것은 아니고 그냥 졸업연구를 제어 연구실에서 해 보았다는 정도이다), 이것이 경계현 사장님이 졸업한 제어계측공학과의 후신 격인 테크트리라는 점에서 또 한 번의 공연한 친밀감을 형성해 본다.


다음으로, 이 박사논문이 뉴럴네트워크 중에서도 하필 로봇제어에 대한 응용이다 보니 또 다른 생각들도 떠오른다. 그 얘기를 조금 해 보자.

딥러닝 중에서도 극히 최근의 패러다임(2020년 부근에 본격화된)은 초거대 모델을 수많은 데이터로 사전학습(pre-training)시킴으로써, 밑바닥부터의 재학습 내지는 전이학습 없이도 수많은 종류의 과제를 비교적 쉽게 수행하게 한다. 이는 전통적(?) 즉 2012년경부터 2010년대 후반쯤까지의 딥러닝과도 양적, 질적으로 꽤나 구분되는 새로운 패러다임으로 본다.

이러한 패러다임에서는 인류 전체가 산발적으로 생산하고 축적해온 데이터가 급격하게 일원적으로 수집되고 통합됨으로써 거대모델 구축에 활용되는 무척 흥미로운 기술사회학적 과정이 작용한다. 이러한 과정은 이미지(text-to-image generation), 텍스트(ChatGPT 등의 거대언어모델) 등 여러 도메인에 걸쳐 순차적으로 일어나 왔다.

그런데 최근에는 로봇 제어에 필요한, (좁은 의미의)기계적 상호작용과 관련된 운동학 및 제어공학, 비디오 등과 같은 도메인의 데이터 및 메타데이터들 역시 이러한 초거대모델 구축에 사용될 수 있게 수집되어 초거대화되는 과정이 급격히 나타나고 있는 듯하다. 이를 통해, 로봇들로 하여금 언어 프롬프트 기반으로 놀랄만큼 세련되고 복합적인 동작적 과업을 수행하게 하는 연구들도 속속 소개되고 있다. 물론 그러한 동작을 실제 가능하게 하는 하드웨어의 발전이 느리다는 문제도 있으나, 그러한 제약까지 고려해서 최대한 성공적인 제어를 가능하게 하는 기술들도 등장할 것 같다.

아마 생각보다 꽤 빠른 시일 내에 ChatGPT만큼, 혹은 그 이상으로 대중을 놀라게 할 돌파구가 로봇 쪽에서 다수 소개되지 않을까 한다. 그러한 기술들의 등장을 목전에 둔 지금의 시점에서, 위와 같이 90년대에 연구된 인공 신경망 기반의 로봇제어를 다시 찾아보고 사유해 보게 되면, 귀여운 아기토끼 같으면서도 먼 고대의 조상님처럼 느껴지는 것이 우리들에게 굉장히 독특한 기분을 선사할 듯하다.

90년대 당시와 지금의 신경망 연구를 조금 더 제너럴한 센스에서 비교해 보자면 상당히 양면적인 생각이 들 때가 있는데, 일단 먼저는 '엥 그때도 이런 용어들이 있었다고?' 싶을 만큼 주요 essense는 이미 그때 다 연구되어 있었구나 싶은 때가 있다. Teacher-student framework를 다루는 아래의 통계물리학 논문 캡쳐처럼 말이다.

Teacher-Student framework를 통계물리학의 관점에서 풀이한 1999년도 논문의 첫 장.


여담이지만, GPU를 뉴럴 넷 학습에 사용한 초창기 논문 중에서도 국내 학자들에 의해 연구된 것이 있다.

인공신경망 학습에 GPU를 사용하는 방법을 제안한 2004년도 논문의 첫 장.


그러나 한편으로는 딥러닝을 실제로 tractable하게 만드는 여러 노하우 및 신기술들의 도입과 계산 성능의 발전으로 인해, 지금과 그때의 인공신경망 연구는 양적으로나 질적으로나 단절에 가까운 완전히 상이한 모습으로 변화했기도 하다.

아무쪼록 딥러닝의 발전사를 추적할 때, AlexNet 및 알파고뿐만 아니라, 자연과학과 공학 양쪽에서 나름의 성과를 축적했었던 90년대까지의 역사도 더 많이 주목받고 탐구되기를 바란다.

Facebook에서 이 글 보기: 링크

Wednesday, December 13, 2023

다원예술 프로젝트 <다이빙 미러> 쇼케이스 '비전이 공간이 될 때' 후기 및 발제문

지난번에 포스팅한 대로, 한국문화예술위원회 다원예술창작지원사업 <다이빙 미러> 프로젝트의 쇼케이스 "비전이 공간이 될 때"가 지난 12월 10일(일요일)에 진행되었습니다.

저는 '기술 미학'이라는 키워드로 지난 10월부터 이번 협업에 참여하여, <표현 재조합 기계로서 딥러닝의 기술미학적 쟁점들>이라는 제목으로 발제문을 작성하였고, 또한 이를 바탕으로 협업자의 한 명으로서 30분가량의 발표를 진행하였습니다.

과분하게도 제 발제문이 이번 쇼케이스에 전반적인 화두를 던지는 역할을 하게 되었는데, 제가 여러 의미로 아날로그 vs 디지털을 비교하면서 밀어붙인, '딥러닝의 매체성은 디지털화의 끝에서 등장한 아날로그이다 (디지털의 양적 팽창 -> emulated analog로의 질적 도약)'라는 테제가 사전미팅 때도 그렇고 본 쇼케이스 때에도 꽤 논쟁적이어서, 예상보다 활발한 논의가 있었고 저도 많이 배우는 시간이 되었습니다.

아무쪼록 뒤늦게 합류하여 길지 않은 시간 동안 디스커션 하며 작업했는데도 한동석 작가님을 중심으로 여러 협업자 선생님들과 밀도있는 교류가 오간 인상깊은 시간이었습니다. 유튜브 영상 다시 보면서 개인적으로 느낀 점은 발음/발성 연습을 좀 해야겠다는 점이었습니다.

사업결과 공유 차 이번 쇼케이스에 대한 네오룩neolook 공지 게시물 (쇼케이스 진행 후 업데이트됨) 을 덧글에 링크하였습니다. 또한 네오룩 공지의 여러 링크는 12/19(화)를 끝으로 만료될 예정이라, 발제문 pdf 파일과, 저 외에도 총 5명의 협업자가 함께한 쇼케이스 녹화본 유튜브 영상들도 덧글로 직접 링크해둡니다.
발제문의 목차는 아래와 같습니다.
____
<표현 재조합 기계로서 딥러닝의 기술미학적 쟁점들>
I. 소개 및 서론
II. 본론
1. 딥러닝의 매체성: 디지털과 아날로그 사이에서
(1) 기술매체의 미학: 복제와 재조합의 용이성
(2) 아날로그 알고리즘으로서의 딥러닝
(3) 원형 재조합 기계로서의 딥러닝: 디지털의 끝에서 다시 아날로그로
2. 의미-기계의 기술적 조건들
(1) 고차원 공간에 임베딩되는 내부 표현들
(2) 추상성의 위계와 정보의 정량화
3. 딥러닝을 활용하는 예술, 딥러닝을 사유하는 예술
(1) 예술에서 인공지능의 이중적 지위
(2) <다이빙 미러> 프로젝트에서 탐구될 중간적 시공간들


유튜브 녹화영상 링크
1. 사업 결과
2. 쇼케이스 녹화 자료



Facebook에서 이 글 보기: 링크