게시물 목록

Thursday, September 22, 2022

Optimal transport accelerates the score-based generative modeling

<Midjourney가 시간과 에너지를 아끼려면? : 최적수송이론에 근거한 최신의 연구 소개>


Diffusion model (혹은 사실상 거의 같게 사용되는 용어로, score-based generative models) 은 최근에 머신러닝에서 크게 각광받고 있다. 특히 사용자가 prompt를 입력하여 원하는 이미지를 생성해내는 text-to-image generation의 경우는 매우 커다란 데이터셋과 모델에 힘입어 Midjourney, StableDiffusion, DALL-E 2 등의 서비스로 출시되기도 했다. 이들 서비스는 의미론과 텍스쳐 양쪽에서 명백히 '창의적'이라고 말하고 싶을 정도로 뛰어난 피쳐 학습 및 재조합 능력을 보여주며, 단순히 학계 내의 주목을 넘어 예술분야 및 호사가들에도 새로운 영감과 고민을 제공하고있다.


나는 이미 작년 12월에 wombo라는 서비스를 접하고 포스팅을 했었다 (블로그에서 해당 글 읽기: 링크). 해당 서비스는 디퓨전 모델은 아니고 GAN의 한 변형인 VQGAN이라는 모델을 이용했는데, 이미 상당히 창의적인 이미지를 생성해주었다 (이를테면 내가 입력해본 프롬프트인 'nvidia building', 'mecha donald trump' 등이 있다). 그러나 모델의 설계 자체가 가진 한계인지, 아니면 컴퓨팅 파워의 한계인지, 이미지가 선명하지는 않고 모호하게 뭉개져있는 듯한 느낌이었다. 사실 generative art라고 하는 분야에 추상적인 패턴뿐만 아니라 의미론이 들어오는걸 오랫동안 소망해온 나로서는 이 정도만 해도 엄청나게 신기한 결과긴 했다.


한편 디퓨전 모델의 경우는 일부 task에서 GAN을 넘는 성능을 보이는 등 성공의 가능성이 보이자, 대량의 컴퓨팅 파워와 고급의 엔지니어링이 투자되어, 매우 선명하고 모든 부분을 식별가능한 이미지들까지 만들어낼 수 있게 되었다. 이는 위에서 말한 유료 서비스들의 출시와 본격적 유행으로까지 이어질수 있었다.


이 글에서는 이러한 디퓨전 모델의 기본적인 작동원리와, 그 가장 큰 문제점을 상당부분 해결할 것으로 기대되는 최신의 연구에 대해 간단히 소개해보도록 한다. 옆 연구실과 함께하는 세미나에서 발표한 자료를 하단에 첨부한다 (슬라이드별 간단한 설명은 차근차근 추가예정).


디퓨전 모델의 기본적인 컨셉은 다른 복잡다단한 인공지능 모델들에 비해 비교적 간단하고 우아한 편인데, 이는 물리학, 화학 등에서 종종 등장하는 현상인 확산(diffusion) 및 그것을 기술하는 비평형 통계역학 (non-equilibrium statistical mechanics)의 방법론에 근간을 두고 있다.


사람 얼굴 데이터, 숫자 손글씨 데이터 등 모든 이미지 데이터셋은 각각의 '분포'를 가지고 있다. 무슨 뜻이냐면, 존재할 수 있는 수많은 이미지(=2차원 행렬)들 중에, 사람 얼굴 사진처럼 생긴 이미지는 극히 일부일 것인데, 모든 가능한 이미지들을 모아놓은 추상적인 공간 상에서 자기들끼리 비교적 가깝게 모여서 어떤 덩어리를 형성하고 있을 거라는 뜻이다.


그런데, 모든 가능한 이미지들의 공간에서 아무 점이나 골라보면 마치 TV 잡음처럼 랜덤한 이미지일 가능성이 압도적으로 높다. 그런 공간에서 사람 얼굴처럼 생긴 이미지들의 모임을 생각하면, 그 윤곽은 꽤 복잡하고, 들쭉날쭉하게 생겼다고 생각할수 있다.

(물론 차원 자체가 워낙 높아서 생각보단 괜찮게 생겼을지도 모르나, 이 경우에는 sparse함이 문제가 된다. 이런 문제를 그나마 개선해줄 수 있는 게, 휘어진 평면을 다루는 기하학인 Riemannian manifold를 도입하는 것이다. 실제로 머신러닝에 많이 적용되고 있으며 디퓨전 모델에도 적용한 연구들이 속속 나오고 있다)


다만 우리가 실제로 그 분포를 알고 있는 것은 아니다. 우리는 그 분포를 따르는 여러 개의 점들 (이미지들) 만 가지고 있다. 점들을 알고 있으니 대충 윤곽을 따라갈 수 있지 않냐고 할 수 있는데, 굉장히 정확한 지적이다. 그러나 고차원이고 커다랗기 때문에 현실적으로는 어렵고 이에 기계의 힘을 빌리고싶다. 만약에 그 분포의 윤곽 자체를 안다면, 사람 얼굴이면 얼굴, 숫자면 숫자, 풍경이면 풍경 등, 기존에 존재하지 않았지만 분명히 사람 얼굴에 해당하는 (혹은 다른것에 해당하는) 이미지를 만들어낼수 있을 것이다. 이게 생성모델의 기본 개념이다.


어떻게 그렇게 할 수 있을까? 다양한 방법이 있는데, 디퓨전 모델에서는 먼저 이러한 복잡한 분포에 작은 노이즈를 단계단계 조금씩 집어넣어, 커다란 공간 전체를 비교적 균일하게 채우는 정규분포 같은 분포로 바꾸어준다. 이는 '좁은 용기 속에 있던 기체분자가 방 전체로 퍼져나가는 것', 즉 확산에 비유할 수 있다. 그런데 사실은 비유일 뿐 아니라 수학적으로 정확하게 똑같게 기술된다. 이를 분포를 '부순다'고 표현하자.


그 때 분포가 어떻게 부서지는지 그 양상을, 인공신경망을 이용해서 학습하자. 인공신경망은 기본적으로 뭐든지 흉내낼수 있는 매우 커다란 함수라고 보면 된다. 아무튼 이렇게 부서지는 양상을 알았으니, 반대로 균일한 분포 (위에 말한 TV 잡음 같은걸 모두 포함한) 로부터 원래 분포를 만들어낼 수 있다 (약간만 더 테크니컬하게 말하면 베이즈 정리에 근거해서 조건부확률을 뒤집어주는 것이다).


그러나 디퓨전 모델의 매우 큰 문제점은, 원래의 좁은 분포를, 전체 이미지들이 이루는 고차원 공간을 균일하게 채울 때까지 단계단계 조금씩 부수면서 학습해야 하기 때문에 학습과 생성에 너무 많은 시간이 걸린다는 것이다. 이 문제는 신경망의 크기를 키운다고 해결되는 것은 아닌듯하다.


이번에 소개한 논문인 Diffusion Schrodinger Bridge에서는 이 문제를 해결하기 위해, 최적 수송 이론 (optimal transport) 및 그것의 변형인 슈뢰딩거 브릿지 (Schrodinger Bridge)를 도입한다. 최적수송이론은 어떠한 분포 p0을 다른 분포 p1로, 유한한 고정된 시간 내에 반드시 보내게끔 강요하는 (정확히 말하면, 최소의 비용으로 그렇게 보낼수 있는 구체적인 경로를 찾는) 것에 관한 이론이다. 딱 들어도 위에 말한 디퓨전모델의 문제점 해결에 적용될 수 있겠다는 직관이 든다.


최적수송 이론을 약간 변형시킨 슈뢰딩거 브릿지 문제는, IPF 알고리즘이라는 기존에 잘 정립된 방법을 통해서 풀 수 있다. 대략적으로 설명하자면 처음에는 마지막 분포 p1을 고정시킨 채로, 그 다음에는 처음분포 p0을 고정한채로, 그 다음에는 다시 p1을 고정한채로... 이런식으로 왔다갔다 하면서 좁혀서 점점 p0에서 p1으로 가는 좋은 경로를 찾아준다. 실제로 저자들은 이 방법을 적용해서, 데이터 분포를 노이즈 분포로 부수는 과정을 가속(혹은 단축)시켜 준다.


그 결과도 상당히 괜찮아서, 기존의 디퓨전 모델보다 훨씬 짧은 시간에 원하는 사람얼굴 이미지를 나름 선명하게 만들어낸다. 한편 재밌게도, 노이즈로부터 원하는 사진들을 만들어내는 것뿐만 아니라, 서로 다른 두 분포를 내삽(interpolation)하는 것도 가능하다. 무슨 말이냐면, 숫자들과 알파벳글자들 사이의, 혹은 땅속 풍경과 바닷속 풍경 사이의 '가장 자연스러운 연결'을 찾아줄 수 있다는 것이다 (물론 기준에 따라 다르며 딱히 과학적 진리 같은것은 아니다).


아무튼 매우 흥미로운 아이디어이고, 앞으로 사람들이 이것을 더 큰 모델들, 더 어려운 task에 대해서까지 이게 잘 적용되는지, 그리고 end-to-end로 잰 실제 시간과 자원이 절약되는게 맞는건지 등을 테스트를 해보면 좋겠다. 만약에 더 어려운 문제들에 대해서까지 결과들이 꾸준히 잘 나온다면, 각광받는 디퓨전 모델의 큰 문제가 꽤나 해결된 셈이겠다.


Tuesday, September 20, 2022

빛으로 작동하는 인공지능

이전에 우연히 접하고 신기해서 포스팅 했던 전기과 유선규 교수님(https://waves.snu.ac.kr/research)은 박사 때는 플라즈몬 같은 걸 하셨고, 지금은 질서가 깨져있는 물질의 설계 쪽과 함께, 전기 대신 빛으로 작동하는 인공신경망의 설계를 연구 테마로 잡고 계신다.


그런데 마침 요새 analog optical computing이 나한테까지 전해 들릴 정도로 업계에서 굉장한 화두가 되고 있는 모양이다. 유 교수님 연구실 소개를 보고 그때는 지적으로 신기하다고만 생각했는데, 프랙티컬한 관점에서도 시의적절하게 매우 좋은 연구주제를 설정하신 것 같아 멋진듯하다.


머신러닝을 개선하는데 쓰이는 핵심적인 아이디어들을 보면, 물론 디지털 하드웨어를 효과적으로 쓰도록 로우레벨에서 개선하는것도 엄청 중요했지만, 이해와 활용에 있어서는 대부분 아날로그한 알고리즘들이 크게 작용하고 있는듯하다 (그래서 컴공의 여타 분야에 비해 머신러닝에서는 선대, 미적분학 등이 유독 더 강조되는 것이기도 하겠다). 극단적으로는 그러한 아날로그 알고리즘이 머신러닝의 요체이고, 디지털 컴퓨터는 그러한 아날로그 알고리즘을 원하는대로 쉽게 implement 하게 해주는 플랫폼 역할이라고 생각할수도 있다.


이런 센스에서, reservoir computing이라고 해서, 수많은 비선형 자유도를 가진 시스템이라면 (이를테면 물 담아놓은 바가지(...) 등 물리적 시스템들을 포함하여) 뭐든지 사용할수 있는 아날로그한 딥러닝도 제안된 바 있다. 그러나 여기서는 그 비선형 자유도 전체를 시시각각 업데이트 하는것이 아니라, 말단에 있는 상대적으로 조그만 뉴럴넷만 트레이닝 시켜서 원하는 함수의 윤곽을 뽑아내게 된다.


아직 analog optical computing이 어떤 것인지는 잘 모르지만 reservoir computing과 약간은 비슷하게, 그러나 전자 기반의 디지털 집적회로처럼 매우 세심히 디자인된 광회로를 만들어가지고서 머신러닝을 비롯한 계산을 하겠다는 듯하다.


Genuine analog의 장점은 명백하다. 자연은 나비에-스톡스 방정식 등의 복잡한 편미분방정식을, 말하자면 매 순간 아주 쉽게 근사적으로 푼다고 할수 있다 (방정식이 정확히 캡쳐하지 못하는 건 stochasticity로 간주될테다). 이는 근본적으로 에뮬레이션인, 컴퓨터속의 아날로그와는 다른것이다. 한편 아날로그의 큰 단점으로는 어떤 디자인을 바닥부터 원하는대로 쌓아올리거나, 요소 하나하나 값을 시시각각 컨트롤하기가 어렵다는 게 있다.


후자의 특징 때문에 생각보다 시간과 에너지가 드라마틱하게 절약되진 않을수도 있겠단 생각은 든다. 만약 기존 디지털컴퓨팅 노하우들과 시너지를 이룬 좋은 광회로가 나와서 이런 점들에서 breakthrough가 일어난다면 우리가 아는 컴퓨팅의 모습에 근본적인 도약이 생길수도 있지 않을까 한다.


Facebook에서 이 글 보기: 링크

Thursday, September 15, 2022

논문 초안을 쓰며 느낀 점: 책임있는 글쓰기를 자연스럽게 하는 법

작년 말에 연구를 마무리하고 논문으로 정리하자고 하셔서 인트로 및 부록 빼고 본문까지는 대략 써 보았었다. 그때 내가 임의로 해서 교수님께 가져간 목차를 교수님도 거의 비슷하게 구상하고 계셨어서 기분이 좋기도 했었다. 내용을 소개하는 방식이 straightforward하지만은 않은데 꽤 구체적으로 비슷했어서 신기했던 기억이다.


하지만 그 이후 약 아홉 달 동안, 기존 내용을 refine하고 추가적인 연구 내용 (efficiency at maximum power (EMP)) 을 얻느라 섭밋 계획을 한번 엎었다. 그 사이에 새로 얻은 EMP 쪽을 메인으로 해서 이번 3-4주간 거의 새로 쓰다시피 했고 연휴 직후에 교수님께 보내드렸는데, 이번엔 정말로 마무리하자는 느낌이시다.


초안을 써 보면서 여러가지 느낀 게 있다. 먼저 영문으로 이정도 분량의 글을 써 본 건 사실상 처음인 탓에 (학부 졸업논문들이랑 인문대수업 리포트들도 전부 국문으로 썼음), 내가 쓴 글임에도 글의 전모가 한 눈에 들어오진 않아서 불안감은 가지고 있다. 아마도 아카이브에 올리기 전까지 교수님께 피드백 받는 과정에서 계속 살펴보면, 좀 더 이 원고와 친해져서(?) 한 눈에 이슈들이 보이지 않을까 싶다.


사실 본문에서는 그냥 내가 연구한 내용을 잘 표현하면 되니까 좀 테크니컬한 고민들이랑 수식 입력의 귀찮음 위주로만 있었다면, 좀더 고차원적인 창작의 고통(?)은 인트로 부분에서 주로 있었다. 그런데 한편으로는, 쓰기 전에 막연하게 걱정되던, 혹은 다른 논문들 읽으면서 '와 이런걸 번거로워서 어떻게 하나' 싶어서 걱정했음에도 막상 써 보니 생각보다 자연스럽게 해결이 되는 것들도 많이 있었다.


그중 대표적인게 레퍼런스 다는 것. 다른 논문들의 레퍼런스 보면 기본 50-60개는 되는 느낌이라 처음에는 저걸 대체 어떻게 하지 싶었는데, 첫 연구를 그래도 몇년 붙잡고 있었다 보니, 정말 직접적인 참고가 되는 문헌만 정리해도 30-40개 정도로 생각보다 적지 않게 나오더라. 여기에 직접적인 방법론적 참고는 안 되더라도 연구사적 맥락에서 반드시 인용해야 하는 논문들 및 설명이 잘돼있는 리뷰 논문들을 인용하고, 20세기 초반에 쓰인 근본 논문들도 방법론 언급할 때 예우 차원(?)에서 인용하면, 50-60개는 억지스럽게 채운다는 느낌 없이도 금방이다.


그런데 우리 교수님이 원생/포닥 때 작성하신 논문들을 보면 인용을 같은 업계에 비해서 정말 무척 적게 하시는 편인듯하다 (주도적으로 쓰신 논문에서는 30개 미만 인용하신 경우가 많음). PPT 같은거 봐 주실 때도 과장된 표현이나 레토릭한 표현을 지양하시는데 이런 것과 뭔가 일관되게 느껴지기도 한다. 내게도 그런 방향으로 지도를 해주실지도 궁금하기도 하다.


다음은 유사도 문제. 워낙 조심해야 한다고 주의가 많길래 고통을 받을것으로 예상했는데 생각보다 전혀 그렇진 않았다. 아무리 본문이 아닌 선행연구조사 부분이더라도, 내가 원하는 딱 그 맥락과 뉘앙스에 exact한 문장이 다른 논문들에 많이 있는 게 아니라서, 다른 논문을 일단 긁어오자는 생각 자체가 안 들고 내가 직접 써서 다듬게 되더라. 간혹 정말로 질투날 만큼 맘에 쏙 드는 문장들도 있긴 한데, 확률상 대부분은 내가 필요로 하는 문장들이 아닌지라 그냥 기억하고 기록만 해둔다.


결국 표현하고자 하는 바가 명확하게 존재하고 그것에 대해 많이 생각을 해봤다면, 표절을 피하는 것은 내가 갖고있는 문장을 억지로 paraphrasing하는 힘든 과정이 아니라, 나쁜 마음 먹지 않는다면 나름 자연스레 이뤄지는 과정인듯 (반면에 예술창작, 특히 음악에서는 훨씬 어려울 것 같음).


우리 active matter 분야에서는 과장좀 섞어 모든 논문이 거의 똑같이 시작하는데 ("active matter는 개별 입자의 수준에서 주변으로부터 에너지를 흡수하여 운동으로 전환시키며 와글거리는 물질이다" 이 정도의 뜻), 이런 건 약간 예외적일 수도 있겠다. 다만 이런 것조차도, 다른 논문들의 문장을 직접 참고하되 표현을 바꿔 쓴다는 느낌이 아니라, 뜻의 덩어리를 머리속에 기억해두고 그걸 글에 녹여낸다는 느낌으로 하면 문제가 생기지 않게 잘 할수 있다. 만약 100년 동안 연구가 쌓인다면 정의는 그대로인데 표현의 가짓수는 한정적이니 표절문제가 생길수 있겠지만, 그때는 연구 트렌드가 달라져서 첫문장이 달라지겠지(...).


카피킬러 같은 건 아직 안 해 보았고 교수님의 피드백과 첨삭까지 마치면 해볼 예정이다. 글쓰기에 있어서는 스타일이 확고하시고 굉장히 꼼꼼하셔서 아마 많이 바뀌어서 돌아오지 않을까 생각해본다. 실제로 무척 인자하고 점잖은 분이신데, 교수님 말씀으로는 대학원생때 유일하게 짜증나셨을 때가 동료 논문 첨삭해 줄 때였다고 하신다.


그리고 연구노트 좌측여백을 사실상 영어 단어장처럼 사용하고 있다. 나는 맘에 쏙 드는 단어가 보이면 어떻게든 내것으로 만들고 싶어하는데 (이것은 페북이나 블로그에 글을 쓸때도 마찬가지임) 그러다보니 언젠가 내 글에 써먹으려고 적어두게 된다. 텝스 공부할 때도 단어 억지로 외우는걸 제일 힘들어했는데 (사실 제대로 안하고 청해/독해점수로 비볐음...), 글쓰기라는 목적이 있으니 영단어 공부도 자연스럽게 되는구나 싶다.


그리고 그런 단어들이 과연 맥락에 맞는 뜻인지를 보려면 영영사전을 찾는 게 매우 도움이 된다는 걸 알았다. 예문도 예문이지만, 뜻이 정확히 논리적으로 해설된 걸 보는 것도 생각보다 꽤 유용하다. 이를테면 내가 정의한 어떤 양을 여지껏 composite efficiency라고 이름붙이고 사용해 왔는데, 찾아보니 composite가 내가 생각하던 그런 뉘앙스와는 좀 다른 뜻이라, 영영사전을 찾아가며 comprehensive efficiency로 바꾸게 된 일이 있다 (물론 교수님께서 어떻게 판단하실진 모른다). 그리고 남의 논문 읽을 때도, 그냥 수식 따라가며 공부하는 입장이 아니라 논문을 써야되는 사람 입장에서 읽으니까 예전과 달리 어휘 같은 게 눈에 좀더 들어오는 듯.


아무튼 첫 연구는 교수님이 하사해주신 토픽이지만 내 맘에 쏙 드는 지적 방향성이었고, 그럼에도 불구하고 내가 갈피를 못잡던 시간이 길어서 연구가 늦어지다 보니 슬슬 비슷한 문제의식의 논문이 많이 나와서 연구가 처음보다는 덜 novel하게 된 느낌인데... 그 논문들이 모르고 있는 걸 내가 아는 게 아직은 꽤 남아있다고 생각은 하지만, 그래도 시간문제겠다 싶어서 초조한 기분이 많이 든다. 이젠 정말로 빨리 제출하고 다음 연구주제로 넘어가보고 싶다.


Facebook에서 이 글 보기: 링크

Tuesday, September 13, 2022

Neural style transfer를 처음 접했던 일, 그리고 컴퓨터 공부의 잘못된 방법

딥러닝을 아주 막연하게만 알다가 처음으로 그 놀라운 성능, 그리고 크리에이티브한 분야에의 응용가능성을 접한 것은 바로 style transfer 쪽에서 가장 히트쳤던 논문 중 하나인 "A neural algorithm of artistic style" 논문을 접하고서였다.

(당시 버전: arXiv 링크. 이후 CVPR 2016에 "Image style transfer using convolutional neural networks"라는 제목으로 억셉되었다. Google scholar에서는 인용수를 병합하여 집계하고있음. 해당 버전: 링크)


그 논문을 소셜미디어에서 우연히 접하고 너무 감명받아 페이스북에 글을 썼었다. 지금 보니 말투가 킹받기는(?) 하지만, 당시의 소감을 느낄 수 있다보니 재미있어서 다시 가져와본다 (해당 Facebook 게시물: 링크).


저 때 나는 패턴인식에 막연하게나마 관심이 있어서 전기과 해동 도서관에서 책 빌려서 공부하던 터였다. 그 때 공부하던 건 공간상에 빨간 점파란 점이 뿌려져 있는데 직선으로는 구분되지 않을 때 비선형함수들의 합성으로 어떻게 구분선을 그을지 등 기초적인 내용이었다. 그런데 갑자기 접한 neural style transfer는 아득히 멀게, 그야말로 마법에 가깝게 느껴졌던 것 같다 (사실 지금도 그렇다).


하여튼 저런 게 내 센트럴한 흥미를 깊이 자극했지만, 이미 너무 잘 발전해버린 바람에 내가 기술적으로 이해하고 활용할수는 절대로 없을 것 같다고 생각했었다. 그리고 그런 기분은 머신러닝 기술 발전소식을 팔로업하면서 8년째(...) 계속 느끼는중인데... 그 기간 동안 아무 때라도 좀더 용기내서 dive in 해 보았다면 좀더 여러 가지의 좋은 기회를 얻을 수 있지 않았을까 해서 아쉬움도 있다. 농담섞인 얘기지만 물리를 잘 하는 게 딥러닝에 도움 된다는걸 늘 생각했고 또한 실제로 목격해왔는데, 지금은 내 전공인 비평형 통계물리의 핵심 아이디어들까지 머신러닝 피플들이 적극적으로 익히고 있는 바람에, 통계물리 바탕으로 그쪽에 새로운 뭔가를 던질 수 있는 여지가 거의 사라지고 있는 것 같아서 말이다.

아무튼 당시에나 지금이나 컴퓨터에 워낙 친숙하지 않다보니, 저때는 소스코드 등이 다 공개되어 있으니까 그대로 가져다가 돌려 보면 된다거나 하는 것도 아예 몰랐었고 철저히 아날로그적으로 (수학이나 물리 공부하듯이) 공부했다. 그러느라 머신러닝에 쓰이는 수식들이랑 초보적인 매트랩(!?)에는 빠삭해졌지만, 파이썬 라이브러리로 직접 뭔가 만들 줄 아는 실속은 전혀 없이 시간 낭비를 많이 했던 것 같다. 컴퓨터라는 건 바닥부터 안해도 이미 있는거 따라하면서 부딪혀보면 되는거라고 옆에서 한마디라도 누가 좀 알려줬더라면...

하여튼 그 이후로 물리학이랑 미학 공부한다고 정신없느라 이쪽 공부는 안하다가 (미학을 공부하게 된 계기 중에 하나가 사실은, 딥러닝이 발전하는걸 보며 기술과 문화예술의 상호작용에 관심이 생겨서이기도 하다), 2018년 초에 원래 알던 전기과 형이랑, 의대 신입생 두명이랑 같이 굿펠로 책 스터디하면서 좀 다시 따라가게 됐던 것 같다. 그 책은 연구실 출범 초기에 교수님께서 빌려 가셨다.

Facebook에서 이 글 보기: 링크

Thursday, September 1, 2022

점점 각광받는 디퓨전 모델(diffusion model)

생성모델 분야를 매일같이 혁신하고 있는 학습 스킴인 diffusion model 쪽에서 유명한 Yang Song (Google scholar: 링크, 개인 홈페이지: 링크) 이 이번에 스탠포드 박사 졸업 하시면서 바로 칼텍 교수로 임용되신 듯하다.


이 분이랑, 스탠포드 Ganguli 그룹(홈페이지: 링크)의 여러 alumni 및 그 근처 동료 분들(S.S. Schoenholz, J. Sohl-Dickstein, J. Pennington, Jaehoon Lee 등)이, 수학 및 물리학을 바탕으로 머신러닝을 이론적으로 연구하면서 FAANG에도 걸쳐 있을 수 있는 멋진 포지션 창출의 제일 모범적이고 성공한 케이스들인 것 같다.


Ganguli 그룹에서는 디퓨전 모델은 사실 극히 일부분이고, 기존 딥러닝 이론에 물리 적용하는걸 꾸준히 다양하게 하시며, 인공지능뿐 아니라 생체 신경망의 정보 인코딩에 대한 이론적 분석 같은 것도 활발히 하시는 듯. 어째 다 스탠포드네....


나도 9월 초에 논문초안 내고 나면, 네이버웹툰 지인이랑 같이 올해 초에 디퓨전모델 스터디 하던 걸 자투리시간에 마무리 해서 블로그에 정리나 해둘 생각이다.

- diffusion model 기초: 물리학의 시야에서

- diffusion Schrödinger bridge

- Riemannian manifold에서의 diffusion model

- 미학적(?) 함의

아무튼 우리 분야로부터 강하게 inspired된 방법론인 디퓨전모델이 재작년부터 점점 뜨더니 위에 말한 스터디 그만뒀던 한 반년도 안 되는 사이에 대중적으로도 많이 알려질정도로 커다란 성공을 거둬서 기쁜마음 반 초조한마음 반임.

초조한 이유는 디퓨전모델이 워낙 각광받다 보니 이제 머신러닝 피플이 비평형통계물리 계산을 우리들보다도 잘하게 되는게 시간 문제겠다 싶어서 ㅋㅋ 현재 이론물리의 정수이자 에쎈스는 장론이랑 RG라고 생각하는데 이들도 혹시 IT 최전선에 응용돼서 빼앗기기(?) 전에 깊게 공부해서 저점매수 해 두어야겠다. 실제로 이미 응용의 시도들도 파편적으로 꽤 있고.

난 교양수준이긴 하지만 크리에이티브한 작업의 assistant로서의 머신러닝에 늘 관심이 제일 많은 편이다. 세계의 근본 요소가 아니라, 세상에서 어쩌다 생겨난 여러가지 것들에 대한 '법칙 아닌 법칙'(말하자면 패턴?)들을 경험적으로 파악해서 재조합하는 걸 전통적으로는 예술가와 그 조수들이 잘 했는데, 머신러닝이 잘 하는. 것도 딱 그런거고. 그렇게 파악된 '법칙 아닌 법칙'을 뜯어보는 것에 내가 원체 관심이 많기도 할 뿐더러, 그런것들이 역으로 각 부문별 창작활동이란 과연 무엇인지에 대해 더 깊은 이해까지 제공할수 있다고 생각함.

DALL-E 2나 Midjourney 등으로 요즘 핫한, diffusion model의 예술창작 같은 경우도 그래서 매우 맘에 든다. 그런데 이것은 결국 블랙박스 단계를 넘어 semantic 및 style을 체계적이면서도 쉽게 이해, 추출, 변경 가능해질 때에 지금보다도 더욱 커다란 비즈니스적 breakthrough가 생길것 같음. 별로 챌린징한 태스크는 아닌 것 같고 (통합적으로 예쁘게 안된다면 덕지덕지 붙여서 만들면 되니까) 돈 많이 될 테니까 아마 금세 누가 만들겠지.

Facebook에서 이 글 보기: 링크