게시물 목록

Wednesday, March 20, 2024

거대모델이 건설되는 기술사회학적 과정, 그리고 90년대의 딥러닝 역사

삼전 DS부문 경계현 사장은 박사학위를 1994년에 뉴럴 네트워크를 결합한 로봇 제어기법으로 받았다. 이러한 이력을 보고 떠오른, 그러나 이 분 자체에 대한 인물평은 전혀 아닌 몇 가지 생각들을 써 본다.


삼성전자의 인공지능 칩 개발을 리드하는 경계현 사장.



경계현 사장의 1994년도 박사학위논문 서지사항.


AI 칩 관련 기술혁신 최전선의 돌파구를 탐색하는 데 있어서, 현재와는 많이 다른 모습이었을 뉴럴 네트워크 분야에 대한 이분의 학술연구 경험이, 주로 반도체 설계와 관련해서 삼성전자 내에서 쌓은 혁신적 리더십 경험에 견줄 만큼의 구체적인 도움이 되고 있을 가능성은 사실 높지 않을 것 같긴 하다. 그럼에도 불구하고, 90년대에 인공신경망 연구를 했다는 것은 개인사적으로 재미있게 느껴지는, 개인적 소회가 어떠실지 무척 궁금해지는 지점이기는 하다.

여담이지만 나는 학사졸업연구를 전기과 내의 제어 트랙에서 다개체시스템 제어 쪽으로 했는데 (트랙이란 것은 공식적인 것은 아니고 그냥 졸업연구를 제어 연구실에서 해 보았다는 정도이다), 이것이 경계현 사장님이 졸업한 제어계측공학과의 후신 격인 테크트리라는 점에서 또 한 번의 공연한 친밀감을 형성해 본다.


다음으로, 이 박사논문이 뉴럴네트워크 중에서도 하필 로봇제어에 대한 응용이다 보니 또 다른 생각들도 떠오른다. 그 얘기를 조금 해 보자.

딥러닝 중에서도 극히 최근의 패러다임(2020년 부근에 본격화된)은 초거대 모델을 수많은 데이터로 사전학습(pre-training)시킴으로써, 밑바닥부터의 재학습 내지는 전이학습 없이도 수많은 종류의 과제를 비교적 쉽게 수행하게 한다. 이는 전통적(?) 즉 2012년경부터 2010년대 후반쯤까지의 딥러닝과도 양적, 질적으로 꽤나 구분되는 새로운 패러다임으로 본다.

이러한 패러다임에서는 인류 전체가 산발적으로 생산하고 축적해온 데이터가 급격하게 일원적으로 수집되고 통합됨으로써 거대모델 구축에 활용되는 무척 흥미로운 기술사회학적 과정이 작용한다. 이러한 과정은 이미지(text-to-image generation), 텍스트(ChatGPT 등의 거대언어모델) 등 여러 도메인에 걸쳐 순차적으로 일어나 왔다.

그런데 최근에는 로봇 제어에 필요한, (좁은 의미의)기계적 상호작용과 관련된 운동학 및 제어공학, 비디오 등과 같은 도메인의 데이터 및 메타데이터들 역시 이러한 초거대모델 구축에 사용될 수 있게 수집되어 초거대화되는 과정이 급격히 나타나고 있는 듯하다. 이를 통해, 로봇들로 하여금 언어 프롬프트 기반으로 놀랄만큼 세련되고 복합적인 동작적 과업을 수행하게 하는 연구들도 속속 소개되고 있다. 물론 그러한 동작을 실제 가능하게 하는 하드웨어의 발전이 느리다는 문제도 있으나, 그러한 제약까지 고려해서 최대한 성공적인 제어를 가능하게 하는 기술들도 등장할 것 같다.

아마 생각보다 꽤 빠른 시일 내에 ChatGPT만큼, 혹은 그 이상으로 대중을 놀라게 할 돌파구가 로봇 쪽에서 다수 소개되지 않을까 한다. 그러한 기술들의 등장을 목전에 둔 지금의 시점에서, 위와 같이 90년대에 연구된 인공 신경망 기반의 로봇제어를 다시 찾아보고 사유해 보게 되면, 귀여운 아기토끼 같으면서도 먼 고대의 조상님처럼 느껴지는 것이 우리들에게 굉장히 독특한 기분을 선사할 듯하다.

90년대 당시와 지금의 신경망 연구를 조금 더 제너럴한 센스에서 비교해 보자면 상당히 양면적인 생각이 들 때가 있는데, 일단 먼저는 '엥 그때도 이런 용어들이 있었다고?' 싶을 만큼 주요 essense는 이미 그때 다 연구되어 있었구나 싶은 때가 있다. Teacher-student framework를 다루는 아래의 통계물리학 논문 캡쳐처럼 말이다.

Teacher-Student framework를 통계물리학의 관점에서 풀이한 1999년도 논문의 첫 장.


여담이지만, GPU를 뉴럴 넷 학습에 사용한 초창기 논문 중에서도 국내 학자들에 의해 연구된 것이 있다.

인공신경망 학습에 GPU를 사용하는 방법을 제안한 2004년도 논문의 첫 장.


그러나 한편으로는 딥러닝을 실제로 tractable하게 만드는 여러 노하우 및 신기술들의 도입과 계산 성능의 발전으로 인해, 지금과 그때의 인공신경망 연구는 양적으로나 질적으로나 단절에 가까운 완전히 상이한 모습으로 변화했기도 하다.

아무쪼록 딥러닝의 발전사를 추적할 때, AlexNet 및 알파고뿐만 아니라, 자연과학과 공학 양쪽에서 나름의 성과를 축적했었던 90년대까지의 역사도 더 많이 주목받고 탐구되기를 바란다.

Facebook에서 이 글 보기: 링크

No comments:

Post a Comment