다개체 동역학 시스템(Multi-agent dynamical systems)의 관점에서, 타 개체에 대한 아주 원초적인 호불호의 감각들과 기본적인 사회적 행동의 규칙들만을 바탕으로 여러 가지 복잡다단해 보이는 social behavior들 (대표적으로 이지메 같은 것)을 재현해 낼 수 있지 않을까 하는 생각을 한 적이 있었다. 그것들이 재현된다면, 반대로 최소한의 개입으로 특정한 현상을 억제하는 external control도 개발해 볼 수 있을 것이다.
이러한 아이디어의 아주 원시적인 버전을, 2018-2 학부 시절에 수강한 최적제어이론 수업 프로젝트에서도 풀어낸 적이 있다. 그 때 내가 다룬 문제는 이지메는 아니었고, 죄수의 딜레마 (정확히는 죄수의 딜레마를 연속 시간 및 연속적인 협력도에 대해 일반화한 CAIPD라는 모형) 때문에 낮은 수준의 협력에 머무르고 있는 동역학계가 있을 때, 한 agent에만 외부 제어입력을 가함으로써 인위적으로 협력의 수준을 끌어올리는 것이었다.
협력도를 높이기 위한 최적의 제어입력을 구하는 것이 해석적으로 풀리는 문제는 아니어서, 기본적인 분석만 한 뒤에 제약된 조건에서 의사-최적 해를 수치적으로 구했다.
여기서 중요한 목표는 당연히 최종 시점의 협력도를 높게 하는 것인데, 이것을 약간 더 재미있게 하기 위해서 나는 시간에 따른 두 개체의 '협력도 차이의 누적량'을 최소화하라는 조건도 넣었다. 사실적으로 생각해 보면, 최종 협력도가 높더라도 한쪽만 협력 의사가 많고 다른 쪽은 협력 의사가 별로 없을 경우 상당히 stressful한 상황이 되고, 실제 고도의 사회적 상호작용과 목표 달성은 실패하고 있는 상황일 수 있기 때문이다.
여기에 더해서, 개체들간에 고도의 지적 판단 없이도 본능적으로 느끼고 표출하는 '차이의 감각'이 서로를 이해하거나 배제하는 핵심 기제가 되지 않을까 하는 내 오래된 직관과도 관련이 있다. 간단하지만 지금 봐도 꽤 재밌는 디자인이다.
그런데 그런 원초적인 호불호의 감각이나 다양한 감정에 해당하는 internal state를 그럴듯하게 모형화하는 것이 어렵다 보니, 이 프로젝트는 각 개체의 상태가 '협력도'라는 단 한 개의 축으로 되어 있는 지극히 간단한 모델을 이용하여 수행되었다. 게다가 더 심한 문제는, 개체에 가해 주는 외부 입력의 인간학적 해석 자체가 불명확하다는 것이다. 그냥, 이유는 모르지만 한 개체가 갑자기 협력할 의사를 갖게 될 뿐이다. 겸손하게 말하자면, 협력도를 높이라고 시켰으니 당연히 높아지는 상황 정도에 그친 것이다.
물론 기본적으로 낮은 협력도를 유지하게 만들어진 모델인데도, 한쪽만 일부러 높여 주면 다른 쪽이 같이 올라갈 수 있다는 내 관찰은 죄수의 딜레마 모델의 동역학적 특성에 대한 분석으로서 의미가 있기는 하다.
여하튼 이러한 한계의 이유는 더 말할 것도 없이 모델이 너무 단순해서이다. 그러나 이를 굳이 거창하게 말해 보자면, 내가 사용한 모델의 internal state가, 외부 입력에 의해 간접적으로만 액세스되는 인간의 감정적, 사회적 특징을 모사하지 못했고, 그 이전에 state space의 차원 (협력도라는 1차원 축) 자체도 그런 일을 절대 수행하지 못할 만큼 낮았기 때문이라고 할 수 있겠다. 그렇다 보니, 제대로 된 모델이 떠오르기 이전에는 이 주제와 관련해서 더 자세한 탐구는 하지 않게 되었었다.
생성AI 시대가 된 지금, 오랜만에 이 주제를 꺼내 보고 다시 떠오르는 게 있다. 먼저 위와 같은 감정적인 부분에 대한 internal representation을 갖고 있는 LLM agent들을, 그런 부분들 위주만으로 남겨서 경량화하거나 미세조정(fine-tuning)한다. 만약에 경량화시키는 방식 자체를 달리하거나 혹은 노이즈를 주어서 agent별로 약간의 차이를 두면, 이는 사람별 성격 차이 혹은 인지 도식의 미세한 차이에 대응될 것이다. 그리고 이러한 representation을 여러 방법으로 뜯어서 이해해 본다.
그 다음에 특정한 상황을 제시하고, 이렇게 만들어진 여러 agent들 사이에 최소한의 짧은 사회적 상호작용들과 의사소통을 하게 한다 (이런 것 자체는 이미 여러가지 있었던 것 같다). 이러한 상호작용은 그 종류에 따라 LLM으로 하여금 서로 다른 emotional, social한 representation을 시시각각 동원하게 할 것이다. 만약에 경량화를 했더니 상황에 대한 이해가 떨어지고 인간적 능력이 깎여 나가는 것이 관찰된다면, full weight를 가지면서도 최소한의 짧은 상호작용만을 하는 stylized output을 내도록 프롬프팅을 할 수도 있다.
그렇게 한 다음에 dialogue의 한 round보다 훨씬 긴 시간 동안 관찰을 하면, LLM이라고 특별한 취급을 할 것 없이, 정해진 weight 값과 약간의 stochasticity를 바탕으로 서로 신호를 주고받는 어떠한 연속시간 동역학계라고 간주할 수 있다. 물론 LLM인 만큼 굉장히 차원이 크겠지만, 로컬에서 inference할 수 있게 경량화된 LLM 같은 것도 있다고 하니 비용 면에서 아주 불가능한 수준의 일은 아닐 것 같다.
이러한 상황에서, 주어진 설정과 외부 환경 하에서 각 개체별 차이에 의해 어떤 social behavior들이 창발하는지, 각 개체들이 어떠한 역할에 놓이게 되는지 관찰해보고, 그러한 현상들이 각 LLM agent들의 고차원 internal representation에 비추어 볼 때 어떠한 인간학적 해석을 갖는지까지 뜯어본다면, 서두에서 언급한 내 오래된 상상을 조금 더 구체적으로 다룰 수 있지 않을까 한다.
이런 작업의 결과가 실제 사회학이나 심리학 같은 게 될 수는 없겠지만, 통계물리에서도 일부 진행하고 있는, 협력, 진화, 생태 등에서 영감을 받아서 단순화한 모형을 다루는 비선형 동역학 연구에는 포함될 수 있지 않을까 한다. 거대 딥러닝 모델이 자신에게 주어진 loss를 minimize하기 위해 알아서 형성해주는 고차원의 internal representation들을, 우리가 그냥 주어진 고정된 물체처럼 생각하고(?) 다방면으로 꺼내서 쓰면서 또다른 연구들에도 활용할 수 있는 것이다.
Facebook에서 이 글 보기: 링크