기술의 세부에 대해서는 잘 모른채로 그냥 상상해 보는 것인데, ChatGPT를 비롯한 거대언어모델(Large Language Model, LLM)의 특성을 얘기하기 위해 프롬프트를 넣어서 조사를 할 때, stylized output을 줄 수 있는 LLM의 높은 capacity를 고려하여 실험 디자인과 그에 대한 해석에 상당한 주의를 기울여야 할 것 같다.
LLM을 가지고 놀다 보면 자기 자신의 특성 및 설계원리를 근본적으로(?) 드러내어 주는 것처럼 보이는 출력을 내는 경우가 있다. 자기 자신이 ai로서 어떠한 특징을 갖게 설계되었다는 명시적 응답은, 개발자들의 의도에 맞게 하드코딩되거나 RLHF되었을 수 있다는 생각을 사용자들이 쉽게 할 수 있으므로 오히려 비교적 덜 속아넘어갈 수 있다. 그것보다는, 우연성에 강하게 의존하는 작업을 시킬 때 LLM 자신도 모르게 그런 설계원리를 드러내어 버린 것처럼 보이는 경우가 특히 더 미묘하다.
그런데 여기서 생각해야 할 점은, 그렇게 accidental하게 설계원리를 드러낸 것처럼 보이는 사례들조차 대부분 stylized output, 즉 매 dialogue마다 다르게 일종의 '컨셉을 잡은' 연기에 불과할 수도 있다는 점이다. 즉 LLM이 제로샷 능력(더 구체적으로는 in-context learning 능력)에 힘입어 여러가지 처음 보는 과제 및 잘 정의되지 않은 과제를 수행하는 워낙 높은 capacity를 가진 탓에, 어떤 단일 dialogue만 보면서 그것이 다른 dialogue에 비해 더 근본적으로, LLM에 내재된 중요한 특성 탓에 광범위하게 나오는 결과라고 함부로 결론내릴 수 없는 듯하다.
세심하고 반복적인 프롬프팅을 통해 LLM이 가진 경향성을 탐색하고 성능을 최대로 이끌어내는 작업은 중요하고 흥미롭다. 그러나 실험자가 무엇을 보려고 의도해서 그것을 실제로 보았을 때, 단순히 그 담화 내에서의 연기에 속아넘어가는 게 아니라 LLM의 아주 일관적인 특성을 드러내었음을, 즉 소위 말해서 학술지식으로서 가치가 있는 '논문감'임을 입증하려면 실험 디자인과 해석을 굉장히 잘 해야 하는것 같다.
사실은, 본질(?)이 아닌 연기임에도 아무튼 그러한 연기를 이끌어내는 체계적인 프롬프팅 방법이 존재하고, 그로 인해 좋은 성능이 나온다면 이 역시 의미있는 결과가 되기도 할 것이다. 그 두 가지를 구별하기도 어렵다. 예컨대 특정 프롬프팅을 통해 LLM이 SAT 시험 문제를 훨씬 잘 풀게 되었다고 하면 (실제로 이와 비슷한 결과들이 굉장히 많다), 이것은 stylized된 연기라고 하더라도 아무튼 그 시험을 실제로 잘 풀게 된 것이며, LLM은 분명히 그런 능력을 가지고 있다고 말할 수 있을테다. 이는 의미있는 지식이 된다.
한편, 뭔가 도식이 한 군데 잘못되어 있어서, 일관적인 이상한 방식으로 시험문제를 틀리는 dialogue도 존재할 수 있을테다. 이런 컨셉을 수행하는 능력 역시, 설계 원리상으로 보면 어떤 failure라기보다는, 위 문단에서 서술한 시험문제를 잘 푸는 dialogue와 비교했을 때 꼭 그것과 같은 만큼 'LLM이 가지고 있는 능력'이라고 봐야 되지 않을까 하는 것이다.
때에 따라 매번 다르게 수많은 컨셉을 잡고 얘기를 할 수 있는데 (혹은 언제나 그렇게만 할 뿐인데), 그 컨셉이라는 것에 실제 전문적인 수준의 퍼포먼스를 발휘해 주는 것까지 포함이 되어 버리다 보니 LLM이 우리의 직관을 벗어나는 점이 많은 것 같다.
또한 유명한 ChatGPT 탈옥 방법으로 'pretend that you are a~' 따위의 프롬프팅을 통해서 부적절하고 위험한 결과를 내는 게 있는데, 이때 사용자는 겉으로 안 보이게 안에 숨겨져 있는 어떠한 능력을 uncover했다는 느낌을 받게 된다.