게시물 목록

Wednesday, May 24, 2023

프롬프팅을 통한 거대언어모델 설계원리 탐구에서 실험디자인과 해석의 중요성

기술의 세부에 대해서는 잘 모른채로 그냥 상상해 보는 것인데, ChatGPT를 비롯한 거대언어모델(Large Language Model, LLM)의 특성을 얘기하기 위해 프롬프트를 넣어서 조사를 할 때, stylized output을 줄 수 있는 LLM의 높은 capacity를 고려하여 실험 디자인과 그에 대한 해석에 상당한 주의를 기울여야 할 것 같다.


LLM을 가지고 놀다 보면 자기 자신의 특성 및 설계원리를 근본적으로(?) 드러내어 주는 것처럼 보이는 출력을 내는 경우가 있다. 자기 자신이 ai로서 어떠한 특징을 갖게 설계되었다는 명시적 응답은, 개발자들의 의도에 맞게 하드코딩되거나 RLHF되었을 수 있다는 생각을 사용자들이 쉽게 할 수 있으므로 오히려 비교적 덜 속아넘어갈 수 있다. 그것보다는, 우연성에 강하게 의존하는 작업을 시킬 때 LLM 자신도 모르게 그런 설계원리를 드러내어 버린 것처럼 보이는 경우가 특히 더 미묘하다.


그런데 여기서 생각해야 할 점은, 그렇게 accidental하게 설계원리를 드러낸 것처럼 보이는 사례들조차 대부분 stylized output, 즉 매 dialogue마다 다르게 일종의 '컨셉을 잡은' 연기에 불과할 수도 있다는 점이다. 즉 LLM이 제로샷 능력(더 구체적으로는 in-context learning 능력)에 힘입어 여러가지 처음 보는 과제 및 잘 정의되지 않은 과제를 수행하는 워낙 높은 capacity를 가진 탓에, 어떤 단일 dialogue만 보면서 그것이 다른 dialogue에 비해 더 근본적으로, LLM에 내재된 중요한 특성 탓에 광범위하게 나오는 결과라고 함부로 결론내릴 수 없는 듯하다.


세심하고 반복적인 프롬프팅을 통해 LLM이 가진 경향성을 탐색하고 성능을 최대로 이끌어내는 작업은 중요하고 흥미롭다. 그러나 실험자가 무엇을 보려고 의도해서 그것을 실제로 보았을 때, 단순히 그 담화 내에서의 연기에 속아넘어가는 게 아니라 LLM의 아주 일관적인 특성을 드러내었음을, 즉 소위 말해서 학술지식으로서 가치가 있는 '논문감'임을 입증하려면 실험 디자인과 해석을 굉장히 잘 해야 하는것 같다.


사실은, 본질(?)이 아닌 연기임에도 아무튼 그러한 연기를 이끌어내는 체계적인 프롬프팅 방법이 존재하고, 그로 인해 좋은 성능이 나온다면 이 역시 의미있는 결과가 되기도 할 것이다. 그 두 가지를 구별하기도 어렵다. 예컨대 특정 프롬프팅을 통해 LLM이 SAT 시험 문제를 훨씬 잘 풀게 되었다고 하면 (실제로 이와 비슷한 결과들이 굉장히 많다), 이것은 stylized된 연기라고 하더라도 아무튼 그 시험을 실제로 잘 풀게 된 것이며, LLM은 분명히 그런 능력을 가지고 있다고 말할 수 있을테다. 이는 의미있는 지식이 된다.


한편, 뭔가 도식이 한 군데 잘못되어 있어서, 일관적인 이상한 방식으로 시험문제를 틀리는 dialogue도 존재할 수 있을테다. 이런 컨셉을 수행하는 능력 역시, 설계 원리상으로 보면 어떤 failure라기보다는, 위 문단에서 서술한 시험문제를 잘 푸는 dialogue와 비교했을 때 꼭 그것과 같은 만큼 'LLM이 가지고 있는 능력'이라고 봐야 되지 않을까 하는 것이다.

때에 따라 매번 다르게 수많은 컨셉을 잡고 얘기를 할 수 있는데 (혹은 언제나 그렇게만 할 뿐인데), 그 컨셉이라는 것에 실제 전문적인 수준의 퍼포먼스를 발휘해 주는 것까지 포함이 되어 버리다 보니 LLM이 우리의 직관을 벗어나는 점이 많은 것 같다.


또한 유명한 ChatGPT 탈옥 방법으로 'pretend that you are a~' 따위의 프롬프팅을 통해서 부적절하고 위험한 결과를 내는 게 있는데, 이때 사용자는 겉으로 안 보이게 안에 숨겨져 있는 어떠한 능력을 uncover했다는 느낌을 받게 된다.

그러나 사실은 그냥 LLM에는 구조상 '겉면밖에 없고', 때에 따라 완전히 다른 겉면들을 보여주며, 그것들 중에 RLHF를 통해 금지해 둔 한 가지를 우회적으로 본 것일 뿐이라는 게 좀더 적절한 이해일 수도 있을 것 같다. 이런 점에서 흔히 아이폰 같은 데서 얘기하는 탈옥과는 많이 다른 듯하다.
물론 by design 그렇다는 것이지, 능력의 어떠한 계층 구조가 자연스레 emerge했을 수는 있고, 그런 걸 탐색하는 것도 정말 재밌는 작업일 것이다.

아무튼 생명과학, 심리학 등 복잡한 대상을 다루는 실험과학 분야에서도 과연 연구자가 원하는 그 효과를 제대로 보고있는게 맞는지를 확신하기 위해 실험 디자인에 굉장히 공을 들이는 것으로 알고 있는데, LLM을 대상으로 한 실험들에서도 비슷한 면모가 있는 듯하다.
특히 LLM의 경우 시험문제 고득점 하는것처럼 명확한 척도가 있는경우도 있겠지만, 여러 가능성이 열려 있는 창의적인 과제에 대한 수행능력을 평가할때 일률적 정량화가 곤란한 semantic한 층위가 전면에 들어오다보니 더 미묘한 면이 있는 것 같다. 연구문제 설정과 실험 디자인에 있어 생각을 아주 정밀하게 해야지만 믿을 만한 지식으로 정리가 될 듯하다.
아무튼 방대한 데이터와 심원한 아키텍쳐로부터 오는 LLM의 과제 수행능력이, 단순히 답을 잘 주는 걸 넘어 다양한 부문의 대화를 수행하는 데 이르는 것을 보면 굉장히 기분이 묘하다. 마치 사람이 직업상 아주 틀에 박힌 말을 할 수도 있지만 동시에 사적인 자리에서는 개인으로서 여러가지 입체적 면모를 가지고 말을 할 수도 있는 그런 느낌이 들기도 한다. 이는 수많은 종류의 텍스트를 학습한 덕분일 것이다.
이러한 LLM은 성능이야 무척 좋지만 결국은 과제별로 따로따로 학습해야 하는 전통적인(?) 딥러닝에 비해서도, 양적, 질적, 개념적으로 한 차례 도약해 있는 패러다임이라고 생각이 든다.

물론 서두에 말했듯 개인적으로 이쪽에 대해 주워듣고 내 마음대로 생각해 본 것들은 있지만, 제대로 된 전문적 이해는 없는 관계로 이 모든 내용은 상상에 불과하며, LLM을 평가하고 이해하기 위한 더 좋은 방법과 개념적 틀들이 이미 있을 존재할 것이다. 이들을 기회가 될 때마다 잘 팔로우업해 보고자 한다.

Facebook에서 이 글 보기: 링크

No comments:

Post a Comment