게시물 목록

Tuesday, December 7, 2021

최신의 text-to-image generation 모델들: archetype에 대한 창의적 재조합자의 출현

 페친분들이 올리셔서 알게된 https://app.wombo.art 라는 사이트에서 text-to-image generation을 직접 해 볼 수 있다. 아무 문장이나 넣으면 상응하는 그림을 그려 주는데 창의적이라고 느껴질 정도로 무척 잘 해 준다. 지금까지 봤던 여러 신기한 AI 필터들이나 GauGAN 같은 것들에 비해서도 격이 다른듯...


그리고 진짜 이게 될까 싶은것도 척척 알아듣고 그려주는데, 기존에 학습된 오브젝트들만으로 하는게 아니라 즉석에서 구글링을 해서 뭔지 찾아내는 방식인 것 같음. 그것들을 가지고 기존에 없던 조합들까지 잘 표현해 준다는 것도 강점이고.


몇가지 잘된 예시들을 첨부한다 (하단 Facebook 게시물 링크). 대응되는 지시문은 각 사진 하단에 써 있다.


그런 면에서, 사람들이 인터넷상에 형성해 놓은 어떤 대상이나 개념에 대한 공통적 archetype을 얘가 뽑아낸 뒤에 재조합해 준다고 생각할 수도 있을 듯. 이런 게 있으면 좋겠다고 늘 생각했는데 기대 이상의 퀄리티로 실현된 기분임.


뭔가 상황을 표현하고 싶은데 방법이 떠오르지 않을 때 얘한테 시켜 보고 아이디어를 얻는다거나 할 수도 있을 것. 그 전에 이걸로 이것저것 해보는 것 그 자체가 재밌기도 하고... 다만 해보실 분들이 주의할 점은 사람과 관련된 건 주로 징그럽거나 선정적으로 되는 경우가 많아서 비위가 상할 수 있음. 첨부한 결과들도 사람에 따라 징그러울수 있긴 하다.

인공지능이 이미 여러 분야에서 활용되고 있지만 개인적으로 크리에이티브한 작업의 조수로서의 머신러닝에 특별히 많은 흥미와 기대를 갖고 있는데, 이런 방향으로 재밌는게 더 많이 나왔으면 좋겠다.

(+ 2022.05.28 내용추가: 그리고 요즈음은 diffusion model의 급격한 발전으로 이것보다 훨씬 선명한 이미지들도 만들어내기 시작했다 (물론 모델 크기와 학습 시간의 이슈도 당연히 있을 것이다). state-of-the-art에서 디퓨전 모델이 줄세우기를 하고 있는데 내 전공분야인 통계물리학에서 비롯된 모형이 머신러닝 커뮤니티에서 최전선에 쓰인다는 것이 놀랍고 신기하다.)

Facebook에서 이 글 보기: 링크

No comments:

Post a Comment