‘챗GPT’의 네이티브 이미지 생성을 가능케 한 ‘트랜스퓨전’ 아키텍처란

168

큰 화제를 일으킨 ‘챗GPT’의 네이티브 이미지 생성 기능이 메타가 지난해 9월 공개한 ‘트랜스퓨전(transfusion)’ 논문 기반인 것으로 알려졌다. 그러나 오픈AI는 여기에 세부 기술을 추가, 훨씬 뛰어난 모델로 업그레이드했다는 분석이다.

마크테크포스트는 6일(현지시간) 오픈AI가 ‘GPT-4o’에 적용한 트랜스퓨전 기술을 세부적으로 분석했다. 이는 ‘달리’와 같은 외부 이미지 생성 모델을 이용하는 것이 아니라, GPT-4o 내부에 이미지 생성 기능을 직접 통합한 방식으로 주목받았다.

트랜스퓨전은 메타가 가장 먼저 공개한 기술이다. 단어나 토큰과 같은 불연속적인 ‘이산(discrete) 데이터’와 이미지의 픽셀과 같은 ‘연속(continuous) 데이터’를 모두 처리할 수 있는 트랜스포머 기반 아키텍처다.

즉, 연속 확산 기반 이미지 생성기를 변환기의 시퀀스 모델링 프레임워크에 직접 통합한다. 텍스트와 이미지를 혼합해 단일 트랜스포머 모델(디코더 전용)에 적용하는 것이다. 이때 텍스트 토큰은 다음 토큰 예측 손실을 사용하며, 이미지 토큰은 노이즈 제거가 목적인 확산 손실을 사용한다.

특히 메타는 이를 적용한 ‘카멜레온’이라는 멀티모달 모델을 먼저 공개한 바 있다. 

기존 LMM은 다양한 양식이 입력되면 이를 텍스트나 이미지를 처리하는 개별 모델로 인코딩한 뒤 추론을 위해 인코딩을 융합하는 ‘후기 융합(late fusion)’ 방식을 사용한다. 반면, 카멜레온은 처음부터 단일 모델에서 이미지, 텍스트, 코드 등 다중 양식이 혼합된 데이터로 훈련하는 ‘초기 융합(early-fusion)’ 방식을 사용한다. 

다만, 이미지를 이산 토큰 시퀀스로 변환하면 일부 세부 정보가 사라지며 이미지의 품질을 보장할 수 없다는 단점이 생긴다. 또 이미지 충실도를 유지하려면 이미지를 수백개 이상의 토큰으로 분리, 생성 속도가 느려지고 학습 비용이 많이 들어간다.

이 때문에 메타는 당시 카멜레온을 별도로 출시하지는 않았다. 

트랜스퓨전 모델 개요도 (사진=arXiv)
트랜스퓨전 모델 개요도 (사진=arXiv)

따라서 오픈AI는 기존 트랜스퓨전의 단점을 상쇄할 기술을 더했다.

우선 이미지 콘텐츠가 등장한다는 것을 알리는 ‘BOI(Begin-of-Image)’ 토큰과 이미지 콘텐츠가 끝났다는 것을 나타내는 ‘EOI(End-of-Image)’ 토큰을 사용했다. 이를 통해 모델이 텍스트는 텍스트대로, 이미지는 이미지대로 처리한다는 설명이다.
 
또 이미지를 인코딩한 다음, 토큰이 아닌 벡터로 표현해 일시적인 벡터 공간에서 처리하도록 했다. 이런 패치 벡터는 입력 공간으로 전달, U-Net 업/다운 블록이라는 인코더를 통해 최소 16개의 잠재 패치로 압축했다. 패치가 적을수록 시퀀스가 ​​짧아지고 생성이 더 빨라진다. 최적화된 7B 크기의 트랜스퓨전 모델은 평균 22개의 잠재 패치 벡터로 구성됐다.

이렇게 만들어진 이미지 데이터는 노이즈 제거를 위한 확산에 통합하고, 이어 추론에 적용됐다.

즉, GPT-4o는 텍스트 토큰을 생성하는 경우에는 평소와 같은 프로세스를 사용한다. 그러나 BOI 토큰은 이미지로 구분, 확산 디코딩으로 처리한 뒤 나중에 추론에 적용된다. 이처럼 별도의 벡터 공간에서 확산 프로세스를 거친 이미지는 일반적으로 품질이 높아지고 일관성이 생긴다는 설명이다.

BOI와 EOI 개요 (사진=arXiv)
BOI와 EOI 개요 (사진=arXiv)

언어모델의 지식과 추론 능력이 이미지 생성에 직접적인 영향을 미치는 방식으로 이미지 생성의 품질을 높일 수 있다는 말이다. 챗GPT의 이미지에 포함된 텍스트, 즉 타이포그래피가 이전과는 달리 완벽하게 구현되는 것도 이 때문이다.

또 트랜스퓨전의 연속 패치 확산 방식은 기존 트랜스포머에서 일어나는 병목 현상을 제거, 더 많은 정보를 유지하고 더 높은 충실도의 출력을 생성한다.

실제로 이미지 속 오브젝트의 충실도를 측정하는 ‘MS-COCO’ 벤치마크에서 7.3B 매개변수 트랜스퓨전 모델은 카멜레온보다 더 나은 이미지-텍스트 정렬 결과를 보였다.

또 이미지를 최소 16~20개의 패치로 압축할 수 있는 능력으로 인해 카멜레온과 비슷한 수준의 이미지를 생성하는 데 컴퓨팅의 약 22%만 사용했다. 언어 처리에 들어간 컴퓨팅도 카멜레온의 약 절반만 필요했다.

대신, 트랜스퓨전은 여러 단계를 거치는 까닭에 이미지 생성 속도가 느려진다. 또 기본이 되는 트랜스포머는 이중 작업을 수행하기 때문에 학습 복잡성이 증가한다.

하지만 기존 멀티모달모델(LMM)들이 외부 이미지 모델을 연결하는 방식에 비해 효율적이며, 앞으로 개선을 통해 발전 가능성이 크다는 분석이다.

특히 오픈AI의 방식은 기존 카멜레온보다 발전한 트랜스퓨전 방식으로, 앞으로 기술 개선과 효율적인 모델 훈련 등을 통해 좀 더 성능이 향상할 것으로 예측됐다.

한편, 오픈AI는 개발자들이 GPT‑4o로 이미지를 생성할 수 있도록 몇주 안에 API를 출시할 예정이라고 밝혔다.

임대준 기자 ydj@aitimes.com

+1
0
+1
0
+1
0
+1
0
+1
0