혼자 찍은 프사로 단체샷 ‘뚝딱’…SKT의 신기술

18

SK텔레콤이 프로필 사진 입력만으로 인공지능(AI)이 알아서 다양한 배경과 포즈의 단체사진을 만들어주는 이미지 생성 기술을 개발했다. 회사는 기존 AI가 갖는 인물 인식 성능의 한계를 넘어선 이 기술을 AI 개인비서 ‘에이닷’을 포함한 다양한 서비스 고도화에 활용할 계획이다.

혼자 찍은 프사로 단체샷 '뚝딱'…SKT의 신기술
SK텔레콤 연구진이 개발한 다중 신원 이미지 생성 모델 ‘인스턴트 패밀리’로 만든 단체사진. 일론 머스크 등 빅테크 인사 7명의 프로필 사진과 이들이 화성에서 찍은 단체사진이라는 명령어를 입력하면 AI가 결과물을 만들어낸다. 아카이브 논문 캡처

14일 정보기술(IT) 업계에 따르면 SK텔레콤 연구진은 여러 인물의 신원(ID)을 비교적 정확히 보존하고 이를 통해 이용자가 입력한 텍스트 명령어를 단체사진으로 구현하는 새로운 이미지 생성 모델 ‘인스턴트 패밀리’를 사전논문 공개 사이트 ‘아카이브’에 최근 공개했다. 아카이브는 동료평가를 거쳐 학술지에 정식 논문으로 게재되기 전에 연구자들이 연구성과를 소개하는 곳이다.

논문은 일론 머스크, 마크 저커버그, 샘 올트먼, 제프 베이조스, 얀 르쿤, 순다르 피차이, 젠슨 황 등 오늘날 AI 산업을 선도하는 빅테크 인사 7명이 우주복을 입고 화성에서 찍은 단체사진으로 표지를 장식했다. 7명의 개인 프로필 사진과 ‘이들이 화성에서 찍은 사진’이라는 명령어를 인스턴트 패밀리에 입력해 얻은 결과물이다. 단체사진 속 인물들은 각자 프로필 사진 원본과 다른 구도를 갖는데도 비교적 왜곡 없이 정확한 모습으로 구현됐다.

논문에 따르면 인스턴트 패밀리는 기존 이미지 생성 모델들과 비교해 여러 인물들의 얼굴 생김새 같은 특징, 즉 신원을 개인별로 정확히 구분해 묘사하는 신원 보존 성능이 최고 수준으로 평가됐다. 생성형 AI가 인물 사진을 학습한 후 기존에 없던 가상의 이미지를 만들어내는 기술은 이미 존재하지만 단체사진 생성 기술은 아직 불완전하다는 게 연구진의 설명이다. 하나의 이미지에 여러 신원이 들어가면 AI가 이것들을 정확히 구분하지 못하고 서로 뒤섞는 ‘신원 혼합’ 같은 문제가 생겨 결과가 왜곡된다는 것이다.

혼자 찍은 프사로 단체샷 '뚝딱'…SKT의 신기술
SK텔레콤 연구진의 ‘인스턴트 패밀리’가 만든 이미지의 완성도를 경쟁 이미지 생성 모델들과 비교한 결과. 아카이브 논문 캡처

연구진은 인스턴트 패밀리의 신원 보존 성능을 기존 선도 모델로 평가받는 ‘IP어댑터’, ‘패스트컴포저’와 비교했다. 두 인물이 해변에 있거나 경찰복을 입은 이미지를 만들어달라는 명령에 IP어댑터는 인물의 턱선을 왜곡했고 패스트컴포저는 경찰복을 제대로 구현하지 못했지만 인스턴트 패밀리는 비교적 그럴싸한 결과물을 생성했다. 성능을 수치화한 정량 지표도 기존 모델보다 높았다.

연구진은 정석근 SK텔레콤 부사장이 이끄는 글로벌AI·테크사업부 소속으로 에이닷 등 AI 개발에 참여 중인 것으로 알려졌다. 이들의 관련 연구성과는 향후 회사의 서비스 고도화에 반영될 것으로 보인다. SK텔레콤은 자체 대형언어모델(LLM) ‘에이닷엑스’를 기반으로 챗봇과 통화 요약·통역 등을 지원하는 에이닷을 서비스 중이다. 연구성과와 관련한 이미지 생성 기능으로는 사진을 편집해주고 프로필을 만들어주는 ‘에이닷 포토’가 있다.

+1
0
+1
0
+1
0
+1
0
+1
0