인간 동작 생성·편집하는 AI 모델 등장…”애니메이션·게임 제작 혁신 예고”

169

사실적인 인간 동작을 자동으로 생성하고 수정할 수 있는 새로운 인공지능(AI) 모델이 개발됐다. 이 기술은 애니메이션 제작자, 게임 개발자, 영상 콘텐츠 제작자에게 유용한 도구로 활용될 전망이다.

베이징대학교 연구진은 최근 인간 캐릭터 혹은 아바타의 사실적인 움직임을 간편하게 생성할 수 있는 새로운 AI 모델을 개발, ‘CVPR 2025’에서 논문을 발표했다. 논문 제목은 ‘다양한 동작 편집을 위한 동적인 모션 블렌딩(Dynamic Motion Blending for Versatile Motion Editing)‘이다.

이들이 제안한 인간 동작 생성 방식은 모션컷믹스(MotionCutMix)라는 데이터 증강 기법과 모션리핏(MotionReFit)이라는 확산 모델을 기반으로 한다. 지금까지 인간의 동작을 ‘처음부터 생성’하는 기술은 많은 발전을 이뤘지만, 이미 존재하는 동작을 자연스럽게 편집하는 기술은 드물었다.

상당수 영상 제작자나 게임 개발자, 애니메이션 제작자 등은 콘텐츠를 새로 만들기보다는 기존 자료를 참고해 수정·보완하는 방식으로 작업을 진행하는 것으로 알려졌다. 그러나 기존 AI 시스템 대부분은 이런 편집 기능을 지원하는 경우가 거의 없다.

또 일부 동작 편집 시스템들은 ‘원본 동작’과 ‘편집된 동작’, ‘편집 지시문’이라는 세가지 요소가 모두 포함된 데이터셋이 필요했는데, 이런 데이터는 많지도 안고 제작비도 비싸다.

이에 따라 연구진은 사용자가 텍스트로 지시를 입력하기만 하면, 특정 신체 부위를 지정하지 않아도 인간의 모든 동작을 편집할 수 있는 시스템을 개발하는 것을 목표로 했다. 이 시스템은 특정 부위에만 변화를 주는 공간적 편집(spatial editing)과 동작의 흐름이나 시간상 변화를 반영하는 시간적 편집(temporal editing)을 모두 지원한다.

모션컷믹스는 이러한 목표를 달성하기 위해 고안된 학습 기법으로, 3D 인간 동작을 텍스트 지시를 기반으로 학습하고 편집할 수 있도록 AI를 훈련한다. 요리사가 다양한 재료를 섞어 새로운 요리를 만들듯, 모션컷믹스는 서로 다른 동작 시퀀스에서 특정 신체 부위를 추출하고 조합해 다양한 훈련 샘플을 만든다.

한 동작의 팔 움직임과 다른 동작의 몸통을 결합할 때, 두 부위가 자연스럽게 연결되도록 경계 영역을 부드럽게 혼합해 부드러운 움직임을 구현하는 식이다. 이렇게 생성된 각각의 동작 샘플은 ‘원본 동작’, ‘편집된 동작’, ‘편집 설명’으로 구분돼 새로운 학습 데이터가 된다.

또 기존 인간 동작 생성 모델은 보통 주석이 달린 영상 데이터셋에 한정됐지만, 모션컷믹스는 주석 없이도 다양한 훈련 샘플을 실시간 생성할 수 있어 방대한 모션 라이브러리를 자유롭게 활용할 수 있다. 

이 프레임워크는 단순히 ‘어떤 동작을 하느냐’뿐만 아니라 ‘어떻게 하느냐’와 같은 스타일 요소까지 편집할 수 있어 훨씬 정교한 창작이 가능하다. 모션컷믹스는 소수의 주석 예시만으로도 수백만개의 훈련 변형을 생성할 수 있으며, 학습 속도에도 큰 영향을 주지 않는다.

모션컷믹스가 다양한 학습 샘플을 생성하는 데이터 증강 기법이라면, 모션리핏은 이를 기반으로 인간 동작을 실제로 생성하고 수정하는 오토리그레시브(autogressive) 확산 모델이다.

모션리핏 (사진=arXiv)
모션리핏 (사진=arXiv)

모션리핏은 사용자가 텍스트로 원하는 동작 변화를 입력하면, 지시에 따라 인간 동작 시퀀스를 정밀하게 편집할 수 있다. 기존 모델들과 달리, 이 시스템은 공간적·시간적 편집을 모두 지원하면서도 사용자로부터 부가적인 정보나 명확한 신체 부위 지정 없이 작동한다.

핵심은 텍스트 지시와 원본 동작을 기반으로 세그먼트 단위로 처리하는 조건부 확산 모델이다. 이를 통해 동작 편집 시에도 신체 부위 간 자연스러운 연결과 조화를 유지하며, 공간적·시간적 전환도 매끄럽게 이어진다.

연구진의 실험 결과에 따르면, 모션컷믹스를 통해 다양한 동작 조합을 학습할수록 모션리핏의 동작 품질도 높아지는 것으로 나타났다. 모든 모델 변형은 약 80만 스텝 이내에서 수렴, 컴퓨팅 부담도 크지 않다는 것이 확인됐다.

연구진은 “이번 결과로 모션컷믹스는 고질적인 편집 데이터 부족 문제를 극복하고, 기존 동작 데이터를 활용해 사실상 무한에 가까운 학습 데이터를 생성할 수 있는 효과적인 해법이라는 점을 입증한다”라고 밝혔다.

향후 이 프레임워크는 사람이나 휴머노이드 캐릭터가 포함된 다양한 콘텐츠의 생성과 편집에 활용될 수 있으며, 특히 애니메이션 제작자, 게임 개발자, 영상 콘텐츠 제작자에게 유용한 도구가 될 것으로 기대된다.

또 텍스트 기반 인터페이스를 사용하기 때문에, 게임이나 애니메이션 제작 경험이 없는 일반 사용자도 사용할 수 있다. 연구진은 이 기술이 로봇공학 분야로 확장, 서비스 로봇의 움직임 개선에도 응용될 수 있다고 내다봤다.

현재 깃허브에서 관련 코드를 사용할 수 있다.

박찬 기자 cpark@aitimes.com

+1
0
+1
0
+1
0
+1
0
+1
0