[지금은 과학] 뉴로모픽 컴퓨팅의 새 지평 열렸다

127

[아이뉴스24 최상국 기자] KAIST 연구진이 PC나 휴대폰 등 단말기에서 거대언어모델(LLM)을 구동할 수 있는 ‘온디바이스 인공지능 반도체’를 선보였다.

가로4.5mm 세로 4.5mm 크기의 칩 하나로 구현된 이 반도체는 GPT-2 급의 거대 언어 모델을 돌리는 데 필요한 전력이 400mW에 불과해 향후 고성능 서버와 연결하지 않고도 단말기에서 인공지능 시스템을 구현하는 ‘온디바이스(On Device) AI’ 시대를 더욱 앞당길 수 있을 것으로 기대된다.

연구진은 이 칩의 성능이 현재 인공지능 반도체 시장을 주도하고 있는 엔비디아의 A100 GPU와 비교하면 소모전력은 625배, 칩 면적은 41배 작은 수준이라고 설명했다.

유회준 KAIST 교수(가운데)와 김상엽 박사(왼쪽)가 6일 과학기술정보통신부 브리핑실에서 초저전력 뉴로모픽 인공지능 반도체에 대해 설명하고 있다. [사진=과기정통부]

6일 유회준 KAIST 교수((PIM반도체 연구센터 및 인공지능반도체 대학원장) 연구팀은 400밀리와트 초저전력을 소모하면서 0.4초 초고속으로 거대 언어 모델을 처리할 수 있는 인공지능 반도체인 ‘상보형-트랜스포머(Complementary-Transformer)’를 삼성 28나노 공정을 통해 세계 최초로 개발했다고 발표했다.

‘상보형 트랜스포머’는 스파이킹 뉴럴 네트워크(SNN)과 심층 인공신경망(DNN)의 장점을 결합해 상보적으로 트랜스포머 기능을 구현한 반도체라는 뜻이다. ‘트랜스포머’는 거대언어모델의 대명사 격인 GPT의 T에 해당하는 기술이다.

AI 반도체 발전 방향 [사진=과기정통부]

GPT 같은 거대언어모델을 구동하려면 다량의 GPU와 많은 전력이 소모된다. 오픈AI의 초기 모델로 매개변수 7억개 수준의 GPT-2 거대(Large) 모델만 해도 최소 250와트의 전력이 필요하다.

KAIST 연구팀은 이를 4.5mm x 4.5mm의 작은 한 개의 AI 반도체 칩 상에서 400밀리와트라는 초저전력으로 구현하는 것에 성공했다. 특히 인간 뇌의 동작을 모사하는 뉴로모픽 컴퓨팅(Neuromorphic Computing) 기술, 즉 스파이킹 뉴럴 네트워크(Spiking Neutral Network, SNN)을 활용해 트랜스포머 동작을 구현했다.

기존 뉴로모픽 컴퓨팅 기술은 합성곱신경망(Convolutional Neural Network, CNN) 같은 심층인공신경망에 비해 부정확하며 주로 간단한 이미지 분류 작업만 가능했다. 연구팀은 뉴로모픽 컴퓨팅 기술의 정확도를 CNN과 동일 수준으로, 단순 이미지 분류를 넘어 다양한 응용 분야에 적용할 수 있도록 끌어올렸다.

스파이킹 뉴럴 네트워크와 심층 신경망 사이의 상보적 특성 [사진=과기정통부]

이것을 가능케 한 핵심기술은 연구팀이 개발한 ‘상보형-심층신경망(C-DNN, Complementary-DNN)이다.

상보형 심층신경망은 작년(2023년) 2월에 개최된 국제고체회로설계학회(ISSCC)에서 이번 연구의 제1저자인 김상엽 박사가 발표한 것으로 심층 인공 신경망(Deep Neural Network, DNN)과 스파이킹 뉴럴 네트워크(SNN)를 혼합한 기술이다. 입력 데이터들을 크기에 따라 서로 다른 신경망에 할당해 전력을 최소화할 수 있는 만든 게 핵심이다. 이러한 특징을 활용해 작은 입력값들은 SNN에 할당하고 큰 값들은 DNN에 할당해 전력 소모를 최소화했다.

이번 연구는 이 상보형-심층신경망(C-DNN) 기술을 거대 언어 모델에 적용함으로써 초저전력·고성능의 온디바이스 AI가 가능하다는 것을 실제로 입증한 것이다. 그동안 이론적인 연구에만 머물렀던 연구내용을 세계 최초로 인공지능반도체 형태로 구현한 것에 의의가 있다.

유회준 교수는 “뉴로모픽 컴퓨팅 기술은 그동안 연구실 수준의, 장난감 정도로 취급돼 왔으나, 상용 인공지능 반도체에 적용할 수 있는 수준에 도달했다는 것을 이번 연구 성과로 증명했다”고 평가했다. 또한 휴대폰이나 개인용 컴퓨터에서는 GPT-2 수준의 거대언어모델이면 인공지능을 활용하는 데 충분하다”며 뉴로모픽 컴퓨팅이 온디바이스 AI 시대를 이끌 것이라고 장담했다.

특히, 연구팀은 추가적인 신경망 알고리듬 연구와 상보형 심층신경망에 최적화된 인공지능반도체용 통합 코어 구조, 거대언어모델의 매개변수(파라미터) 압축기술 등을 개발함으로써 뉴로모픽 컴퓨팅이 에너지 효율만 높은 것이 아니라 성능도 심층 인공신경망 못지 않게 끌어올릴 수 있음을 직접 증명해 보였다.

연구팀은 개발한 매개변수 압축기술을 통해 언어 모델의 파라미터를 외부 메모리로부터 불러오는 작업에 소모되는 전력을 약 70% 감소시켰다. 그 결과, 전력 소모는 엔비디아 A100 대비 625배만큼 줄이면서도 GPT-2 모델을 활용한 언어 생성에는 0.4초, T5 (Text–to-Text Transfer Transformer)모델을 활용한 언어 번역은 0.2초의 고속 동작을 실현했다.

상보형-트랜스포머를 활용한 대형 언어 모델(LLM) 시연 모습. 1) GPT-2를 이용한 텍스트 생성. 2) mT5를 이용한 텍스트 번역. 3) T5를 이용한 텍스트 요약 [사진=과기정통부]

이번 연구는 거대언어모델의 매개변수 수를 줄이는 데에만 집중된 최근 연구 트렌드와 달리 매개변수 감소에 더해 초저전력 처리가 가능한 뉴로모픽 컴퓨팅을 거대언어모델에 적용해 에너지 효율을 극대화했다는 점에서 획기적이라는 평가다.

연구팀은 향후 뉴로모픽 컴퓨팅을 언어 모델에 국한하지 않고 다양한 응용 분야로 연구범위를 확장하고, 상용화에 필요한 문제점을 찾아 개선하는 연구를 이어갈 예정이라고 밝혔다.

유회준 교수는 “이번 연구는 기존 인공지능반도체가 가지고 있던 전력 소모 문제를 해소했을 뿐만 아니라, GPT-2와 같은 실제 거대언어모델 응용을 성공적으로 구동했다는데 큰 의의가 있다”며 “뉴로모픽 컴퓨팅은 인공지능시대에 필수적인 초저전력·고성능 온디바이스AI의 핵심기술인만큼 앞으로도 관련 연구를 지속할 것”이라고 설명했다.

◇데모 동영상: youtu.be/VOofRQoOlzU

김상엽 박사가 제1저자로 참여한 이번 연구는 지난 2월 19일부터 23일까지 미 샌프란시스코에서 개최된 국제고체회로설계학회(ISSCC)에서 발표 및 시연됐다.

*논문명: C-Transformer: A 2.6-18.1μJ/Token Homogeneous DNN-Transformer Spiking-Transformer Processor with Big-Little Network and Implicit Weight Generation for Large Language Models

*저자: 김상엽, 김상진, 조우영, 김소연, 홍성연, 유회준

+1
0
+1
0
+1
0
+1
0
+1
0