KAIST, LLM 학습 시간 예측하는 시뮬레이션 개발

82
vTrain 시뮬레이터 구조 모식도 (사진=KAIST)
vTrain 시뮬레이터 구조 모식도 (사진=KAIST)

한국과학기술원(KAIST, 총장 이광형)은 전기및전자공학부 유민수 교수 연구팀이 삼성전자 삼성종합기술원과 공동 연구를 통해 대규모 분산 시스템에서 대형언어델(LLM)의 학습 시간을 예측하고 최적화할 수 있는 시뮬레이션 프레임워크(vTrain)를 개발했다고 13일 밝혔다. 

LLM 학습 효율을 높이려면 최적의 분산 학습 전략을 찾는 것이 필수적이다. 그러나 가능한 전략의 경우의 수가 방대할 뿐 아니라 실제 환경에서 각 전략의 성능을 테스트하는 데는 막대한 비용과 시간이 들어간다는 설명이다. 

이에 따라 현재 LLM을 학습하는 기업은 일부 경험으로 검증된 소수 전략을 사용하고 있다. 이는 GPU 활용의 비효율성과 불필요한 비용 증가를 초래하지만, 대규모 시스템을 위한 시뮬레이션 기술이 부족해 기업들이 문제를 효과적으로 해결하지 못하고 있는 상황이다.

단일 노드 시스템(왼쪽)및 다중 노드 시스템에 대한 학습 시간 측정값과 예측값 비교 (사진=KAIST)
단일 노드 시스템(왼쪽)및 다중 노드 시스템에 대한 학습 시간 측정값과 예측값 비교 (사진=KAIST)

이에 따라 KAIST 연구팀은 vTrain을 개발해 LLM 학습 시간을 정확히 예측하고, 다양한 분산 병렬화 전략을 빠르게 탐색할 수 있도록 했다고 밝혔다. 

연구팀은 실제 다중 GPU 환경에서 다양한 LLM 학습 시간 실측값과 vTrain의 예측값을 비교한 결과, 단일 노드에서 평균 절대 오차(MAPE) 8.37%, 다중 노드에서 14.73%의 정확도로 학습 시간을 예측할 수 있음을 검증했다. 

이어 삼성전자 삼성종합기술원와 공동연구를 진행해 vTrain 프레임워크와 1500개 이상의 실제 학습 시간 측정데이터를 오픈 소스로 해 AI 연구자와 기업이 활용할 수 있도록 했다. 

다양화 병렬화 기법에 따른 MT-NLG학습 시간 및 GPU사용률 변화 (사진=KAIST)
다양화 병렬화 기법에 따른 MT-NLG학습 시간 및 GPU사용률 변화 (사진=KAIST)

유민수 교수는 “vTrain은 프로파일링 기반 시뮬레이션 기법으로 기존 경험적 방식 대비 GPU 사용률을 높이고 학습 비용을 절감할 수 있는 학습 전략을 탐색했으며 오픈 소스로 공개했다. 이를 통해 기업들은 학습 비용을 효율적으로 절감할 것”이라고 말했다. 

이 연구는 방제현 박사과정이 제 1저자로 참여하였고 컴퓨터 아키텍처 분야의 최우수 학술대회 중 하나인 미국 전기전자공학회(IEEE)·전산공학회(ACM) 공동 마이크로아키텍처 국제 학술대회(MICRO)에서 11월 발표됐다. 

이번 연구는 정부(과학기술정보통신부)의 재원으로 한국연구재단, 정보통신기획평가원, 그리고 삼성전자의 지원을 받아 수행됐으며, 과학기술정보통신부 및 정보통신기획평가원의 SW컴퓨팅산업원천기술개발(SW스타랩) 사업으로 진행됐다.

박수빈 기자 sbin08@aitimes.com

+1
0
+1
0
+1
0
+1
0
+1
0