엔비디아, NIM서 오픈 모델 ‘딥시크-R1’ 지원 시작

1

엔비디아 NIM에서 딥시크-R1 지원을 시작했다고 4일 밝혔다.

딥시크-R1은 최첨단 추론 기능을 갖춘 오픈 모델이다. 딥시크-R1과 같은 추론 모델은 직접적인 답변을 제공하는 대신 쿼리에 대해 여러 번의 추론 패스(Inference Passes)를 수행해 연쇄 사고, 합의, 검색 방법을 거쳐 최상의 답변을 생성한다.

이러한 일련의 추론 패스를 수행해 최적의 답변에 도달하기 위해 추론을 사용하는 것을 테스트 타임 스케일링(Test-Time Scaling)이라고 한다. 딥시크-R1은 이 스케일링 법칙의 완벽한 예로, 에이전틱 AI(Agentic AI) 추론의 요구 사항에서 가속 컴퓨팅이 왜 중요한지 보여준다.

모델이 문제를 반복적으로 ‘사고’할 수 있게 되면 더 많은 출력 토큰과 더 긴 생성 주기가 생성되므로 모델 품질이 계속 확장된다. 딥시크-R1과 같은 추론 모델에서 실시간 추론과 고품질 응답을 모두 구현하려면 상당한 테스트 타임 컴퓨팅이 중요하므로 더 큰 규모의 추론 배포가 필요하다.

R1은 논리적 추론, 사고, 수학, 코딩, 언어 이해 등이 필요한 작업에 대해 최고의 정확도를 제공하는 동시에 높은 추론 효율성을 제공한다.

개발자가 이러한 기능을 안전하게 실험하고 자신만의 전문 에이전트를 구축할 수 있도록 6,710억 개의 파라미터로 구성된 딥시크-R1 모델은 현재 build.nvidia.com에서 엔비디아 NIM 마이크로서비스 프리뷰로 제공되고 있다. 딥시크-R1 NIM 마이크로서비스는 단일 엔비디아 HGX H200 시스템에서 초당 최대 3,872개의 토큰을 전송할 수 있다.

개발자들은 이제 애플리케이션 프로그래밍 인터페이스(API)를 테스트하고 실험할 수 있으며, 이는 엔비디아 AI 엔터프라이즈(AI Enterprise) 소프트웨어 플랫폼의 일부인 NIM 마이크로서비스로 제공될 예정이다.

딥시크-R1 NIM 마이크로서비스는 업계 표준 API를 지원해 배포를 간소화한다. 엔터프라이즈 기업들은 가속 컴퓨팅 인프라에서 NIM 마이크로서비스를 실행해 보안과 데이터 프라이버시를 극대화할 수 있다. 또한, 기업은 엔비디아 네모(NeMo) 소프트웨어와 함께 엔비디아 AI 파운드리(AI Foundry)를 사용해 특별한 AI 에이전트를 위한 맞춤형 딥시크-R1 NIM 마이크로서비스를 생성할 수 있다.

딥시크-R1은 거대 전문가 조합 방식(Mixture-Of-Experts, MoE) 모델이다. 다른 인기 있는 오픈 소스 거대 언어 모델(large language model, LLM)보다 10배 많은 6,710억 개의 파라미터를 통합해 128,000개의 토큰이라는 거대한 인풋 컨텍스트 길이(input context length)를 지원한다. 또한 이 모델은 레이어당 매우 많은 전문가를 활용한다. R1의 각 레이어에는 256명의 전문가가 있으며, 각 토큰은 평가를 위해 8명의 별도 전문가에게 병렬로 라우팅된다.

R1에서 실시간 답변을 제공하려면 추론을 위해 모든 전문가에게 신속한 토큰을 라우팅하기 위해 높은 대역폭과 짧은 지연 시간의 통신으로 연결된 높은 컴퓨팅 성능을 갖춘 많은 GPU가 필요하다. 엔비디아 NIM 마이크로서비스에서 제공되는 소프트웨어 최적화와 결합해 NV링크(NVLink)와 NV링크 스위치(Switch)를 사용해 연결된 8개의 H200 GPU가 장착된 단일 서버는 초당 최대 3,872개의 토큰으로 6,710억 개의 파라미터로 구성된 전체 딥시크-R1 모델을 실행할 수 있다. 이러한 처리량은 모든 레이어에서 엔비디아 호퍼(Hopper) 아키텍처의 FP8 트랜스포머 엔진과 MoE 전문가 통신을 위한 900GB/s의 NV링크 대역폭을 사용함으로써 가능하다.

실시간 추론에는 GPU에서 모든 초당 부동 소수점 연산(FLOPS)의 성능을 끌어내는 것이 매우 중요하다. 차세대 엔비디아 블랙웰(Blackwell) 아키텍처는 최대 20페타플롭의 피크 FP4 컴퓨팅 성능을 제공할 수 있는 5세대 텐서 코어(Tensor Core)와 추론에 특별히 최적화된 72-GPU NV링크 도메인을 통해 딥시크-R1과 같은 추론 모델의 테스트 시간 확장을 크게 향상시킬 것이다.

+1
0
+1
0
+1
0
+1
0
+1
0