NVIDIA 풀스택 솔루션을 통한 AI 추론 성능 최적화

NVIDIA 풀스택 솔루션을 통한 AI 추론 성능 최적화
Reading Time: 5 minutes

2025년 3월 18일부로 NVIDIA Triton Inference Server는 이제 NVIDIA Dynamo로 명칭이 변경되었습니다.

AI 기반 애플리케이션의 폭발적인 증가는, 최첨단 성능 제공과 운영 복잡성 및 비용 관리라는 과제를 동시에 해결해야 하는 개발자와 AI 인프라 모두에게 전례 없는 부담을 주고 있습니다.

NVIDIA는 칩, 시스템, 소프트웨어에 이르는 풀스택 혁신을 통해 개발자들이 AI 추론에서 가능하다고 여겨졌던 한계를 새롭게 정의할 수 있도록 지원하고 있는데요, 이로써 AI 추론은 그 어느 때보다 더 빠르고, 효율적이며, 확장 가능해졌습니다.

연산량이 많고 지연 시간이 짧은 추론을 손쉽게 배포하세요.

6년 전, NVIDIA는 고연산량과 짧은 지연 시간이 요하는 프로덕션 애플리케이션을 구축하는 개발자를 위해 특별히 설계된 AI 추론 서버를 만들기 시작했습니다. 당시 많은 개발자들은 복잡성을 높이고 운영 비용을 증가시키며, 지연 시간과 연산량에 대한 엄격한 서비스 수준 협약을 충족하는 데 어려움을 겪고 있는 맞춤형, 프레임워크별 서버와 씨름하고 있었습니다.

이를 해결하기 위해 NVIDIA는 모든 AI 프레임워크의 모델을 서비스할 수 있는 오픈 소스 플랫폼인 NVIDIA Triton Inference Server를 개발했습니다. Triton은 프레임워크별 추론 서버를 통합함으로써 AI 추론 배포를 간소화하고 AI 예측 용량을 높였는데요, 이러한 접근 방식 덕분에 Triton은 현재 수백 개의 선도적인 조직에서 프로덕션 AI 모델을 효율적으로 배포하는 데 사용되는 NVIDIA의 가장 널리 채택된 오픈 소스 프로젝트 중 하나가 되었습니다.

Triton 외에도 NVIDIA는 다양한 AI 추론 솔루션 생태계를 제공하고 있습니다. 강력하고 맞춤화 가능한 도구를 원하는 개발자를 위해 NVIDIA TensorRT는 세밀한 최적화를 가능하게 하는 API와 함께 고성능 딥러닝 추론 라이브러리를 제공합니다. 또한 NVIDIA NIM 마이크로서비스는 클라우드, 데이터 센터 또는 워크스테이션 전반에 걸쳐 AI 모델을 배포할 수 있는 유연한 프레임워크를 제공합니다.

AI 추론 워크로드에 대한 최적화

현재 추론은 풀스택(Full-stack) 문제로, 고성능 인프라와 그 인프라를 효율적으로 활용할 수 있는 소프트웨어가 모두 필요합니다. 또한 모델 크기가 계속 커지고 지연 시간에 대한 제한이 더욱 엄격해지며, 이러한 AI 서비스를 활용하는 사용자 수도 증가함에 따라 추론 워크로드는 점점 더 어려워지고 있습니다. 여기에 더해, 추론 타임 스케일링(inference time scaling)이라는 모델 지능 확장을 위한 새로운 패러다임의 도입으로, 모델 성능을 향상시키기 위해 추론 단계에서 더 많은 컴퓨팅이 활용되고 있습니다.

이러한 트렌드는 동일한 하드웨어 플랫폼에서도 제공되는 추론 성능을 지속적으로 발전시키는 것이 중요함을 의미하는데요, 모델 병렬화, 혼합 정밀도 학습, 프루닝(pruning), 양자화(quantization), 데이터 전처리 최적화와 같은 기존의 방법에 최첨단 추론 기술을 결합하면, 개발자들은 속도, 확장성, 비용 효율성 측면에서 놀라운 성과를 달성할 수 있습니다.

TensorRT-LLM 라이브러리는 거대 언어 모델(LLM)의 추론 성능을 가속화하는 최첨단 기능을 다수 통합하고 있으며, 그 주요 특징들은 다음과 같습니다.

프리필 및 KV 캐시 최적화

  • Key-value (KV) 캐시 조기 재사용: 사용자 간 시스템 프롬프트를 재사용함으로써, KV 캐시 조기 재사용 기능은 첫 번째 토큰 생성 시간(TTFT)을 최대 5배까지 가속화합니다. 유연한 KV 블록 크기 조정과 효율적인 축출 프로토콜을 통해 원활한 메모리 관리를 보장하며, 다중 사용자 환경에서도 더 빠른 응답 시간을 가능하게 합니다.
  • 청크 프리필(Chunked prefill): 지능적인 배포를 위해 프리필 단계를 작은 작업으로 분할하여 GPU 활용도를 높이고 지연 시간을 줄입니다. 이 혁신은 배포를 단순화하고 사용자 수요 변동에도 일관된 성능을 보장합니다.
  • 멀티턴 상호작용의 성능 강화: NVIDIA GH200 슈퍼칩 아키텍처는 효율적인 KV 캐시 오프로딩을 가능하게 하여, Llama 모델과의 멀티턴 상호작용에서 TTFT를 최대 2배까지 개선하면서도 높은 처리량을 유지합니다.

디코딩 최적화

  • 긴 시퀀스를 위한 멀티블록 어텐션: 긴 입력 시퀀스의 문제를 해결하기 위해, TensorRT-LLM의 멀티블록 어텐션은 작업을 스트리밍 멀티프로세서(SMs)에 분배하여 GPU 활용도를 극대화합니다. 이 기술은 추가적인 하드웨어 비용 없이 더 큰 컨텍스트 길이를 지원할 수 있도록 시스템 연산량을 3배 이상 향상시킵니다.
  • 연산량 가속화를 위한 스페큘레이티브 디코딩(Speculative Decoding): 소형 드래프트 모델과 대형 타겟 모델을 병행 활용하는 스페큘레이티브 디코딩은 추론 연산량을 최대 3.6배까지 향상시킵니다. 이 접근법은 대규모 AI 애플리케이션을 위한 워크플로를 간소화하면서도 모델 출력의 고속·고정확도 생성을 보장합니다.
  • Medusa 기반 스페큘레이티브 디코딩: Medusa 스페큘레이티브 디코딩 알고리즘은 TensorRT-LLM 최적화의 일부로 제공됩니다. 여러 후속 토큰을 동시에 예측함으로써, NVIDIA HGX H200 플랫폼에서 Llama 3.1 모델의 처리량을 최대 1.9배까지 증대시킵니다. 이 혁신은 고객 지원 및 콘텐츠 생성과 같은 LLM 기반 애플리케이션의 응답 속도를 단축합니다.

멀티 GPU 추론

  • 멀티샷(MultiShot) 통신 프로토콜: 다중 GPU 시나리오에서 기존의 링 올리듀스(Ring AllReduce) 연산은 병목 현상이 될 수 있습니다. NVSwitch로 구동되는 TensorRT-LLM 멀티샷은 GPU 수와 관계없이 통신 단계를 단 2단계로 축소합니다. 이 혁신은 올리듀스 속도를 최대 3배까지 향상시켜 저지연 추론의 확장성과 효율성을 동시에 확보합니다.
  • 고병렬 효율성을 위한 파이프라인 병렬화: 병렬화 기법은 GPU 간 신속하고 효율적인 데이터 전송이 가능해야 하며, 최대 성능을 위해 견고한 GPU 간 상호 연결 구조가 필요합니다. NVIDIA H200 Tensor Core GPU의 파이프라인 병렬화는 Llama 3.1 405B에서 1.5배의 처리량 증가를 달성했으며, MLPerf Inference 벤치마크에서 Llama 2 70B에 대해 1.2배의 성능 가속을 보여 다재다능성을 입증했습니다. MLPerf Inference는 MLCommons 컨소시엄에서 개발한 산업 표준 추론 성능 벤치마크 세트입니다.
  • 대규모 NVLink 도메인: NVLink 스위치 시스템으로 연결된 32개의 NVIDIA GH200 Grace Hopper 슈퍼칩으로 구성된 NVIDIA GH200 NVL32 시스템은 TensorRT-LLM 개선 사항과 결합해 Llama 모델의 TTFT를 최대 3배 단축합니다. 최대 127페타플롭스의 AI 컴퓨팅 성능을 제공하는 이 차세대 아키텍처는 AI 애플리케이션의 실시간 응답성에서 전례 없는 수준을 제시합니다.

정량화 및 저정밀 컴퓨팅

  • 정밀도와 성능을 위한 NVIDIA TensorRT Model Optimizer: NVIDIA TensorRT Model Optimizer의 사용자 정의 FP8 양자화 레시피는 정확도 저하 없이 처리량을 최대 1.44배까지 향상시킵니다. 이러한 최적화는 까다로운 워크로드에 대한 지연 시간과 하드웨어 요구 사항을 줄여 비용 효율적인 배포를 가능하게 합니다.
  • 엔드투엔드 풀스택 최적화: NVIDIA TensorRT 라이브러리와 FP8 Tensor Core 혁신 기술은 데이터센터 GPU부터 엣지 시스템에 이르기까지 다양한 장치에서 고성능을 보장합니다. NVIDIA는 Llama 3.2 모델군을 뛰어난 성능을 위해 최적화했으며, 이는 풀스택 소프트웨어가 다양한 AI 배포 환경에서 효율성을 유연하게 끌어낼 수 있음을 입증합니다.

추론 성능 평가

세계적 수준의 추론 성능을 달성하려면 칩, 시스템, 소프트웨어로 구성된 완전한 기술 스택이 필요하며, 이들은 모두 처리량 증대, 토큰당 에너지 소비 감소, 비용 최소화에 기여하게 되는데요,

MLPerf Inference는 추론 성능을 측정하는 핵심 지표 중 하나입니다. 이 벤치마크는 표준화된 조건에서 추론 처리량을 측정하며, 결과는 광범위한 동료 검토를 거치는데요, AI 분야의 최신 발전을 반영하기 위해 정기적으로 업데이트되어 조직이 플랫폼 성능 평가에 신뢰할 수 있는 결과를 제공합니다.

최신 MLPerf Inference v4.1에서 NVIDIA Blackwell이 처음으로 선보이며, Llama 2 70B 벤치마크에서 NVIDIA H100 Tensor Core GPU 대비 최대 4배 높은 성능을 발휘했습니다. 이 성과는 2세대 Transformer Engine(FP4 Tensor Core 지원), GPU당 8TB/s의 메모리 대역폭을 제공하는 초고속 HBM3e GPU 메모리를 포함한 Blackwell GPU의 다양한 아키텍처 혁신 덕분이었습니다.

또한 NVIDIA TensorRT-LLM을 비롯한 NVIDIA 소프트웨어 스택의 여러 요소가 FP4 정밀도 지원과 같은 Blackwell의 신기능을 활용하도록 재설계되었으며, 동시에 벤치마크의 엄격한 정확도 목표를 계속 충족시켰습니다.

현재 서버 제조사 및 클라우드 서비스 제공업체를 통해 공급 중인 NVIDIA H200 Tensor Core GPU도 데이터센터 부문의 모든 벤치마크에서 우수한 성적을 기록했습니다. 이는 새로 추가된 Mixtral 8x7B MoE(Mixture-of-Experts) LLM부터 Llama 2 70B LLM, Stable Diffusion XL 텍스트-이미지 변환 테스트까지 포함됩니다. 지속적인 소프트웨어 개선으로 Hopper 아키텍처는 이전 대비 최대 27% 향상된 추론 성능을 제공했습니다.

8개의 H200 GPU로 구성된 시스템에서 실행된 NVIDIA Triton Inference Server는 MLPerf Inference v4.1의 Llama 2 70B 벤치마크에서 NVIDIA 베어메탈 제출본과 거의 동일한 성능을 달성했습니다. 이는 기업이 기능이 풍부한 프로덕션 등급 AI 추론 서버와 최고 처리량 성능 사이에서 더 이상 선택할 필요가 없으며, NVIDIA Triton으로 양쪽 모두를 동시에 달성할 수 있음을 보여줍니다.

AI 추론의 미래: 새로운 트렌드와 기술

AI 추론 분야는 혁신적인 발전과 신기술로 빠르게 진화하고 있습니다. 특히 데이터센터 규모의 컴퓨팅 성능 향상으로 더 큰 모델의 사전 학습이 가능해지면서 모델 지능도 계속 발전하고 있습니다. GPT-MoE 1.8T와 같은 희소 전문가 혼합 모델((Sparse Mixture-of-Experts)) 아키텍처의 등장은 컴퓨팅 효율성을 개선하면서 모델 지능을 향상시키는 데 기여하고 있는데요, 이러한 대규모 모델(집약형/희소형 모두)은 개별 GPU의 성능이 훨씬 더 강력해야 할 필요가 있는데요, 이에 따라 NVIDIA Blackwell 아키텍처는 차세대 생성형 AI 추론의 원동력이 될 것입니다.

각 Blackwell GPU는 2세대 Transformer 엔진과 FP4를 활용한 5세대 Tensor Core를 탑재했습니다. 저정밀도 데이터 형식은 연산량을 증가시키고 메모리 요구량을 줄이는 데 기여하는데, 이러한 기술이 높은 정확도를 유지하면서도 상당한 성능 이점을 제공하려면 엄청난 수준의 소프트웨어 정교함이 필요합니다.

동시에 가장 까다로운 모델을 신속한 실시간 속도로 서비스하려면, 다수의 고성능 GPU가 협력해 응답을 생성해야 합니다.

NVIDIA GB200 NVL72 랙 스케일 솔루션은 72개의 GPU를 NVLink 도메인으로 연결해 하나의 거대한 GPU처럼 작동합니다. GPT-MoE 1.8T 실시간 추론에서 이전 세대 Hopper GPU 대비 최대 30배의 연산량 향상을 보여줍니다.

또한 **테스트 타임 컴퓨팅(test-time compute)**이라는 새로운 스케일링 법칙의 등장은 더 복잡한 작업에서도 응답 품질과 정확도를 개선할 수 있는 추가적인 방안을 제시합니다. OpenAI o1 모델에서 처음 소개된 이 새로운 패러다임은 모델이 최종 결과를 출력하기 전에 수많은 중간 토큰을 생성함으로써 “추론”할 수 있게 합니다. 이러한 추론 모델은 복잡한 수학 문제 해결이나 컴퓨터 코드 생성과 같은 분야에서 특히 유용합니다. 이 혁신은 추론 시점에 더 많은 컴퓨팅 성능을 요구하는 새로운 기술 혁신의 물결을 이끌 것입니다.

인공 일반 지능(AGI)으로의 길은 데이터센터 컴퓨팅 성능의 지속적인 혁신에 달려있습니다. 사전 학습, 사후 학습, 테스트 시점 스케일링 모두 최첨단 인프라와 정교하게 제작된 소프트웨어가 필요합니다. NVIDIA 플랫폼은 AI 생태계가 계속해서 기술의 한계를 넓힐 수 있도록 1년 주기의 빠른 혁신 속도로 진화하고 있습니다.

지금 바로 시작하세요

AI 추론 시작 방법을 확인하고, NVIDIA AI 추론 플랫폼에 대해 더 알아보며, 최신 AI 추론 성능 업데이트도 놓치지 마세요.

NVIDIA NIM 마이크로서비스를 빠르게 배포하는 방법에 대한 데모를 시청하거나, ‘NVIDIA NIM으로 생성형 AI 배포하기: 간단 가이드’를 읽어보세요. TensorRT, TensorRT-LLM, TensorRT Model Optimizer 라이브러리의 최적화 기능들은 NVIDIA NIM 마이크로서비스를 활용한 프로덕션 수준의 배포 환경에서 결합되어 제공됩니다.

관련 리소스

Discuss (0)

Tags