엔비디아, NVFP4로 AI 훈련·추론 혁신…성능·효율성 동시 확보

기사입력 2026.02.23 16:35

메모리 사용량 대폭 줄이면서 품질 저하 없이 대규모 모델 운영

엔비디아가 차세대 저정밀 연산 포맷인 NVFP4를 통해 AI 훈련과 추론 성능을 획기적으로 끌어올리며 AI 컴퓨팅 패러다임 전환을 가속화하고 있다.

엔비디아는 NVFP4 기반 기술이 높은 정확도를 유지하면서도 처리량과 에너지 효율을 동시에 향상시켜 대규모 AI 워크로드 최적화를 가능하게 한다고 23일 밝혔다.

AI 모델의 규모와 복잡성이 급격히 증가하면서, 기존 무어의 법칙만으로는 성능 요구를 충족하기 어려운 상황이다. 이에 엔비디아는 하드웨어와 소프트웨어 전반을 아우르는 공동 설계 전략을 통해 새로운 해법을 제시했다.

블랙웰(Blackwell) 아키텍처부터 도입된 NVFP4는 4비트 부동소수점 정밀도를 기반으로, FP8 대비 더 높은 연산 밀도와 에너지 효율을 제공한다.

최신 MLPerf 훈련 벤치마크에서 NVFP4의 성능은 명확히 입증됐다. 512개의 블랙웰 울트라 GPU로 구성된 엔비디아 GB300 NVL72 시스템은 라마 3.1 405B 사전 훈련을 64.6분 만에 완료하며, FP8 기반 이전 세대 대비 최대 1.9배 빠른 성능을 기록했다.

추론 영역에서도 딥시크-R1, 라마 시리즈 등 주요 대형 언어 모델에서 높은 정확도를 유지하며 토큰 처리량을 크게 향상시켰다.

NVFP4는 긴 컨텍스트와 대규모 배치 환경에서도 강점을 보인다. 메모리 사용량을 대폭 줄이면서도 품질 저하 없이 대규모 모델을 운영할 수 있어, AI 서비스의 비용 효율성을 크게 개선한다.

이러한 특성은 에이전틱 AI, 과학 시뮬레이션, 대규모 강화학습 등 고난도 워크로드에 특히 유리하다.

블랙 포레스트 랩스, 래디컬 뉴메릭스, 코그니션, 레드햇 등 글로벌 기업들도 NVFP4 생태계에 참여하며 기술 확산에 힘을 보태고 있다.

엔비디아는 텐서RT-LLM, 토치.ao, 트랜스포머 엔진 등 다양한 소프트웨어 스택을 통해 NVFP4 기반 훈련과 추론을 폭넓게 지원하고 있다.

향후 선보일 루빈(Rubin) 플랫폼은 NVFP4 성능을 한층 더 끌어올리며, AI 훈련과 추론의 속도와 효율성에서 또 한 번의 도약을 예고하고 있다.

NVFP4는 차세대 AI 인프라의 핵심 기술로 자리매김하며, 고성능·저비용 AI 시대를 앞당기고 있다.

#엔비디아 #블랙웰 #효율성 #NVFP4 #AI 훈련 #추론 #성능 #4비트 부동소수점 #대규모 모델 #비용 효율성