넷앱과 SK텔레콤이 24일 NetApp AFX와 페타서스 AI 클라우드 기반 공동 PoC를 완료해, 가상머신 환경에서 물리 서버 대비 99% 이상 성능을 구현했다. NVIDIA GPU Direct Storage를 활용해 가상화의 고질적 성능 저하를 해소했으며, 가상·물리 서버 모두 32.7GB/s를 달성하고 CPU 사용량을 40~50% 절감했다. KV 캐시를 AFX에 저장해 GPU 메모리를 보완하는 고성능 확장 저장공간 역할도 검증, 상용 수준 AI 워크로드 플랫폼임을 입증했다.
NVIDIA GDS로 32.7GB/s·CPU 40~50% 절감
넷앱(NetApp)과 SK텔레콤이 가상화 환경에서도 물리 서버에 근접한 인공지능(AI) 성능을 구현하는 공동 개념검증(PoC)을 완료하며, 가상머신에서 불가피했던 성능 저하를 줄여 대규모 AI 워크로드 운영의 제약을 해소했다.
넷앱은 24일 NetApp AFX 시스템과 SK텔레콤의 ‘페타서스(Petasus) AI 클라우드’를 기반으로 PoC를 완료했다고 밝혔다.
NVIDIA GPU Direct Storage(GDS)를 활용해 가상머신 환경에서 물리 서버를 직접 사용하는 환경과 거의 같은 99% 이상의 성능을 구현했다.
기존에는 AI 워크로드를 가상머신에서 실행할 경우 자원 분배 과정의 추가 처리 부담으로 성능이 낮아졌으며, 전자설계자동화(EDA)·금융·제조·통신 등 초저지연이 요구되는 산업에서 제약 요인으로 작용해 왔다.
양사는 소프트웨어 스택과 인프라 설계를 최적화해 가상화 환경과 물리 서버 간 성능 격차를 줄였다.
PoC에서 가상머신과 물리 서버 모두 32.7GB/s를 달성했고, CPU 사용량은 40~50% 절감한 것으로 나타났다.
GPU가 학습·추론에 집중하도록 불필요한 처리 부담을 줄여 연산 효율을 높였다고 양사는 설명했다.
NetApp AFX는 성능과 용량을 독립적으로 확장하는 구조로, 운영체제인 ONTAP을 기반으로 데이터 관리·보안·복원력 기능을 제공한다.
이번 PoC에서는 AI가 답변을 생성하며 임시로 참고하는 데이터인 KV 캐시를 NetApp AFX에 저장해, AFX가 GPU 메모리를 보완하는 고성능 확장 저장공간 역할을 할 수 있음을 확인했다.
고대역폭·초저지연 분리형 스토리지 구조로 추론 과정의 대규모 데이터 입출력을 빠르게 처리했다고 양사는 밝혔다.
넷앱은 10여 년간 SK텔레콤의 스토리지 파트너로 협력해 왔으며, 이번 성과를 토대로 AI 데이터센터 솔루션 연동과 엔터프라이즈 AI 고객 공동 대응 등 협력을 이어갈 계획이다.
PD 프라사드(PD Prasad) 넷앱 AI 데이터 인프라 총괄 부사장은 “물리 서버와 가상머신 간 성능 격차를 해소함으로써 기업은 클라우드 환경에서 더 빠르고 효율적인 AI 학습과 추론을 수행할 수 있다”고 말했다.
정민영 SK텔레콤 AI DC 설루션 담당은 “가상화 환경의 성능 저하 요인을 크게 줄이는 데 성공했으며, 페타서스 AI 클라우드를 차세대 AI 워크로드를 위한 상용 수준 플랫폼으로 검증했다”고 말했다.