임의철 SK하이닉스 부사장이 ‘2025년 제2회 상생포럼 Deep Tech Convergence 네트워킹 데이’ 행사에서 ‘Crushing the token cost wall of LLM Service-Attention offloading with PIM-GPU heterogeneous System’이란 주제로 발표했다. 임의철 부사장은 PIM과 GPU를 함께 써서 어텐션 연산을 메모리 쪽으로 분리 처리함으로써 토큰 길이에 따라 급증하는 비용·지연 문제를 근본적으로 낮춰야 한다고 밝혔다.
.jpg)
▲임의철 SK하이닉스 부사장
연산을 메모리 안으로 넣어 비용·지연 문제 근본적 해결
LPDDR 계열 PIM 최신 가속기 대비 와트당 성능 경쟁력
“PIM과 GPU를 함께 써서 어텐션 연산을 메모리 쪽으로 분리 처리함으로써 토큰 길이에 따라 급증하는 비용·지연 문제를 근본적으로 낮춰야 한다”
임의철 SK하이닉스 부사장은 8월19일 코엑스에서 개최된 ‘2025년 제2회 상생포럼 Deep Tech Convergence 네트워킹 데이’ 행사에서 ‘Crushing the token cost wall of LLM Service-Attention offloading with PIM-GPU heterogeneous System’이란 주제로 발표했다.
임의철 부사장은 AI 확산의 속도가 경제·에너지 시스템의 속도를 앞지르고 있다며 대규모 언어모델(LLM) 서비스는 사용자의 지불 의지를 넘어서는 전력비와 인프라 비용을 요구하며, 데이터센터 증설과 전원 확보라는 구조적 과제를 동반한다고 밝혔다.
이런 문제의 핵심은 알고리즘이 아니라 컴퓨팅 인프라의 에너지 효율이라며, SK하이닉스는 이 병목의 근원이 ‘메모리’에 있음을 짚고, 프로세싱-인-메모리(PIM) 기반의 메모리 반도체로 해법을 제시했다.
반세기 넘게 이어진 프로세서와 메모리의 발전 속도 격차, 이른바 ‘메모리 월’은 AI 시대에 결정적 제약이 됐다.
캐시와 데이터 재사용에 기대던 전통 워크로드와 달리, LLM의 추론 특히 디코드 단계는 매 토큰마다 방대한 파라미터를 다시 불러와 한 번만 쓰고 버리는 메모리 인텐시브 특성이 두드러진다.
최신 GPU를 동원해도 연산 유닛 활용률이 급락하는 이유가 여기 있다.
결국 시스템 성능과 전력은 HBM 등 메모리 서브시스템의 대역과 지연에 의해 좌우된다.
데이터센터는 멀티 배치로 모델 가중치를 재사용하며 피드포워드 경로의 메모리 병목을 상당 부분 컴퓨팅 인텐시브로 전환해왔다.
반면에 어텐션은 성격이 다르다.
사용자마다 입력과 생성 토큰이 달라 공유 가능한 데이터가 사실상 없어, 배치를 키워도 메모리 왕복이 줄지 않는다.
입력 컨텍스트와 내부 사고(reasoning) 확대로 토큰 길이가 10K, 100K를 넘기면서, 이제 어텐션이 전체 지연과 에너지의 지배적 구성요소로 부상했다.
PIM은 메모리 뱅크 내부에 행렬-벡터 곱(GEMV) 등 핵심 연산을 삽입해, 데이터 이동 없이 연산을 끝내고 결과만 외부로 내보내는 방식이다.
메모리-프로세서 간 보드 레벨 이동이 사라지며 전력 소모가 급감하고, 뱅크 병렬성을 활용해 실효 처리량을 선형적으로 끌어올릴 수 있다.
LLM 추론 시간의 90% 이상을 차지하는 GEMV에 정확히 맞물리는 구조여서, 디코드 병목을 정면으로 겨냥한다.
SK하이닉스는 2022년 GDDR6 기반 PIM 실리콘을 테이프아웃해 샘플을 확보했다.
이를 바탕으로 PIM 다이를 PCB에 집적한 ‘AMX’ 가속기 카드를 설계하고, 호스트로부터 모델과 명령을 수신해 PIM 칩을 오케스트레이션하는 AI 컨트롤 허브를 FPGA로 구현했다.
GPU와 AMX를 동시 장착한 서버에서 프리필은 GPU, 디코드는 PIM이 분담하는 쇼케이스를 구성해, LLM(예: 라마 3 70B, 배치 8, 2K 토큰) 구동을 시연했다.
관람객이 QR로 접속해 모델을 선택·프롬프트를 입력하고 응답을 받아보는 형태로 VLM 워크로드까지 구동했다는 점도 눈에 띈다.
다음 단계의 축은 LPDDR 기반이다.
낮은 전력과 높은 집적도를 앞세운 LPDDR 계열 PIM은 카드당 약 256GB 용량과 70TB/s급 내부 대역을 지향하며, 최신 가속기 대비 경쟁력 있는 성능/와트 지표를 목표로 한다.
시스템 구성은 두 갈래다.
첫째, 기존 가속기+HBM 옆에 LPDDR6 PIM을 병렬로 붙여 어텐션 경로를 PIM이 전담하는 ‘All-In-One’형 결합, 둘째, GPU/가속기가 프리필·비어텐션 디코드를 전담하고, 어텐션만 별도 PIM 카드로 오프로딩하는 ‘Disaggregated’형 분리다.
공통 목표는 어텐션의 메모리 병목을 구조적으로 제거해, 전체 TCO를 낮추는 것이다.
모델 크기와 토큰 길이의 팽창은 기존 컴퓨팅의 한계를 드러내지만, PIM 같은 메모리 중심 반도체의 시장을 창출한다.
또한 데이터 이동 제거만으로도 전력과 발열이 줄어, 데이터센터의 전원·냉각 제약을 완화한다.
하드웨어 도입은 소프트웨어 스택과 런타임, 그래프 파티셔닝 툴의 성숙이 병행돼야 대규모 배치 환경에서 실효를 낸다.
이와 함께 인터페이스, 커맨드셋, 커널 최적화의 오픈 협력이 넓을수록 PIM의 보급 속도는 빨라진다.
임의철 부사장은 차세대 반도체의 방향은 명확하다며 연산을 데이터에 맞춰야 한다고 밝혔다.
또한 LLM 시대의 지배적 병목인 ‘어텐션의 메모리성’을 공략하려면, 메모리 내부 병렬성과 저비용 데이터 경로를 활용하는 PIM이 필수적이라며, SK하이닉스의 GDDR6 PIM 실리콘, AMX 카드, 그리고 LPDDR6 PIM 로드맵은 GPU/가속기와의 하이브리드 아키텍처로 이 전환을 현실화하는 청사진을 제시했다.

▲2025년 제2회 상생포럼 Deep Tech Convergence 네트워킹 데이 참석자들이 기념촬영을 하고 있다.