가트너는 2030년까지 초대형 거대언어모델(LLM)의 추론 단가가 2025년보다 90% 이상 낮아질 것으로 전망했다. 반도체 성능 개선과 모델 설계 효율화가 배경으로 꼽힌다. 다만 기업의 AI 비용 부담이 함께 줄어드는 것은 아니라는 분석도 내놨다. AI 에이전트처럼 더 복잡한 기능이 확산되면 작업당 필요한 토큰 수가 크게 늘어 전체 추론 비용이 오를 수 있어서다. 이에 따라 향후 기업 경쟁력은 하나의 대형 모델에 의존하기보다, 업무 특성에 따라 소형 모델과 고성능 모델을 나눠 활용하는 ‘멀티 모델 오케스트레이션’ 역량에 달릴 것으로 전망됐다.
추론 단가 하락에도 기업 AI 총비용 관리 과제는 지속
AI 서비스의 핵심 비용 단위인 토큰 가격은 앞으로 크게 낮아질 것으로 예상되지만, 기업이 실제로 체감하는 AI 운영 부담은 쉽게 줄지 않을 것이라는 전망이 나왔다. 단순 질의응답을 넘어 복합 작업을 수행하는 AI 에이전트가 확산되면서, 단가 인하보다 사용량 증가가 더 빠르게 진행될 수 있기 때문이다.
가트너는 3월 30일 발표한 분석에서 2030년까지 1조 개 파라미터 규모의 거대언어모델 추론 비용이 2025년 대비 90% 이상 하락할 것으로 내다봤다. 토큰은 생성형 AI가 문장과 데이터를 처리할 때 쓰는 기본 단위로, 이번 분석에서는 약 3.5바이트 수준의 데이터로 정의됐다.
가트너는 이런 비용 하락의 배경으로 반도체와 인프라 효율 개선, 모델 설계 변화, 칩 활용도 향상, 추론 특화 반도체 확대, 일부 영역의 엣지 디바이스 적용 확대 등을 제시했다. 이에 따라 2030년의 LLM은 2022년 초기 동일 규모 모델과 비교해 최대 100배 높은 비용 효율성을 보일 수 있다고 전망했다.
다만 단가 하락이 곧바로 ‘AI의 대중화’로 이어지지는 않는다고 가트너는 봤다. 특히 AI 에이전트는 기존 챗봇보다 작업당 5배에서 최대 30배 많은 토큰을 사용할 수 있어, 개별 토큰 가격이 낮아져도 전체 추론 비용은 오히려 늘어날 수 있다는 것이다. 기본 기능은 저렴해지더라도, 복잡한 추론을 처리하는 컴퓨팅 자원은 여전히 제한적이라는 설명이다.
이번 분석은 최첨단 반도체를 사용하는 ‘프런티어’ 시나리오와, 여러 기존 반도체를 섞어 쓰는 ‘레거시 혼합’ 시나리오를 바탕으로 비용을 비교했다. 가트너는 혼합 시나리오가 상대적으로 낮은 연산 성능 탓에 프런티어 시나리오보다 비용이 더 높게 나타났다고 설명했다. 결국 어떤 반도체와 인프라 위에서 AI를 운영하느냐가 비용 구조에 직접적인 영향을 미친다는 의미다.
가트너는 앞으로 기업의 AI 경쟁력이 특정 대형 모델 하나를 도입하는 데서 결정되기보다, 여러 모델을 업무별로 나눠 배치하고 조정하는 운영 전략에서 갈릴 것으로 전망했다. 반복적이고 빈도가 높은 업무는 소형 모델이나 도메인 특화 모델에 맡기고, 비용이 큰 프런티어급 모델은 복잡한 고부가가치 작업에만 제한적으로 투입하는 방식이 더 현실적인 대안으로 제시됐다. 결국 토큰 가격 인하 자체보다, 어떤 업무에 어떤 모델을 연결할지 설계하는 능력이 기업 AI 수익성을 좌우할 가능성이 커지고 있다.