“경량화는 단순히 모델을 작게 만드는 것이 아니다. 저전력 디바이스에서 실시간으로 AI를 구동하기 위해서는 연산량을 줄이고, 하드웨어에 맞게 최적화하는 복합적인 기술이 필요하다. 특히 온디바이스 AI 환경에서는 클라우드에 의존하지 않고 디바이스 자체에서 AI를 실행해야 하므로, 경량화는 선택이 아닌 필수다” 조석영 Nota AI(노타 AI) 매니저는 지난 9월9일 개최된 ‘2025 e4ds Tech Day’ 행사에서 ‘온디바이스 AI를 위한 하드웨어 인지 AI 모델 최적화 솔루션 및 성공 사례’에 대해 발표하며, 온디바이스 AI 시대 AI 모델의 경량화 기술의 중요성에 대해 밝혔다.

▲조석영 Nota AI 매니저가 ‘2025 e4ds Tech Day’에서 ‘온디바이스 AI를 위한 하드웨어 인지 AI 모델 최적화 솔루션 및 성공 사례’에 대해 발표하고 있다.
각 하드웨어 병렬 연산 특성 고려 최적의 경량화 수준 제시
연산자 목록 사전 분석 대체 가능한 연산 자동 변환 최적화
“경량화는 단순히 모델을 작게 만드는 것이 아니다. 저전력 디바이스에서 실시간으로 AI를 구동하기 위해서는 연산량을 줄이고, 하드웨어에 맞게 최적화하는 복합적인 기술이 필요하다. 특히 온디바이스 AI 환경에서는 클라우드에 의존하지 않고 디바이스 자체에서 AI를 실행해야 하므로, 경량화는 선택이 아닌 필수다”
조석영 Nota AI 매니저는 지난 9월9일 개최된 ‘2025 e4ds Tech Day’ 행사에서 ‘온디바이스 AI를 위한 하드웨어 인지 AI 모델 최적화 솔루션 및 성공 사례’에 대해 발표하며, 온디바이스 AI 시대 AI 모델의 경량화 기술의 중요성에 대해 밝혔다.
AI 기술이 빠르게 발전하면서 모델의 크기와 복잡도는 기하급수적으로 증가하고 있다.
특히 GPT와 같은 대형 언어 모델의 등장 이후, AI 모델은 2년마다 10배씩 커지고 있는 반면, 하드웨어 성능은 무어의 법칙을 따라 2년마다 2배 성장에 그치고 있다.
이 간극을 메우기 위한 해법으로 ‘AI 모델 경량화’ 기술이 주목받고 있다.
노타 AI의 경량화 기술은 크게 네 가지로 구성된다.
첫째는 ‘구조적 가지치기’다. 기존의 비구조적 가지치기는 중요하지 않은 가중치를 0으로 대체해 연산량을 줄이는 방식이지만, 실제 하드웨어에서는 연산 구조가 그대로 유지되어 속도 개선 효과가 제한적이다.
반면 노타 AI는 채널 수 자체를 줄이는 구조적 가지치기를 통해 연산량을 실질적으로 감소시키고, 하드웨어 성능을 극대화한다.
둘째는 하드웨어 맞춤형 최적화다.
AI 모델을 단순히 작게 만드는 것만으로는 성능 향상이 어렵다. 각 하드웨어의 병렬 연산 특성을 고려해, 최적의 경량화 수준을 설정해야 출현 속도를 극대화할 수 있다.
노타 AI는 CPU, GPU, DSP 등 다양한 하드웨어의 계단형 연산 구조를 분석해, 최소한의 압축으로 최대의 성능 향상을 이끌어낸다.
셋째는 연산자 변환 기술이다.
복잡한 AI 모델은 루트, 로그 등 고급 수학 연산자를 필요로 하지만, 많은 반도체 스타트업의 하드웨어는 이를 지원하지 못한다.
노타 AI는 각 하드웨어의 연산자 목록을 사전에 분석하고, 지원되지 않는 연산자를 대체 가능한 방식으로 자동 변환해 모델을 최적화한다.
이를 통해 MPU에서 구동되지 않던 모델을 실행 가능하게 만들고, 출현 속도를 획기적으로 개선한 사례도 있다.
넷째는 양자화 후 사후교정 기술이다.
양자화는 모델을 단순화해 속도를 높이는 기술이지만, 정확도 저하가 문제다. 노타 AI는 독자 개발한 사후교정 기술을 통해 양자화로 인한 정확도 손실을 최소화하고, 원본 모델에 가까운 성능을 복원한다.
또한 일부 레이어만 양자화하는 혼합 정밀도 방식도 지원해 고객의 요구에 맞춘 최적화를 제공한다.
이러한 기술력은 실제 산업 현장에서 성과로 이어지고 있다.
노타 AI는 ARM, 르네사스 등 글로벌 반도체 기업과 협업하며, 기존에 MPU에서 구동되지 않던 모델을 실행 가능하게 만들고, 속도를 5배 이상 개선한 사례도 보유하고 있다.
또한 삼성전자, LG, 네이버, 카카오 등 국내 대기업과 소프트뱅크, 스톤브릿지 등 VC로부터 투자를 유치하며 기술력을 인정받았다.
조석영 매니저는 “온디바이스 AI는 개인정보 보호, 지연 속도 감소, 네트워크 의존도 축소 등 다양한 장점을 제공한다. 반면에 이를 구현하기 위해서는 경량화 기술이 반드시 뒷받침되어야 한다”며 “클라우드 기반 AI가 고성능 서버를 활용할 수 있는 반면, 온디바이스 AI는 제한된 메모리와 연산 능력을 가진 디바이스에서 작동해야 하기 때문”이라고 언급했다.
또한 “결국 AI 경량화 기술은 온디바이스 AI의 실현을 위한 핵심 열쇠”라며 “모델의 크기를 줄이고, 연산을 최적화하며, 하드웨어에 맞게 변환하는 이 기술들은 AI의 접근성과 효율성을 높이고, 다양한 산업 분야에서 실질적인 활용을 가능하게 한다”고 전했다.