노타 AI 조석영 매니저는 지난 3월6일 코엑스에서 개최된 ‘e4ds Physical AI Frontier 2026’에서 ‘엣지 AI에서의 AI 추론, 경량화 모델 및 경량화 방법’에 대해 발표하며, 현장 개발자의 병목을 정면으로 겨냥한 경량화·최적화 전략을 공개했다. 엣지 AI 시대에 경쟁력은 더 작은 모델이 아니라, 더 빠르게 제품으로 완성시키는 능력에 있다. 자체 경량화와 전문 솔루션 사이의 선택은 이제 기술 취향이 아니라, 비용과 시간에 대한 전략적 판단의 영역으로 이동하고 있다.

▲노타 AI 조석영 매니저가 발표하고 있다.
실제 연산량 줄어드는 구조적 경량화, 빨라진 결과로 체감
하드웨어 인지형 최적화, 속도 개선 실제 발생 지점 찾아내
“엣지 AI 시대에 개발자의 경쟁력은 더 큰 모델을 만드는 데 있지 않다. 주어진 하드웨어에서 ‘돌아가게 만드는 능력’, 그리고 제품으로 완성시키는 속도가 관건이다. 노타의 솔루션은 바로 그 지점을 겨냥하고 있다”
노타 AI 조석영 매니저는 지난 3월6일 코엑스에서 개최된 ‘e4ds Physical AI Frontier 2026’에서 ‘엣지 AI에서의 AI 추론, 경량화 모델 및 경량화 방법’에 대해 발표하며, 현장 개발자의 병목을 정면으로 겨냥한 경량화·최적화 전략을 공개했다.
엣지 AI 개발자에게 가장 흔한 좌절은 모델 성능이 아니다.
학습은 잘 끝났고 정확도도 충분한데, 막상 디바이스에 올리면 속도가 나오지 않거나 아예 실행조차 되지 않는 순간이다.
조석영 매니저는 “엣지 AI에서 문제는 모델이 아니라 ‘환경’”이라고 단언했다.
데이터센터에서는 GPU 하나만 맞추면 되지만, 엣지 환경은 모바일 AP, NPU, MCU, 산업용 SoC 등 하드웨어가 극도로 파편화돼 있다.
동일한 모델이라도 어떤 칩에서는 빠르게 동작하고, 다른 칩에서는 정확도가 급락하거나 연산자 미지원으로 멈춰버린다.
이 지점에서 많은 개발자들이 직접 경량화를 시도한다.
프루닝, 양자화, 지식 증류를 적용해 보지만 결과는 예측하기 어렵다. 모델은 작아졌는데 속도는 그대로이거나, 속도는 빨라졌지만 정확도가 급격히 무너진다.
조석영 매니저는 “대부분의 경량화 실패는 하드웨어 특성을 고려하지 않았기 때문”이라고 설명했다.
노타의 접근은 다르다.
단순히 파라미터를 줄이는 것이 아니라, 실제 연산량이 줄어드는 구조적 경량화를 적용한다.
기존의 비구조적 프루닝은 가중치를 0으로 만들 뿐 연산 자체는 그대로 수행되지만, 노타는 행렬 구조를 재설계해 연산 단위를 줄인다.
개발자 입장에서는 ‘모델이 작아졌다’가 아니라 ‘프레임이 실제로 빨라졌다’는 결과로 체감된다.
또 하나의 핵심은 하드웨어 인지형 최적화다.
노타는 모델을 줄이는 과정에서 각 하드웨어의 병렬 처리 구조를 분석해, 속도 개선이 실제로 발생하는 지점을 찾아낸다.
같은 모델이라도 CPU, GPU, NPU마다 최적의 경량화 지점이 다르기 때문이다. 이 과정이 자동화돼 있어, 개발자는 수십 번의 실험을 반복하지 않아도 된다.
엣지 개발자들이 특히 어려워하는 연산자 호환성 문제도 노타의 강점이다.
최신 VLM이나 생성형 모델은 복잡한 연산자를 포함하지만, 엣지용 칩은 이를 지원하지 않는 경우가 많다.
노타는 지원되지 않는 연산자를 자동으로 대체 연산으로 변환해, 하드웨어 변경 없이 모델을 실행 가능하게 만든다.
“모델은 좋은데 칩이 안 받는다”는 상황을 소프트웨어로 해결하는 셈이다.
개발 생산성 측면에서도 차별점이 있다.
노타는 실제 디바이스 환경에서 모델 성능을 바로 검증할 수 있는 디바이스 팜을 운영한다.
개발자는 특정 예산과 하드웨어 조건에서 어떤 모델이 현실적인 선택인지 빠르게 판단할 수 있다. 이는 PoC 단계에서 가장 많은 시간을 잡아먹는 시행착오를 크게 줄여준다.
이러한 기술은 이미 모바일, 산업용 엣지, 차량용 반도체, 클라우드 추론 환경까지 확장 적용되고 있다.
조석영 매니저는 “경량화는 더 이상 연구 주제가 아니라, 제품 출시를 가능하게 하는 인프라 기술”이라며 “엣지 AI 시대에 경쟁력은 더 작은 모델이 아니라, 더 빠르게 제품으로 완성시키는 능력에 있다. 자체 경량화와 전문 솔루션 사이의 선택은 이제 기술 취향이 아니라, 비용과 시간에 대한 전략적 판단의 영역으로 이동하고 있다”고 전했다.