UNIST, 멀티모달 AI 성능 향상 원리 규명…ICML 2026 논문 채택

기사입력 2026.06.29 14:16

▲(왼쪽부터)UNIST 윤성환 교수, 이재준 연구원

서로 다른 데이터 결합되면서 오차 변화 급격함 완화

멀티모달 인공지능(AI)이 단일 데이터 기반 AI보다 성능이 높은 이유가 수학적으로 설명됐다. 이미지, 음성, 텍스트를 함께 학습할 때 모델의 안정성과 일반화 능력이 향상되는 원리가 이론적으로 규명된 것이다.

UNIST(울산과학기술원)는 26일 윤성환 교수 연구팀이 멀티모달 AI의 성능 향상 원리를 ‘손실 지형(Loss Landscape)’ 관점에서 규명했다고 밝혔다. 해당 연구는 국제 머신러닝 학회(ICML 2026)에 채택됐다.

멀티모달 학습은 서로 다른 형태의 데이터를 함께 활용해 AI를 학습하는 방식이다. 기존에도 성능 개선 사례가 보고됐지만, 딥러닝 학습 과정과 연결한 이론적 설명은 제한적이었다.

연구팀은 멀티모달 데이터가 결합될 경우, 모델 학습 과정에서 손실 지형이 더 평탄해진다는 점을 확인했다. 손실 지형은 AI 모델의 오차와 내부 파라미터 관계를 나타낸 개념이다.

손실 지형이 넓고 완만할수록 새로운 데이터나 노이즈에도 성능이 크게 흔들리지 않는다. 연구팀은 멀티모달 학습에서 이러한 평탄화 현상이 발생하는 이유를 ‘합성곱 스무딩 효과(Convolutional Smoothing Effect)’로 설명했다.

서로 다른 데이터가 결합되면서 오차 변화의 급격함이 완화되고, 모델이 다양한 상황에 대응할 수 있는 강건성이 높아진다는 분석이다.

연구팀은 이론을 바탕으로 새로운 학습 방식 ‘분포 기반 멀티모달 학습(DML, Distributional Multimodal Learning)’을 제안했다.

기존 방식은 이미지와 텍스트 등 데이터를 고정된 쌍으로 학습하는 반면, DML은 동일한 의미를 공유하는 데이터 간 조합을 무작위로 재구성하는 방식이다.

이를 통해 학습 데이터 다양성을 높이고 손실 지형 평탄화 효과를 강화할 수 있다고 설명했다. 여러 멀티모달 데이터셋 실험에서도 기존 방식 대비 분류 정확도와 검색 성능이 개선된 것으로 나타났다.

연구팀은 “멀티모달 AI가 더 강건하게 일반화되는 이유를 이론적으로 설명하고 새로운 학습 방법을 제시했다”고 밝혔다.

이번 연구는 자율주행, 의료 AI, 로봇, 파운데이션 모델 등 다양한 분야에서 활용될 수 있는 기반 기술로 제시된다.

#UNIST