LG, 멀티모달 AI '엑사원 4.5' 공개…텍스트·이미지 동시 이해

비전·언어 통합한 VLM…‘K-엑사원’ 확장 기반 마련

복합 문서 이해·추론…글로벌 모델 대비 성능 우위

엑사원 4.5 언어 처리 및 추론 성능 비교ⓒLG

LG AI연구원이 9일 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 AI 모델 ‘엑사원(EXAONE) 4.5’를 공개했다. 주요 글로벌 AI 모델을 뛰어넘는 성능을 기록하며 멀티모달 경쟁에 본격적으로 뛰어든 모습이다.

‘엑사원 4.5’는 자체 개발한 비전 인코더와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어 모델(VLM)이다. LG AI연구원이 2021년 12월 국내 최초 멀티모달 AI 모델 ‘엑사원 1.0’ 개발을 통해 축적한 기술을 기반으로 성능과 효율을 동시에 끌어올렸다.

이번 모델은 독자 AI 파운데이션 모델 ‘K-엑사원’의 모달리티 확장을 위한 기반 단계다. LG AI연구원은 향후 음성, 영상, 물리 환경까지 이해하는 ‘피지컬 인텔리전스’로 발전시키는 것을 목표로 하고 있다.

엑사원 4.5는 계약서, 기술 도면, 재무제표, 스캔 문서 등 산업 현장의 복합 문서를 정확히 읽고 추론하는 데 강점을 보인다.

성능 면에서도 경쟁력을 입증했다. STEM(과학·기술·공학·수학) 평가 5개 지표 평균 77.3점을 기록해 GPT-5 mini(73.5점), 클로드 소넷 4.5(74.6점), 큐웬 3 235B(77.0점)를 앞섰다.

또 일반 시각 이해, 문서 이해 및 추론 등을 포함한 13개 지표 평균에서도 주요 글로벌 모델을 상회했다.

특히 코딩 성능 지표인 라이브코드벤치 v6에서는 81.4점을 기록해 구글 젬마 4(80.0점)를 넘어섰고, 차트 분석 능력을 평가하는 ChartQA Pro에서도 경쟁력을 확인했다.

엑사원 4.5 글로벌 동급 모델들과의 STEM 벤치마크 성능 비교ⓒLG

효율성도 강화됐다. 330억 개(33B) 파라미터 규모로 ‘K-엑사원’ 대비 약 7분의 1 수준이지만 텍스트 이해와 추론 성능은 동등한 수준을 유지했다. 이는 하이브리드 어텐션 구조와 멀티 토큰 예측 기반 고속 추론 기술이 적용된 결과다.

지원 언어도 한국어와 영어를 넘어 스페인어, 독일어, 일본어, 베트남어까지 확대됐다.

LG AI연구원은 오픈소스 생태계 확장도 이어가고 있다. 이날 ‘엑사원 4.5’를 허깅페이스(Hugging Face)에 연구·학술·교육용으로 공개했다.

이와 함께 청년 AI 인재 육성 프로그램 ‘LG 에이머스(Aimers)’ 해커톤을 통해 엑사원을 교육 자원으로 활용하고 있다.

이진식 LG AI연구원 엑사원랩장은 “엑사원 4.5는 LG AI가 텍스트를 넘어 시각 정보까지 이해하는 멀티모달 시대로 진입했음을 보여주는 모델”이라며 “음성과 영상, 물리 환경까지 AI의 이해 범위를 확장해 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어가겠다”고 밝혔다.

LG AI연구원은 한국어뿐 아니라 역사·문화·사회적 맥락까지 깊이 이해하는 AI 개발도 추진 중이다. 올해 1월 동북아역사재단 데이터를 활용한 학습을 시작했으며 국내 기관들과 협업도 확대할 계획이다.

김명신 LG AI연구원 신뢰안전사무국 총괄은 “한국어 능력을 갖춘 AI는 늘고 있지만, 역사와 문화적 민감성을 깊이 이해하는 것은 차원이 다른 문제”라며 “엑사원은 자체 설계한 AI 위험 분류체계(K-AUT)를 기반으로 풍부한 표현력과 신뢰성을 동시에 확보한 AI로 진화해 나갈 것”이라고 말했다.

#LGAI연구원

#멀티모달AI

#엑사원

#엑사원4.5