성낙호 네이버클라우드 하이퍼스케일 AI 기술총괄은 30일 서울 코엑스에서 열린 과학기술정보통신부 '독자 AI 파운데이션 모델' 프로젝트 1차 발표회에서 발표하고 있다. 사진=박유진 기자
"거대언어모델(LLM)은 책만 읽고 공부한 두뇌와 같습니다. 지식은 많지만, 세상을 직접 본 적도, 들은 적도, 만져본 적도 없습니다."
성낙호 네이버클라우드 하이퍼스케일 AI 기술총괄은 30일 서울 코엑스에서 열린 과학기술정보통신부 '독자 AI 파운데이션 모델' 프로젝트 1차 발표회에서 기존 LLM의 한계를 이렇게 설명했다. 글을 이해하는 데는 뛰어나지만, 현실 세계의 복잡한 문제를 풀기에는 감각이 부족하다는 것이다. 네이버클라우드가 이날 선보인 '옴니모달 하이퍼클로바X'는 바로 이 지점에서 출발했다.
이날 네이버클라우드는 국내 최초 네이티브 옴니모달 구조를 적용한 '하이퍼클로바 X 시드 8B 옴니'와, 추론형 AI에 시각·음성·도구 활용 역량을 결합한 '하이퍼클로바 X 시드 32B 싱크'를 오픈소스로 공개하며 "일상과 산업 현장에서 누구나 활용할 수 있는 인공지능(AI) 에이전트 구현을 본격화하겠다"고 밝혔다. 옴니모달이란 오디오, 이미지, 비디오 등 서로 다른 데이터의 통합 이해와 생성이 가능한 단일 모델을 말한다.
8B 옴니는 정보의 형태가 달라져도 하나의 의미 공간에서 맥락을 통합적으로 이해할 수 있어, 말과 글, 시각·음성 정보가 복합적으로 오가는 현실 환경에서 활용도가 높은 차세대 기술로 주목받는다. 네이버클라우드는 글로벌 빅테크 역시 옴니모달을 차세대 파운데이션 모델의 핵심 축으로 삼고 있다고 강조했다.
특히 성 총괄은 산업 현장에서 자주 등장하는 그래프·차트 처리를 대표 사례로 들었다. 그는 "텍스트 기반 LLM은 그래프를 직접 인식하지 못해 OCR 등 별도 연동이 필요하고, 그 과정에서 의미 손실과 추가 구축 비용이 발생한다"고 말했다. 반면 옴니모달은 "이미지 전체를 이해해 유기적인 정보 관계까지 파악할 수 있어 개발·운영 비용을 줄일 수 있다"는 설명이다.
네이버클라우드가 이날 함께 공개한 32B 싱크는 추론형 AI 기반에 시각 이해, 음성 대화, 도구 활용 능력을 결합해 복합 입력과 요청을 이해하고 문제를 해결하는 옴니모달 에이전트 경험을 구현했다. 네이버클라우드는 글로벌 AI 평가기관인 아티피셜 애널리시스(Artificial Analysis)가 종합 지식·고난도 추론·코딩·에이전트형 과제 등 10개 주요 벤치마크를 종합해 산출한 지수 기준에서 글로벌 주요 AI 모델들과 유사한 성능 범위에 위치했다고 밝혔다. 특히 한국어 기반 종합 지식, 시각 이해, 도구 활용 기반 에이전트 수행 능력 등 실사용과 밀접한 항목에서 경쟁력을 보였다고 덧붙였다.
수능 문제 풀이 결과도 공개했다. 네이버클라우드는 32B 싱크로 올해 대학수학능력시험 문제를 풀었을 때 국어·수학·영어·한국사 등 주요 과목에서 모두 1등급에 해당하는 성과를 거뒀고, 영어와 한국사에선 만점을 기록했다고 밝혔다. 특히 문제를 텍스트로 다시 입력하지 않고 사진으로 찍은 문제를 그대로 이해해 풀이했다는 점을 차별점으로 강조했다. 성 총괄은 "규모가 훨씬 더 큰 모델들과 비교해도 비슷한 문제 해결 역량을 가지고 있는데 개발과 운영 비용은 훨씬 적게 드니 훨씬 비용 효율적인 모델"이라고 말했다.
성 총괄은 "AI의 감각을 수평적으로 확장하는 동시에 사고와 추론 능력을 함께 강화했을 때 현실 문제 해결력이 크게 높아진다는 점을 확인했다"며 "기본기를 갖춘 구조 위에서 점진적으로 규모를 키워 '크기만 큰 모델'이 아니라 실제로 쓰임새 있는 AI로 발전시키겠다"고 말했다.
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>