NC AI, 멀티모달 모델 '바르코-비전2.0' 4종 오픈소스 공개

NC AI는 한국어 기반 멀티모달 인공지능(AI) 모델 바르코 비전(VARCO-VISION) 2.0 4종을 오픈소스로 공개한다고 16일 밝혔다.


바르코 비전 2.0은 이미지와 텍스트를 함께 이해해 질문에 답할 수 있는 AI 모델이다. 여러 장의 이미지를 동시에 분석하고 복잡한 문서나 표, 차트도 처리할 수 있다. 한국어와 영어 모두 이해할 수 있고 텍스트 생성 능력과 한국 문화에 대한 이해도를 높였다.

NC AI의 한국어 기반 멀티모달 인공지능(AI) 모델 바르코 비전(VARCO-VISION) 2.0. NC AI 제공

NC AI의 한국어 기반 멀티모달 인공지능(AI) 모델 바르코 비전(VARCO-VISION) 2.0. NC AI 제공

원본보기 아이콘

오픈소스로 공개되는 모델 4종은 14B, 1.7B, 1.7B OCR, 비디오임베딩이다. 이 가운데 14B와 임베딩 모델은 16일 공개됐고, 1.7B와 OCR (광학문자판독) 모델은 차주 중 공개 예정이다.


NC AI는 14B(140억 매개변수) 모델과 함께 1.7B(17억 매개변수) 경량 모델을 동시에 제공한다. 14B 모델은 복잡한 멀티 이미지 분석과 고도화된 추론이 필요한 환경에 최적화됐다. 1.7B 경량 모델은 스마트폰이나 PC 등 개인용 기기에서도 동작할 수 있도록 설계됐다. 특


4B 모델은 영문 이미지 이해, 한국어 이미지 이해, OCR 벤치마크와 같은 성능 테스트에서 InternVL3-14B, Ovis2-16B, Qwen2.5-VL7B 등 동급 멀티모달 모델을 앞서는 성과를 냈다고 NC AI는 강조했다.

이미지 내 문자를 인식하는 광학 문자 인식 특화 모델인 VARCO-VISION-1.7B-OCR도 공개한다. 기존 OCR 모델과 달리 이미지와 언어 정보를 동시에 학습한 VLM 기반 접근 방식을 채택했다.


멀티모달 임베딩 모델 '바르코 비전 임베딩'은 텍스트, 이미지, 비디오간 유사도를 고차원 임베딩 공간에서 계산한다. 임베딩이란 영상의 내용을 숫자로 변환해서 저장하는 것을 의미하는데, 임베딩 간의 거리나 유사도를 기반으로 관련성 높은 이미지나 비디오를 검색할 수 있다.


이번에 공개된 4종의 모델은 금융, 교육, 문화, 쇼핑, 제조 등 다양한 영역에서 활용 가능하다는 게 NC AI의 설명이다.


NC AI는 이번 멀티모달 AI 모델 4종 공개를 통해 정부가 추진하는 '소버린 AI' 강화에 힘을 더한다는 계획이다. 이연수 NC AI 대표는 "기술 고도화로 글로벌 트렌드가 텍스트만 처리하는 언어모델을 넘어 비전모델을 함께 활용하는 비전언어모델로 전환되고 있다"며 "이번 4종 모델 공개를 통해 미디어와 게임, 패션 등 버티컬 AI로 기존 국내 멀티모달 AI를 선도하는 NC AI가 비전언어모델에서도 한국의 주권을 지킬 수 있는 가능성을 확인했다"고 말했다.


바르코 2.0의 벤치마크 표. NC AI 제공

바르코 2.0의 벤치마크 표. NC AI 제공

원본보기 아이콘




이명환 기자 lifehwan@asiae.co.kr

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>