트웰브랩스, 차세대 영상 이해 모델 '마렝고 3.0' 출시

이명환 기자

입력 2025.12.02 09:34

수정 2025.12.02 14:53

펼치기/접기

01분 06초 소요

숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

불러오는 중...

영상 이해 기반 멀티모달 인공지능(AI) 기술 개발 스타트업 트웰브랩스는 차세대 영상 AI 모델 마렝고 3.0을 공식 출시했다고 2일 밝혔다.

이번 신제품은 단순히 영상을 보는 걸 넘어 영상 속 장면의 텍스트, 음성, 움직임, 상황 맥락을 통합적으로 이해하는 차세대 비디오 파운데이션 모델(VFM)로, 트웰브랩스의 지금까지 모델 중 가장 강력한 기능을 갖췄다는 설명이다.

영상 이해 기반 멀티모달 인공지능(AI) 기술 개발 스타트업 트웰브랩스는 차세대 영상 AI 모델 마렝고 3.0을 공식 출시했다고 2일 밝혔다. 트웰브랩스 제공

마렝고 3.0은 영상 속 대사와 동작을 연결해 해석하는 등 인간에 가까운 수준의 영상 이해 능력을 구현한다. 업계 최초로 이미지와 텍스트를 동시에 검색할 수 있는 복합 이미지 검색 기능과 사람이나 제품을 별도로 등록해 찾아볼 수 있는 고유명사 검색 기능도 도입됐다.

이번 모델은 36개 언어를 지원한다. 모델 테스트를 통해 스토리지 비용 50% 절감, 인덱싱 속도 2배 향상 등의 효과 역시 확인했다는 설명이다.

마렝고 3.0은 영상 이해를 위해 처음부터 설계된 네이티브 파운데이션 구조를 기반으로 영상 전체를 시간·공간적으로 해석한다. 이를 통해 장면 간의 연속성과 맥락을 자연스럽게 파악한다. 특히 스포츠, 미디어, 엔터테인먼트, 광고 등 고난도 콘텐츠에 대한 이해 능력이 강화됐다. 공공, 보안 등의 영상 분석 환경에서도 높은 정확도를 보인다.

마렝고 3.0은 다양한 산업 현장에서 활용할 수 있다. 프로 스포츠에서는 특정 선수의 득점 장면이나 결정적 플레이만을 즉시 검색해서 찾아내 하이라이트를 제작할 수 있다. 방송 분야에서는 특정 유명인의 얼굴을 고유명사로 등록해 방대한 양의 영상에서 원하는 행동을 하는 장면을 몇 초 만에 찾아낼 수 있다. 공공보안 분야에서는 CCTV 영상에서 원하는 장면만을 빠르게 찾아낼 수 있다.

이재성 트웰브랩스 대표는 "전 세계 디지털 데이터의 90%가 영상인데 사람이 직접 분석하기에 너무 오래 걸리고 기존 기술로는 모든 것을 파악하기가 어려워서 그동안 대부분 제대로 활용되지 못했다"면서 "마렝고 3.0은 그동안 영상 이해 기술이 가졌던 한계를 완전히 뛰어넘는 모델로, 기업과 개발자에게 기존과 다른 혁신적인 기준을 제시할 것"이라고 강조했다.