본문 바로가기
Dim영역

[AI혁명](162)AI와 실시간 음성 대화…'양방향 TTS' 목표 휴멜로

숏뉴스
숏 뉴스 AI 요약 기술은 핵심만 전달합니다. 전체 내용의 이해를 위해 기사 본문을 확인해주세요.

불러오는 중...

닫기
언론사 홈 구독
언론사 홈 구독
뉴스듣기 스크랩 글자크기

글자크기 설정

닫기
인쇄

대화의 맥락까지 읽는 ‘제로샷 TTS’
보이스 AI 패러다임 전환

한국과학기술원(KAIST)의 젊은 개척자들이 인공지능(AI)의 목적지 중 하나로 주목한 것은 '목소리'였다. 인간과 자연스러운 소통이 가능하게 하는 것이 AI 혁명의 길이라고 판단했다. 카이스트 전산학부 출신 권용석 대표와 이자룡 책임연구원이 의기투합해 2018년 창업한 휴멜로는 거대 자본의 각축장이 된 초거대언어모델(LLM) 대신, 독보적인 기술력으로 승부할 수 있는 '보이스 AI'라는 영역에서 혁신을 준비해 왔다. 창업 7년이 지난 지금 휴멜로는 엔터테인먼트, 게임, 오디오북 등 콘텐츠 기업은 물론 금융기관, 공공기관, 대기업 등에서 활발하게 사용하는 국내 대표 보이스 AI 기업으로 자리잡았다.


권용석 대표. 휴멜로

권용석 대표. 휴멜로

AD
원본보기 아이콘

1일 권 대표는 "단순히 텍스트를 읽어주는 단방향 TTS를 넘어, 사용자와 실시간으로 대화하며 감정을 교류하는 '양방향 TTS'를 구현하는 것이 우리의 목표"라고 말했다. 권 대표가 설명하는 양방향 TTS(음성변환)는 휴멜로의 모든 기술력을 집약한 차세대 모델 '문맥 인지 제로샷 TTS'를 기반으로 한다. 말 그대로 데이터 없이(Zero-shot), 대화의 맥락까지 파악해 음성을 창조하는 기술이다. 권 대표는 "사전 학습 데이터 없이 앞선 대화의 뉘앙스와 감정의 흐름을 AI가 파악해, 그에 맞는 가장 자연스러운 억양과 말투로 즉시 다음 대사를 이어간다"며 "현재는 기술 시연이 가능한 단계"라고 했다.

SF영화에 나올법한 이 기술에 이르기까지 휴멜로는 창업 초기부터 여러 단계를 거쳐 왔다. 처음에는 '어떻게 하면 AI가 사람처럼 자연스럽게 말하게 할 수 있을까?'라는 근원적인 질문에서 시작했다. 첫 번째 답은 '퓨샷 TTS'(Few-Shot TTS) 기술이었다. 권 대표는 "기존 TTS로 한 사람의 목소리를 재현하려면 한 시간 이상의 녹음이 필요했지만, 1분 정도의 음성 데이터만으로 목소리의 특징과 억양을 완벽하게 복제했다"고 설명했다. 이는 KT AI 보이스 스튜디오에 핵심 기술을 공급하고 KT인베스트먼트, 카카오인베스트먼트 등으로부터 프리-시리즈A 투자를 유치하는 성과로 이어졌다. 스마일게이트, SM엔터테인먼트 등 국내 대표 게임·엔터 기업과도 계약할 수 있었다.


권용석 대표가 음성 AI 기술을 설명하고 있다. 휴멜로

권용석 대표가 음성 AI 기술을 설명하고 있다. 휴멜로

원본보기 아이콘

휴멜로는 여기에 만족하지 않고 기술을 한 단계 더 진화시켰다. 실시간 음성 생성이 가능한 'FRTTS'(Few-shot Real-time TTS) 기술이다. 30자 기준 문장을 음성으로 합성하는 데 걸리는 시간은 단 0.3초. 이는 인간이 대화의 지연을 거의 느끼지 못하는 속도다. 권 대표는 "AI 챗봇, 로봇, 인터랙티브 IoT 기기가 사용자와 어색한 지연 없이 자연스러운 대화를 나누는 것을 가능하게 했다"고 했다. FRTTS는 휴멜로가 자체 제작한 파운데이션 모델을 기반으로, 높은 수준의 음질은 물론 의미에 맞춰 띄어 읽고 자연스럽게 한국어와 영어를 섞어 말할 수 있다. 평범하지 않은 고음역대 캐릭터의 목소리나 깊이 있는 저음의 독백과 같은 특별한 음성까지 완벽하게 복제한다. 이를 바탕으로 휴멜로는 다국어 더빙, 게임 내레이션, 오디오북 시장을 공략하고 있다.


FRTTS에 이어 휴멜로가 선보일 예정인 문맥 인지 제로샷 TTS는 세계 각국에서 전략적으로 공개된다. 영미권에서는 AI 오디오 쇼츠 콘텐츠 플랫폼 '소리(Sohri) 스튜디오'를 통해 대중에게 다가갈 계획이다. 국내에서는 기업 고객들을 중심으로 공개해 이용자와 AI의 즉각적인 대화가 필요한 AI 고객센터(AICC) 등을 타깃으로 한다. 권 대표는 "휴멜로의 새로운 기술은 데이터 습득과 학습 시간이 사실상 '0'에 가까워, 실시간 양방향성이 요구되는 모든 서비스와 콘텐츠에 무한한 가능성을 제공할 것"이라고 말했다.




김철현 기자 kch@asiae.co.kr
AD

<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

함께 본 뉴스

새로보기
간격처리를 위한 class

많이 본 뉴스 !가장 많이 읽힌 뉴스를 제공합니다. 집계 기준에 따라 최대 3일 전 기사까지 제공될 수 있습니다.

언론사 홈 구독
언론사 홈 구독
top버튼

한 눈에 보는 오늘의 이슈