读懂对话语境的“零样本TTS”
语音AI范式转变
韩国科学技术院(KAIST)的年轻开拓者们,将“声音”视为人工智能(AI)重要的目的地之一。他们判断,让人类与AI实现自然交流,才是通往AI革命之路。出身于KAIST计算机系的代表理事Kwon Yongseok和首席研究员Lee Jaryong志同道合,于2018年共同创立了Humelo,公司没有选择已成巨额资本角力场的超大规模语言模型(LLM),而是瞄准可以凭借独门技术取胜的“语音AI”领域不断谋求创新。创业7年后的今天,Humelo已成长为韩国代表性的语音AI企业,被娱乐、游戏、有声书等内容公司,以及金融机构、公共机构和大型企业等广泛采用。
1日,Kwon代表表示:“我们的目标不仅是实现简单朗读文本的单向TTS(文本转语音),而是要实现能与用户进行实时对话并交流情感的‘双向TTS’。”他介绍的双向TTS(语音转换)以Humelo汇聚全部技术实力打造的下一代模型“语境感知零样本TTS”为基础。字面意义上,是在没有数据(Zero-shot)的情况下,连同对话语境一并理解并生成语音的技术。Kwon代表称:“在没有事先训练数据的前提下,AI能够把握此前对话的细微差别和情感流动,并以与之相匹配的最自然语调和说话方式,立即接续下一句台词。目前已达到可以进行技术演示的阶段。”
在实现这一堪比科幻电影的技术之前,Humelo自创业初期起经历了多个阶段。一切源于一个根本性问题:“怎样才能让AI像人一样自然地说话?”第一个答案是“少样本TTS(Few-Shot TTS)”技术。Kwon代表解释说:“以往要用TTS再现某个人的声音,需要录制一小时以上的语音,但我们仅凭约1分钟的语音数据,就能完美复制该声音的特征和语调。”这一成果促成了向KT AI Voice Studio提供核心技术,并从KT Investment、Kakao Investment等处获得Pre-Series A轮投资。公司还与Smilegate、SM娱乐等韩国代表性的游戏与娱乐企业签订了合同。
Humelo并未止步于此,而是将技术进一步升级,开发出了可实时生成语音的“FRTTS”(Few-shot Real-time TTS)技术。以30字句子为基准,将文本合成为语音仅需0.3秒,这一速度几乎不会让人类在对话中感到延迟。Kwon代表表示:“这使AI聊天机器人、机器人以及交互式物联网设备能够在没有生硬延迟的情况下,与用户进行自然对话。”FRTTS基于Humelo自研的基础模型,不仅具备高水准音质,还能根据语义合理停顿,并自然地将韩语与英语混合表达。无论是音域不寻常的高音角色声音,还是深沉低音的独白等特殊声音,都能被完美复制。凭借这项技术,Humelo正在进军多语言配音、游戏旁白、有声书等市场。
继FRTTS之后,Humelo即将推出的“语境感知零样本TTS”将面向全球各国进行战略性发布。在英语国家,公司计划通过AI音频短内容平台“Sohri Studio”接触大众;在韩国国内,则将以企业客户为中心进行发布,主要瞄准需要用户与AI即时对话的AI呼叫中心(AICC)等领域。Kwon代表表示:“Humelo的新技术在数据获取和学习时间方面几乎接近‘0’,将为所有需要实时双向互动的服务和内容提供无限可能。”
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。