[AI革命](162)与AI实时语音对话……以“双向TTS”为目标的Humelo

by Kim Chulhyun

Published 01 Aug.2025 08:31(KST)

读懂对话语境的“零样本TTS”
语音AI范式转变

韩国科学技术院（KAIST）的年轻开拓者们，将“声音”视为人工智能（AI）重要的目的地之一。他们判断，让人类与AI实现自然交流，才是通往AI革命之路。出身于KAIST计算机系的代表理事Kwon Yongseok和首席研究员Lee Jaryong志同道合，于2018年共同创立了Humelo，公司没有选择已成巨额资本角力场的超大规模语言模型（LLM），而是瞄准可以凭借独门技术取胜的“语音AI”领域不断谋求创新。创业7年后的今天，Humelo已成长为韩国代表性的语音AI企业，被娱乐、游戏、有声书等内容公司，以及金融机构、公共机构和大型企业等广泛采用。

权容锡代表。Humelo提供

1日，Kwon代表表示：“我们的目标不仅是实现简单朗读文本的单向TTS（文本转语音），而是要实现能与用户进行实时对话并交流情感的‘双向TTS’。”他介绍的双向TTS（语音转换）以Humelo汇聚全部技术实力打造的下一代模型“语境感知零样本TTS”为基础。字面意义上，是在没有数据（Zero-shot）的情况下，连同对话语境一并理解并生成语音的技术。Kwon代表称：“在没有事先训练数据的前提下，AI能够把握此前对话的细微差别和情感流动，并以与之相匹配的最自然语调和说话方式，立即接续下一句台词。目前已达到可以进行技术演示的阶段。”

在实现这一堪比科幻电影的技术之前，Humelo自创业初期起经历了多个阶段。一切源于一个根本性问题：“怎样才能让AI像人一样自然地说话？”第一个答案是“少样本TTS（Few-Shot TTS）”技术。Kwon代表解释说：“以往要用TTS再现某个人的声音，需要录制一小时以上的语音，但我们仅凭约1分钟的语音数据，就能完美复制该声音的特征和语调。”这一成果促成了向KT AI Voice Studio提供核心技术，并从KT Investment、Kakao Investment等处获得Pre-Series A轮投资。公司还与Smilegate、SM娱乐等韩国代表性的游戏与娱乐企业签订了合同。

权容石代表正在讲解语音人工智能技术。Humelo提供

Humelo并未止步于此，而是将技术进一步升级，开发出了可实时生成语音的“FRTTS”（Few-shot Real-time TTS）技术。以30字句子为基准，将文本合成为语音仅需0.3秒，这一速度几乎不会让人类在对话中感到延迟。Kwon代表表示：“这使AI聊天机器人、机器人以及交互式物联网设备能够在没有生硬延迟的情况下，与用户进行自然对话。”FRTTS基于Humelo自研的基础模型，不仅具备高水准音质，还能根据语义合理停顿，并自然地将韩语与英语混合表达。无论是音域不寻常的高音角色声音，还是深沉低音的独白等特殊声音，都能被完美复制。凭借这项技术，Humelo正在进军多语言配音、游戏旁白、有声书等市场。

必读新闻

“不好看谁会买”恶评如潮……9.2亿韩元豪车已售罄

继FRTTS之后，Humelo即将推出的“语境感知零样本TTS”将面向全球各国进行战略性发布。在英语国家，公司计划通过AI音频短内容平台“Sohri Studio”接触大众；在韩国国内，则将以企业客户为中心进行发布，主要瞄准需要用户与AI即时对话的AI呼叫中心（AICC）等领域。Kwon代表表示：“Humelo的新技术在数据获取和学习时间方面几乎接近‘0’，将为所有需要实时双向互动的服务和内容提供无限可能。”

한글 기사 보기

本报道由人工智能(AI)翻译技术生成。