UNIST,通过语音情感分析生成人脸表情
未训练过的情绪也能表达……准确率提升14个百分点

“做得真好。”


同样一句话,既可能是真心称赞,也可能是在讽刺。人类仅凭说话语气和语调就能读出情绪,但这对人工智能来说并非易事。

C-MET与现有方法的情感编辑结果对比。研究团队表示,在相同的中性表情视频中输入带有讽刺情绪的语音进行性能比较后,C-MET最准确地实现了嘴角向两侧大幅拉开等讽刺特有的细微表情变化。相比之下,现有技术未能准确再现这类情感表达。研究团队供图

C-MET与现有方法的情感编辑结果对比。研究团队表示,在相同的中性表情视频中输入带有讽刺情绪的语音进行性能比较后,C-MET最准确地实现了嘴角向两侧大幅拉开等讽刺特有的细微表情变化。相比之下,现有技术未能准确再现这类情感表达。研究团队供图

View original image

韩国研究团队开发出一项人工智能技术,能够读取语音中蕴含的细微情感,并改变视频中人物的面部表情。该技术不仅可以表现喜悦或悲伤,还能呈现讽刺、共情、魅力等复杂情绪,因此有望大幅提升虚拟人、教育用虚拟形象、咨询人工智能等的自然度。


蔚山科学技术院表示,Kim Taehwan人工智能研究生院教授团队开发出一款名为“C-MET”的人工智能模块,全称为Cross-Modal Emotion Transfer,可从语音信号中提取情感,并将视频中说话者的面部表情转换为目标情绪。


现有的人脸生成人工智能存在局限,例如需要表达特定情绪的参考图像,或只能在已学习的情绪范围内生成表情。


研究团队关注的并非情绪本身,而是情绪的“变化量”。


团队先将中性语音与带有情绪的语音之间的差异进行量化,再让人工智能学习这种变化在面部会呈现出怎样的表情变化。因此,即使话语内容与情绪混杂在一起,系统也能仅分离并读取情绪信号。


例如,即便说的是同一句话,也能根据语气不同,呈现出不同的嘴角、眉毛及眼周动作。


尤其是,该技术并非通过给情绪贴上“喜悦”或“悲伤”等标签来学习,而是学习情绪之间的差异,因此连训练过程中未见过的情绪也能表现出来。据介绍,它还可以表达讽刺、共情、魅力等细腻情绪。


“无需照片也能呈现情绪”……虚拟人应用前景可期


研究团队将C-MET应用于最新的说话人脸编辑技术“EDTalk”,以验证其性能。


结果显示,以多情绪语音·视频数据集MEAD,即Multimodal Emotion-Aware Dataset,为标准衡量时,情绪表达准确率由原先的41.99%提升至55.91%,提高约14个百分点。


在另一款人脸生成模型“PD-FGC”中,准确率也由33.36%提升至36.82%。推理速度同样加快,这表明该技术并不局限于特定模型,而是可应用于多种人脸生成人工智能。

研究团队照片。Kim Taehwan教授(左)与Choi Chanhyeok研究员。UNIST供图

研究团队照片。Kim Taehwan教授(左)与Choi Chanhyeok研究员。UNIST供图

View original image

研究团队表示,该技术无需包含情绪的高质量参考图像,仅凭语音即可生成表情,因此具有较高的应用潜力。


Kim Taehwan教授表示:“这项研究在无需参考图像、仅凭语音就能改变人脸视频情绪这一点上,切实解决了现有技术的局限。它是一项可应用于虚拟人制作、电影与内容后期制作、情绪识别人工智能等多领域的基础技术。”



此次研究由UNIST人工智能研究生院硕士生Choi Chanhyeok作为第一作者参与,研究成果已被人工智能与计算机视觉领域顶级学术会议CVPR 2026接收。


本报道由人工智能(AI)翻译技术生成。

版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。

不容错过的热点