连“做得真好”一句中的讽刺都能读懂……AI可改变表情[读懂科学]

by Kim Jonghwa

Published 18 Jun.2026 08:00(KST)

UNIST，通过语音情感分析生成人脸表情
未训练过的情绪也能表达……准确率提升14个百分点

“做得真好。”

同样一句话，既可能是真心称赞，也可能是在讽刺。人类仅凭说话语气和语调就能读出情绪，但这对人工智能来说并非易事。

C-MET与现有方法的情感编辑结果对比。研究团队表示，在相同的中性表情视频中输入带有讽刺情绪的语音进行性能比较后，C-MET最准确地实现了嘴角向两侧大幅拉开等讽刺特有的细微表情变化。相比之下，现有技术未能准确再现这类情感表达。研究团队供图

韩国研究团队开发出一项人工智能技术，能够读取语音中蕴含的细微情感，并改变视频中人物的面部表情。该技术不仅可以表现喜悦或悲伤，还能呈现讽刺、共情、魅力等复杂情绪，因此有望大幅提升虚拟人、教育用虚拟形象、咨询人工智能等的自然度。

蔚山科学技术院表示，Kim Taehwan人工智能研究生院教授团队开发出一款名为“C-MET”的人工智能模块，全称为Cross-Modal Emotion Transfer，可从语音信号中提取情感，并将视频中说话者的面部表情转换为目标情绪。

现有的人脸生成人工智能存在局限，例如需要表达特定情绪的参考图像，或只能在已学习的情绪范围内生成表情。

研究团队关注的并非情绪本身，而是情绪的“变化量”。

团队先将中性语音与带有情绪的语音之间的差异进行量化，再让人工智能学习这种变化在面部会呈现出怎样的表情变化。因此，即使话语内容与情绪混杂在一起，系统也能仅分离并读取情绪信号。

例如，即便说的是同一句话，也能根据语气不同，呈现出不同的嘴角、眉毛及眼周动作。

尤其是，该技术并非通过给情绪贴上“喜悦”或“悲伤”等标签来学习，而是学习情绪之间的差异，因此连训练过程中未见过的情绪也能表现出来。据介绍，它还可以表达讽刺、共情、魅力等细腻情绪。

研究团队将C-MET应用于最新的说话人脸编辑技术“EDTalk”，以验证其性能。

结果显示，以多情绪语音·视频数据集MEAD，即Multimodal Emotion-Aware Dataset，为标准衡量时，情绪表达准确率由原先的41.99%提升至55.91%，提高约14个百分点。

在另一款人脸生成模型“PD-FGC”中，准确率也由33.36%提升至36.82%。推理速度同样加快，这表明该技术并不局限于特定模型，而是可应用于多种人脸生成人工智能。

研究团队照片。Kim Taehwan教授（左）与Choi Chanhyeok研究员。UNIST供图

研究团队表示，该技术无需包含情绪的高质量参考图像，仅凭语音即可生成表情，因此具有较高的应用潜力。

Kim Taehwan教授表示：“这项研究在无需参考图像、仅凭语音就能改变人脸视频情绪这一点上，切实解决了现有技术的局限。它是一项可应用于虚拟人制作、电影与内容后期制作、情绪识别人工智能等多领域的基础技术。”

此次研究由UNIST人工智能研究生院硕士生Choi Chanhyeok作为第一作者参与，研究成果已被人工智能与计算机视觉领域顶级学术会议CVPR 2026接收。

本报道由人工智能(AI)翻译技术生成。