语义驱动的数字人行为生成

摘要:虚拟形象合成技术旨在对特定人物合成拟人化、真实感、多模态的音视频,在影视、游戏、社交、虚拟现实、零售、教育等场景都有着广泛的应用前景。虚拟形象合成包含了三个子方向,人物建模、人物驱动、人物渲染。本次报告详细介绍了人物驱动部分的探索研究,包括语音驱动的多风格面部表情合成,多模态的手势合成,编舞知识指导的舞蹈合成等,重点探讨了面部表情、手势、舞蹈的合成中深度学习方法倾向于合成过平滑的动作、导致人物驱动缺乏多样性和真实性的难题,并展示了对抗“过平滑”的几种方法及其效果:如设计多风格的合成模型、将连续的动作空间离散化、引入预训练模型和注意力机制、引入先验知识等。报告还将对该方向的未来发展做出展望。


简介:贾珈,清华大虚拟形象合成技术旨在对特定人物合成拟人化、真实感、多模态的音视频,在影视、游戏、社交、虚拟现实、零售、教育等场景都有着广泛的应用前景。虚拟形象合成包含了三个子方向,人物建模、人物驱动、人物渲染。本次报告详细介绍了人物驱动部分的探索研究,包括语音驱动的多风格面部表情合成,多模态的手势合成,编舞知识指导的舞蹈合成等,重点探讨了面部表情、手势、舞蹈的合成中深度学习方法倾向于合成过平滑的动作、导致人物驱动缺乏多样性和真实性的难题,并展示了对抗“过平滑”的几种方法及其效果:如设计多风格的合成模型、将连续的动作空间离散化、引入预训练模型和注意力机制、引入先验知识等。报告还将对该方向的未来发展做出展望。学计算机系长聘教授、博导,国家级青年人才称号获得者。目前担任中文信息学会理事、中国计算机学会语音对话与听觉专委会秘书长、中文信息学会语音专业委员会秘书长、中国图像图形学学会情感计算与理解专委会副主任等。曾获电子学会科技进步一等奖、教育部科技进步二等奖,以及国际学术会议ACM Multimedia和IJCAI等五项论文奖励。