微软公司最近推出了一种基于单一静态图像和语音音频剪辑的具有视觉情感技能(VAS)的虚拟人物逼真说话脸生成框架VASA。
模型VASA-1不仅能够产生与音频同步的嘴唇动作,而且还能够捕捉到大量的面部细微差别和自然的头部动作,
从而有助于感知真实性和活力。
核心创新包括在面部潜在空间中工作的整体面部动力学和头部运动生成模型,
以及利用视频开发这种具有表现力和解纠缠性的面部潜在空间。通过广泛的实验,包括对一组新指标的评估,
我们表明我们的方法在各个方面都明显优于以前的方法。我们的方法不仅提供高视频质量,逼真的面部和头部动态,
而且还支持以高达40 FPS的速度在线生成512x512视频,启动延迟可以忽略不计。它为模拟人类对话行为的逼真化身的实时互动铺平了道路。
官网:https://www.microsoft.com/en-us/research/project/vasa-1/
论文:https://arxiv.org/pdf/2404.10667.pdf
版权声明
本文仅代表作者观点,不代表本网站立场。
本文系作者授权本网站发表,未经许可,不得转载。
发表评论