上下文感知的人头视频编辑
摘要:通过文本转录编辑,对预先录制的视频进行插入、删除和替换文字,以实现脱口而出的视频编辑。这项任务的关键挑战是获得一个编辑模型,能够生成同时具有准确的唇部同步和运动平滑性的新脱口而出视频片段。以往的方法,包括基于3DMM(三维可塑模型)的方法和基于NeRF(神经辐射场)方法,存在一些不足之处,要么需要几分钟的源视频和几天的训练时间,要么缺乏对视频片段插入的语言(例如唇部运动)和非语言(例如头部姿势和表情)表示的解耦控制。在这项工作中,我们充分利用视频背景设计了一个新颖的脱口而出视频编辑框架,实现了高效性、解耦运动控制和顺序平滑。具体而言,我们将该框架分解为运动预测和运动条件渲染两个部分:(1)我们首先设计了一个动画预测模块,通过驱动的语音高效地获得平滑的唇部同步运动序列。该模块采用非自回归网络获得上下文先验,并通过多身份视频数据集学习更好地推广到新颖语音的语音-动画映射先验。(2)然后,我们引入了一个神经渲染模块,根据预测的运动序列合成逼真的全头部视频帧。该模块采用预训练的头部拓扑,并仅使用少量帧进行高效微调以获取个人特定的渲染模型。大量实验证明,我们的方法能够以较少的数据实现更流畅的编辑效果,具有更高的图像质量和唇部准确度,超过了以往的方法。
作者:Songlin Yang, Wei Wang, Jun Ling, Bo Peng, Xu Tan, Jing Dong
论文ID:2308.00462
分类:Multimedia
分类简称:cs.MM
提交时间:2023-08-02