AMD:自回归运动扩散
摘要:生成人类动作旨在根据各种条件输入(如文本或音频)生成合理的人类动作序列。尽管现有方法在根据简短提示和简单动作模式生成动作方面具备可行性,但在处理长提示或复杂动作时仍然面临困难。挑战有两个:1)长提示和复杂动作的人类动作捕捉数据稀缺。2)时间域内人类动作的高多样性以及与条件模态的明显分布差异,导致生成复杂和长文本动作时存在多对多映射问题。在这项工作中,我们通过1)详述长文本描述和3D复杂动作的第一个数据集对(HumanLong3D),以及2)提出一种自回归动作扩散模型(AMD)来解决这些差距。具体而言,AMD通过将当前时间步的文本提示与先前时间步的文本提示和动作序列作为条件信息,以迭代的方式预测当前的动作序列。此外,我们提出了其“无遗漏模式”的X到动作的推广,使得基于用户定义的模态输入能够生成高清晰度和高保真度的人类动作。
作者:Bo Han, Hao Peng, Minjing Dong, Yi Ren, Yixuan Shen, Chang Xu
论文ID:2305.09381
分类:Multimedia
分类简称:cs.MM
提交时间:2023-08-22