MusicJam:通过生成的叙事插图可视化音乐洞察力
摘要:呈现不可见音乐的见解能够为听众带来愉悦和沉浸式的听觉体验,因此在信息可视化领域引起了很大的关注。在过去的几十年里,引入了各种音乐可视化技术。然而,其中大多数是通过遵循视觉编码规则手动设计的,因此以图形的可视表示形式呈现,其视觉编码模式通常需要花费一定的力气才能理解。最近,一些研究者使用图形或插图来表示音乐的情绪,歌词和音乐特点,这更直观和有吸引力。然而,在这些技术中,图形通常是预先选定或静态生成的,因此无法准确传达不同音乐作品的洞察力。为了解决这个问题,在本文中,我们介绍了MusicJam,一种音乐可视化系统,能够生成叙述插图来表示输入音乐的洞察力。该系统利用基于GPT-2的新型生成模型,根据输入音乐生成有意义的歌词,然后采用稳定扩散模型将歌词转化为连贯的插图。最后,生成的结果与输入音乐同步渲染为一个伴随音乐的MP4视频。我们通过与基准模型进行比较评估了提出的歌词生成模型,并进行了用户研究,以估计生成插图和最终音乐视频的质量。结果显示了我们技术的优势。
作者:Chuer Chen, Nan Cao, Jiani Hou, Yi Guo, Yulei Zhang, Yang Shi
论文ID:2308.11329
分类:Human-Computer Interaction
分类简称:cs.HC
提交时间:2023-08-29