MusicJam：通过生成的叙事插图可视化音乐洞察力-arXiv论文预印本中文版

MusicJam：通过生成的叙事插图可视化音乐洞察力

摘要：呈现不可见音乐的见解能够为听众带来愉悦和沉浸式的听觉体验，因此在信息可视化领域引起了很大的关注。在过去的几十年里，引入了各种音乐可视化技术。然而，其中大多数是通过遵循视觉编码规则手动设计的，因此以图形的可视表示形式呈现，其视觉编码模式通常需要花费一定的力气才能理解。最近，一些研究者使用图形或插图来表示音乐的情绪，歌词和音乐特点，这更直观和有吸引力。然而，在这些技术中，图形通常是预先选定或静态生成的，因此无法准确传达不同音乐作品的洞察力。为了解决这个问题，在本文中，我们介绍了MusicJam，一种音乐可视化系统，能够生成叙述插图来表示输入音乐的洞察力。该系统利用基于GPT-2的新型生成模型，根据输入音乐生成有意义的歌词，然后采用稳定扩散模型将歌词转化为连贯的插图。最后，生成的结果与输入音乐同步渲染为一个伴随音乐的MP4视频。我们通过与基准模型进行比较评估了提出的歌词生成模型，并进行了用户研究，以估计生成插图和最终音乐视频的质量。结果显示了我们技术的优势。

作者：Chuer Chen, Nan Cao, Jiani Hou, Yi Guo, Yulei Zhang, Yang Shi

论文ID：2308.11329

分类：Human-Computer Interaction

分类简称：cs.HC

提交时间：2023-08-29

PDF 下载： 英文版中文版pdf翻译中