时域神经音频风格转换-arXiv论文预印本中文版

时域神经音频风格转换

摘要：使用最近发表的音频风格转换方法可以扩展图像风格转换流程到音频。该方法使用短时傅里叶变换的幅度、具有随机初始化滤波器的浅层卷积神经网络以及Griffin-Lim的迭代相位重建，独立地合成音频的“内容”和“风格”。在本文中，我们探索是否可能直接优化时间域音频信号，去除相位重建的过程，为实时应用和高质量合成开启新的可能性。我们探索了一系列在直接操作时间域音频信号上的神经网络风格转换过程，并展示了一种能够对音频进行风格化的网络。

作者：Parag K. Mital

论文ID：1711.11160

分类：Sound

分类简称：cs.SD

提交时间：2017-12-01

PDF 下载： 英文版中文版pdf翻译中