聆听特征-arXiv论文预印本中文版

聆听特征

摘要：用于合成音频的非参数方法研究。这些方法旨在将通常用于MIR框架的低维声学特征合成成音频。然而，有几个问题使得这一任务并不直接实现。这些特征被设计用于分析而不是合成，因此更关注高层次描述而不是易于逆转的声学表示。以往的研究已经考虑了从Mel-Frequency Cepstral Coefficients等特征合成音频的问题，但它们主要依赖于计算这些特征的显式公式以便进行逆转。在本研究中，我们采用了一种简单的盲目方法，其中可以在合成过程中使用任意的特征集合，并且重构是基于示例的。在将该方法应用于已知特征的语音合成问题之后，我们将其应用于从百万歌曲数据集中逆转歌曲的更复杂任务。这一任务更加困难的原因有两个。首先，在时间域中，特征是根据基于音符的分段进行不规则间隔的。其次，用于计算这些特征的确切方法是未知的，尽管可以使用API将新音频的特征作为黑盒计算。在本文中，我们详细说明了这些困难，并提出了一个框架，通过连接事先计算好特征的训练数据集中的音频样本来尝试进行这样的合成。样本是在特征空间中通过简单的最近邻搜索在段水平上选择的。然后可以定义其他约束以增强合成的相关性。我们还介绍了使用RWC和GTZAN音频数据集进行的初步实验，以合成来自百万歌曲数据集的音轨。

作者：Manuel Moussallam and Antoine Liutkus and Laurent Daudet

论文ID：1501.04981

分类：Sound

分类简称：cs.SD

提交时间：2015-01-22

PDF 下载： 英文版中文版pdf翻译中