日常家庭环境中使用可穿戴感应器自动检测前景语音:一种迁移学习方法

摘要:智能手表音频捕获技术在健康和人类行为分析方面已经被证明是一种有效的基础。在本研究中,我们将重点放在从智能手表捕获的音频中检测自然环境中的面对面社交互动问题上。作为检测社交互动的第一步,关键是要将佩戴手表的个人的语音与其他附近的声音区分开,如其他人的语音和环境声音。在现实环境中,这是非常具有挑战性的,因为社交互动是自发发生的,而且无法事先培训有监督模型以识别动态社交环境的复杂性。在本文中,我们介绍了一种基于迁移学习的方法来检测佩戴智能手表的用户的前景语音。该方法的一个亮点是它不依赖于收集语音样本来构建特定用户模型。相反,该方法基于从公共数据集中获得的通用发言人表示形式的知识转移。我们的实验证明了我们的方法与完全有监督模型的性能相当,F1得分为80%。为了评估该方法,我们收集了31小时的智能手表记录音频数据集,涉及18个家庭和39名参与者执行各种半受控任务。

作者:Dawei Liang, Zifan Xu, Yinuo Chen, Rebecca Adaimi, David Harwath, Edison Thomaz

论文ID:2203.11294

分类:Sound

分类简称:cs.SD

提交时间:2022-03-23

PDF 下载: 英文版 中文版pdf翻译中