不共享的线索提示:通过相互知识蒸馏的联邦线索提示语音识别框架
摘要:联结语言和手势的干预语(Cued Speech, CS)是一种在语音语言水平上编码口语的视觉编码工具,它结合了嘴唇阅读和手势,有效地帮助听力障碍者之间的交流。自动联结语言识别(Automatic CS Recognition, ACSR)任务旨在将联结语言视频识别为语言文本,其中包括嘴唇和手部作为两种传递互补信息的不同模态。然而,传统的集中式训练方法由于使用联结语言数据中的面部和手势视频存在潜在的隐私风险。为了解决这个问题,我们提出了一种新的联邦式联结语言识别(Federated Cued Speech Recognition, FedCSR)框架,可以在不共享私人信息的情况下对分散式的联结语言数据进行ACSR模型训练。具体而言,我们提出了一种互相知识蒸馏方法,以保持非独立同分布的联结语言数据的跨模态语义一致性,从而确保学习统一的特征空间用于语言和视觉信息。在服务器端,通过视觉到语言的蒸馏,训练一个全局共享的语言模型来捕捉文本句子中的长期依赖性,与来自本地客户端的视觉信息相匹配。在客户端端,使用自己的本地数据训练每个客户端的视觉模型,并通过语言到视觉的蒸馏将语言模型作为教师进行辅助训练。据我们所知,这是首个考虑联合ACSR任务以保护隐私的方法。在包含多个发音者的中国联结语言数据集上的实验结果表明,我们的方法优于主流联合学习基线和现有的集中式ACSR方法,字符错误率(CER)提高了9.7%,词错误率(WER)提高了15.0%。
作者:Yuxuan Zhang, Lei Liu and Li Liu
论文ID:2308.03432
分类:Multimedia
分类简称:cs.MM
提交时间:2023-08-08