增强语音数据集的数据表和道德决策

摘要:言语数据集对于训练语音语言技术(SLT)至关重要;然而,底层训练数据的缺乏多样性可能会在构建公平和稳健的SLT产品方面导致严重限制,特别是在语言、口音、方言、变体和言语障碍等方面,以及言语特征与社会经济和人口特征的交叉性。此外,对于底层训练数据的监督通常存在不足 - 它们通常是基于大规模网络爬取和/或公开可用言语构建的,并且在数据收集的伦理方面缺乏监管。为了鼓励对这种言语数据组件进行标准化文档化,我们引入了一种增强型言语数据集数据表,它可以与“数据集资料表”一起使用。然后,我们根据对机器学习、语言学和健康等领域中使用的言语数据的深入文献综述,举例说明了我们增强型数据表中每个问题的重要性。最后,我们鼓励从数据集创建者到研究人员的从业者使用我们增强型数据表来更好地定义言语数据集的范围、属性和限制,同时鼓励考虑数据主体保护和用户社区赋权。伦理数据集的创建并非一种适合所有情况的过程,但数据集创建者可以使用我们的增强型数据表,反思相关SLT应用和数据源的社会背景,以促进更包容的下游SLT产品。

作者:Orestis Papakyriakopoulos, Anna Seo Gyeong Choi, Jerone Andrews, Rebecca Bourke, William Thong, Dora Zhao, Alice Xiang, Allison Koenecke

论文ID:2305.04672

分类:Computers and Society

分类简称:cs.CY

提交时间:2023-05-09

PDF 下载: 英文版 中文版pdf翻译中