对话式人工智能安全中的交叉性:贝叶斯多层模型如何帮助理解对安全的多元感知
摘要:深度学习技术能够提供人类般的智能行为,因此在日常生活的许多方面,比如获取信息、创造内容和寻求社会支持等方面都会产生深远的影响。然而,这些模型也存在偏见、冒犯性语言和传递错误信息的倾向。因此,理解和调控这些模型中的安全风险是一项重要的技术和社会挑战。安全感是内在的主观评判,很多因素(通常交叉影响)可能决定为什么有人认为与聊天机器人的对话是安全的,而另一些人则认为相同的对话是不安全的。在这项研究中,我们关注可能影响不同感知的人口因素。为此,我们使用贝叶斯多层建模进行分析,探究评价者的人口统计数据与评价者如何报告关于对话型AI系统安全性的联系。我们研究了252名人类评价者的样本,他们按性别、年龄组、种族/族裔组和所在地进行了分层。这些评价者为1,340个人-机器人对话提供了安全标签。我们的结果显示,种族/族裔、性别、年龄等人口特征以及内容特征(如伤害程度)都在确定对话型AI系统的安全性方面起着重要作用。例如,种族/族裔和性别在南亚和东亚的女性中显示出明显的交叉效应。我们还发现,所有种族/族裔群体的评价者对对话的伤害程度都很敏感,但土著和南亚评价者对此伤害尤其敏感。最后,我们观察到受教育程度对土著评价者具有独特的交叉效应,凸显了多层次框架揭示被较少代表的社会观点的实用性。
作者:Christopher M. Homan, Greg Serapio-Garcia, Lora Aroyo, Mark Diaz, Alicia Parrish, Vinodkumar Prabhakaran, Alex S. Taylor, Ding Wang
论文ID:2306.11530
分类:Human-Computer Interaction
分类简称:cs.HC
提交时间:2023-06-21