对话式人工智能安全中的交叉性：贝叶斯多层模型如何帮助理解对安全的多元感知-arXiv论文预印本中文版

对话式人工智能安全中的交叉性：贝叶斯多层模型如何帮助理解对安全的多元感知

摘要：深度学习技术能够提供人类般的智能行为，因此在日常生活的许多方面，比如获取信息、创造内容和寻求社会支持等方面都会产生深远的影响。然而，这些模型也存在偏见、冒犯性语言和传递错误信息的倾向。因此，理解和调控这些模型中的安全风险是一项重要的技术和社会挑战。安全感是内在的主观评判，很多因素（通常交叉影响）可能决定为什么有人认为与聊天机器人的对话是安全的，而另一些人则认为相同的对话是不安全的。在这项研究中，我们关注可能影响不同感知的人口因素。为此，我们使用贝叶斯多层建模进行分析，探究评价者的人口统计数据与评价者如何报告关于对话型AI系统安全性的联系。我们研究了252名人类评价者的样本，他们按性别、年龄组、种族/族裔组和所在地进行了分层。这些评价者为1,340个人-机器人对话提供了安全标签。我们的结果显示，种族/族裔、性别、年龄等人口特征以及内容特征（如伤害程度）都在确定对话型AI系统的安全性方面起着重要作用。例如，种族/族裔和性别在南亚和东亚的女性中显示出明显的交叉效应。我们还发现，所有种族/族裔群体的评价者对对话的伤害程度都很敏感，但土著和南亚评价者对此伤害尤其敏感。最后，我们观察到受教育程度对土著评价者具有独特的交叉效应，凸显了多层次框架揭示被较少代表的社会观点的实用性。

作者：Christopher M. Homan, Greg Serapio-Garcia, Lora Aroyo, Mark Diaz, Alicia Parrish, Vinodkumar Prabhakaran, Alex S. Taylor, Ding Wang

论文ID：2306.11530

分类：Human-Computer Interaction

分类简称：cs.HC

提交时间：2023-06-21

PDF 下载： 英文版中文版pdf翻译中