AI系统中的操纵特征

摘要:AI系统中的操纵是许多领域的共同关注,如社交媒体、广告和聊天机器人。随着AI系统在我们与世界的交互中发挥日益重要的作用,了解AI系统可能在没有系统设计者意图的情况下操纵人类的程度至关重要。我们的研究阐明了在AI系统的背景下定义和衡量操纵的挑战。首先,我们借鉴其他领域关于操纵的先前文献,并对可能的操纵概念空间进行了界定,发现其依赖于激励、意图、伤害和隐蔽性的概念。我们对如何操作每个因素的提议进行了回顾。其次,我们根据我们的界定提出了一个操纵的定义:如果一个系统表现得像是有意地和隐蔽地追求改变人类(或其他代理人)的激励,那么该系统就是操纵的。第三,我们讨论了操纵与欺骗和胁迫等相关概念之间的联系。最后,我们将操纵的操作化置于一些应用的背景中。我们总体评估认为,在定义和衡量AI系统操纵方面已经取得了一些进展,但仍存在许多差距。在没有共识的定义和可靠的测量工具的情况下,我们不能排除AI系统会在没有系统设计者意图的情况下学会操纵人类的可能性。我们认为这种操纵对人类自主权构成了重大威胁,因此建议采取预防性行动来减轻这种威胁。

作者:Micah Carroll, Alan Chan, Henry Ashton, David Krueger

论文ID:2303.09387

分类:Computers and Society

分类简称:cs.CY

提交时间:2023-03-20

PDF 下载: 英文版 中文版pdf翻译中