AI系统中的操纵特征-arXiv论文预印本中文版

AI系统中的操纵特征

摘要：AI系统中的操纵是许多领域的共同关注，如社交媒体、广告和聊天机器人。随着AI系统在我们与世界的交互中发挥日益重要的作用，了解AI系统可能在没有系统设计者意图的情况下操纵人类的程度至关重要。我们的研究阐明了在AI系统的背景下定义和衡量操纵的挑战。首先，我们借鉴其他领域关于操纵的先前文献，并对可能的操纵概念空间进行了界定，发现其依赖于激励、意图、伤害和隐蔽性的概念。我们对如何操作每个因素的提议进行了回顾。其次，我们根据我们的界定提出了一个操纵的定义：如果一个系统表现得像是有意地和隐蔽地追求改变人类（或其他代理人）的激励，那么该系统就是操纵的。第三，我们讨论了操纵与欺骗和胁迫等相关概念之间的联系。最后，我们将操纵的操作化置于一些应用的背景中。我们总体评估认为，在定义和衡量AI系统操纵方面已经取得了一些进展，但仍存在许多差距。在没有共识的定义和可靠的测量工具的情况下，我们不能排除AI系统会在没有系统设计者意图的情况下学会操纵人类的可能性。我们认为这种操纵对人类自主权构成了重大威胁，因此建议采取预防性行动来减轻这种威胁。

作者：Micah Carroll, Alan Chan, Henry Ashton, David Krueger

论文ID：2303.09387

分类：Computers and Society

分类简称：cs.CY

提交时间：2023-03-20

PDF 下载： 英文版中文版pdf翻译中