探测和缓解人工智能欺骗的实验-arXiv论文预印本中文版

探测和缓解人工智能欺骗的实验

摘要：如何检测和缓解欺骗性人工智能系统是安全可信人工智能领域的一个开放问题。我们分析了两种减轻欺骗的算法：第一种基于路径特定目标框架，在游戏中去除鼓励欺骗的路径。第二种基于屏蔽，即监测不安全策略并用安全参考策略替换它们。我们构建了两个简单的游戏，并对我们的算法进行了经验评估。我们发现这两种方法都确保我们的代理不会欺骗，然而，屏蔽方法往往能够获得更高的奖励。

作者：Ismail Sahbane, Francis Rhys Ward, C Henrik {AA}slund

论文ID：2306.14816

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-06-27

PDF 下载： 英文版中文版pdf翻译中