绝对主义人工智能

摘要:绝对约束对AI系统的训练可能在原则上在许多AI安全问题上取得重大进展。首先,它为避免最糟糕的错位结果提供了防护措施。其次,它可以防止AI为了非常有价值的后果而造成灾难,例如用更多数量的生命代替人类,提高福利水平。第三,它使系统更具修正性,允许创造者对其进行纠正干预,如改变其目标函数或关闭它们。第四,它通过禁止它们探索尤其危险的行为来帮助系统更安全地探索其环境。我提供了对绝对约束的决策理论形式化,改进了现有文献中的模型,并使用这个模型证明了一些关于绝对主义AI的训练和行为的结果。我最后证明了,尽管绝对主义AI不会使期望值最大化,但它们不会易受非理性行为的影响,并且(与一致性论证相反)它们也不会受到成为期望值最大化者的环境压力。

作者:Mitchell Barrington

论文ID:2307.10315

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-07-21

PDF 下载: 英文版 中文版pdf翻译中