人工智能的信心建设措施：研讨会论文集-arXiv论文预印本中文版

人工智能的信心建设措施：研讨会论文集

摘要：基金会模型可能最终会引入一些破坏国家安全的途径：意外事故、无意中的升级、无意的冲突、武器扩散以及干涉人类外交等等。由OpenAI的地缘政治团队和加州大学伯克利风险与安全实验室主办的《人工智能建立信任措施》研讨会汇集了一个多利益相关方的团队，共同思考如何通过工具和策略来缓解基金会模型对国际安全带来的潜在风险。作为起源于冷战时期的信任建立措施，信任建立措施是减少敌意、防止冲突升级和改善各方之间信任的行动。信任建立措施的灵活性使其成为应对基金会模型快速变化中的关键工具。与基金会模型直接相关的信任建立措施如下，并在本会议记录中作进一步解释：1.危机热线；2.事件共享；3.模型透明性和系统卡片；4.内容来源和水印；5.协同红队和桌面演练；6.数据集和评估共享。由于大多数基金会模型开发者是非政府实体，因此许多信任建立措施需要涉及更广泛的利益相关方社区。这些措施可以由AI实验室或相关政府行为者来实施。

作者：Sarah Shoker, Andrew Reddie, Sarah Barrington, Ruby Booth, Miles Brundage, Husanjot Chahal, Michael Depp, Bill Drexel, Ritwik Gupta, Marina Favaro, Jake Hecla, Alan Hickey, Margarita Konaev, Kirthi Kumar, Nathan Lambert, Andrew Lohn, Cullen O'Keefe, Nazneen Rajani, Michael Sellitto, Robert Trager, Leah Walker, Alexa Wehsener, Jessica Young

论文ID：2308.00862

分类：Computers and Society

分类简称：cs.CY

提交时间：2023-08-07

PDF 下载： 英文版中文版pdf翻译中