夺回数字公共领域：用于训练数据的公共数据信托-arXiv论文预印本中文版

夺回数字公共领域：用于训练数据的公共数据信托

摘要：AI民主化意味着人们不仅可以自由使用AI，还可以共同决定如何使用AI。特别是，集体决策权力对于解决日益先进的AI系统发展所带来的负面外部性至关重要，包括数字共享资源的退化和因自动化而导致的失业问题。当前AI开发和部署的快速步伐几乎没有为这种权力留下空间。目前，AI开发主要由私营企业垄断，最具能力的基础模型的发展基本上没有得到公众的参与。目前还没有可行的机制来确保这些模型产生的经济价值得到重新分配，以弥补它们的负面外部性。生成用于训练模型的数据的公民对于他们的数据如何被使用没有发言权。在本研究中，我们建议建立一个公共数据信托机构来掌控基础模型的训练数据。特别是，这个信托机构应该将互联网视为数字共享资源，授权给商业模型开发者，并从部署收入中抽取一定比例的份额。首先，我们详细论证了这样一个信托机构的存在。我们还讨论了可行性和潜在风险。其次，我们详细说明了信托机构激励模型开发者只使用来自信托的训练数据的几种方式。我们提出了一种验证机制、潜在的监管行动和正面激励的混合方案。最后，我们总结了我们提出的数据信托的其他潜在好处，并将我们的工作与数据和计算治理的持续努力联系起来。

作者：Alan Chan, Herbie Bradley, Nitarshan Rajkumar

论文ID：2303.09001

分类：Computers and Society

分类简称：cs.CY

提交时间：2023-05-23

PDF 下载： 英文版中文版pdf翻译中