大型语言模型中实体级记忆的量化和分析

摘要:大型语言模型(LLMs)被证明能够通过专门设计的提示提取其训练数据。随着数据集规模的继续增长,由于记忆化引起的隐私风险越来越受到关注。量化语言模型的记忆化有助于评估潜在的隐私风险。然而,先前关于量化记忆化的研究需要访问精确的原始数据或需要大量的计算开销,使其难以应用于实际语言模型中。为此,我们提出了一个细粒度的、基于实际场景的、基于实体级别的定义来量化记忆化,并提出了一种从自回归语言模型中高效提取敏感实体的方法。我们基于所提出的方法进行了大量的实验,评估语言模型在不同环境下重构敏感实体的能力。我们发现,语言模型在实体级别具有强大的记忆能力,即使仅部分泄露,也能够重现训练数据。结果表明,LLMs不仅记忆其训练数据,还理解实体之间的关联。这些发现要求LLMs的训练者在模型记忆化方面更加谨慎,采用记忆化缓解技术来防止隐私侵犯。

作者:Zhenhong Zhou, Jiuyang Xiang, Chaomeng Chen, Sen Su

论文ID:2308.15727

分类:Computation and Language

分类简称:cs.CL

提交时间:2023-08-31

PDF 下载: 英文版 中文版pdf翻译中