近端策略优化实战：操作输出标记器长度-arXiv论文预印本中文版

近端策略优化实战：操作输出标记器长度

摘要：通过人类反馈进行强化学习 (RLHF) 在塑造大型语言模型 (LLMs) 的影响方面发挥着关键作用，显著有助于控制输出的毒性和选择输出的风格，特别是由于 LLMs 往往包含误导性内容，突出了将它们与人类价值观相一致以建立安全 AI 系统的迫切性。RLHF 具有复杂性、不稳定性和对超参数的敏感性的特点，使得对复杂任务的奖励模型进行评估具有挑战性，进一步加大了使用近端策略优化 (PPO) 的复杂性。在本文中，我们引入了一个简单的任务，设计利用 Gloden 作为奖励模型，验证了 PPO 的有效性并给它带来了启发，主要解释了利用 PPO 来操作模型生成的输出的标记器长度的任务。实验证实，在这种类型的任务中，PPO 不仅在一定程度上有效地操纵输出的标记器长度，而且在排除了奖励模型影响的情况下，训练也变得更容易，这是一个令人兴奋的发展。

作者：Miao Fan, Chen Hu, Shuchang Zhou

论文ID：2308.05585

分类：Artificial Intelligence

分类简称：cs.AI

提交时间：2023-08-11

PDF 下载： 英文版中文版pdf翻译中