近端策略优化实战:操作输出标记器长度

摘要:通过人类反馈进行强化学习 (RLHF) 在塑造大型语言模型 (LLMs) 的影响方面发挥着关键作用,显著有助于控制输出的毒性和选择输出的风格,特别是由于 LLMs 往往包含误导性内容,突出了将它们与人类价值观相一致以建立安全 AI 系统的迫切性。RLHF 具有复杂性、不稳定性和对超参数的敏感性的特点,使得对复杂任务的奖励模型进行评估具有挑战性,进一步加大了使用近端策略优化 (PPO) 的复杂性。在本文中,我们引入了一个简单的任务,设计利用 Gloden 作为奖励模型,验证了 PPO 的有效性并给它带来了启发,主要解释了利用 PPO 来操作模型生成的输出的标记器长度的任务。实验证实,在这种类型的任务中,PPO 不仅在一定程度上有效地操纵输出的标记器长度,而且在排除了奖励模型影响的情况下,训练也变得更容易,这是一个令人兴奋的发展。

作者:Miao Fan, Chen Hu, Shuchang Zhou

论文ID:2308.05585

分类:Artificial Intelligence

分类简称:cs.AI

提交时间:2023-08-11

PDF 下载: 英文版 中文版pdf翻译中