强化学习中,当智能体利用收益函数的漏洞或模糊性以获取更高的收益值而非真正去学习或者完成训练任务时,我们称此类行为叫收益侵入(reward hacking)。收益骇客之所以存在,是因为强化学习的环境不是完美的。并且,设计一个精准的收益函数是一件极具挑战性的工作。

文章目录


  1. 强化学习中的收益骇客
    1. 背景
      1. RL中的收益函数
      2. 伪关联
    2. 让我们来定义收益侵入
      1. 收益侵入举例
        1. RL任务举例
        2. LLM 任务举例
        3. 实际生活举例
      2. 为何收益侵入存在
    3. 侵入RL环境
    4. 侵入LLMs的RLHF
      1. 侵入训练过程
      2. 侵入评估器
      3. 情境收益侵入
    5. 侵入技巧的泛化性
    6. 缓解方法一瞥
      1. RL算法改进
      2. 收益侵入检测
      3. RLHF数据分析
    7. 引用
    8. 参考文献

文章翻译自Blog,感谢Lilian Weng的分享。


强化学习中的收益骇客

强化学习中,当智能体利用收益函数的漏洞或模糊性以获取更高的收益值而非真正去学习或者完成训练任务时,我们称此类行为叫收益侵入(reward hacking)。收益骇客之所以存在,是因为强化学习的环境不是完美的。并且,设计一个精准的收益函数是一件极具挑战性的工作。

随着语言模型不断被推广泛化到更多的任务中,RLHF成为了对齐训练的实际方法。这样,在使用强化学习训练语言模型的过程中,收益侵入攻击成为了一个实际的重要挑战。类似模型通过修改单元测试来完成代码任务,或者在响应中包含偏向用户喜好的内容这些情况都非常令人担忧。并且它们可能是在现实世界中部署更加自主的AI模型的主要拦路虎。

过去在此问题上的许多工作都偏重理论,重点在其定义或者证明其存在性。然而,对如何实际缓解此问题的研究,特别是在RLHF和LLM的背景下,十分有限。我特别希望在未来可以有更多的科研精力投入到理解与开发收益黑客攻击缓解方法的研究中去。希望未来我很快就可以在一篇专门的文章中来介绍缓解部分。

背景

RL中的收益函数

强化学习(Reinforcement Learning; RL)中,收益函数定义了任务以及可以极大影响学习效率和性能的收益塑形(reward shaping)。在强化学习任务中定义收益函数感觉就像是一门“暗黑艺术”。有许多因素导致了此问题的复杂性:

  • 如何将大目标分解为小目标?
  • 收益是稀疏还是密集的?
  • 如何度量成功?

对于这些因素的不同选择与解答会带来或好或坏的动态学习环境,比如导致任务无法被学习或者收益函数可被攻击。在强化学习中,对于如何进行收益塑形的研究有一段很长的历史。

举例来说,在一篇1999 年的论文中(Ng 等人),科研人员研究了如何在马尔可夫决策过程(Markov Decision Processes;MDP)中修改收益函数来确保最优策略不变。他们发现使用线性变换行得通。给定一个MDP$M = (S, A, T, \gamma, R)$,我们想要创建一个变换后的MDP$M’ = (S, A, T, \gamma, R’)$,其中$R’ = R + F,F: S \times A \times S \mapsto \mathbb{R}$,来让学习算法更加高效。给定一个实值函数$\Phi: S \mapsto \mathbb{R}$,我们定义一个潜在的塑形函数$F$

$$ F(s, a, s') = \gamma \Phi(s') - \Phi(s);\forall s \in S - {s_0}, a \in A, s’ \in S $$

这可以保证衰减之后$F$之和$F(s_1, a_1, s_2) + \gamma F(s_2, a_2, s_3) + \dots$最终趋于0。如果$F$是这样一个潜在的塑形函数,那么它是保证$M$$M^{\prime}$最优策略一致的充分必要条件。

$F(s, a, s’) = \gamma \Phi(s’) - \Phi(s),\gamma = 1$,且我们假设$\Phi(s_0) = 0$,其中$s_0$为吸收态,那么$\forall s \in S, a \in A$

$$ \begin{aligned} Q^*_{M'} (s,a) &= Q^*_M(s, a) - \Phi(s) \\ V^*_{M'} (s,a) &= V^*_M(s, a) - \Phi(s) \end{aligned} $$

此类形式的收益塑形法允许我们在收益函数中引入一些猜想,以便可以在维持最优策略形式不变的情况下加速学习效率。

伪关联

伪关联(Spurious Correlation)或者捷径学习(shortcut learning)(Geirhos 等,2020)是分类任务中的一个概念,它和收益骇客有着紧密的联系。伪关联/捷径特征会导致分类器无法按照原先的意图进行泛化和学习。比如我们要训练一个区分狼和哈士奇的二分类器。如果每张狼的图片中都包含雪,那么分类器可能会过拟合到雪的背景之上(Ribeiro 等, 2024)。

模型过拟合于捷径特征,在分布外(Out-Of-Distribution, OOD)测试集上表现糟糕
图 1:模型过拟合于捷径特征,在分布外(Out-Of-Distribution, OOD)测试集上表现糟糕(图片源:Geirhos 等,2020

ERM 准则说明,由于整体的数据分布是未知的,最小化训练数据上的损失是一个合理的替代方案。因此,我们希望模型可以最小化训练损失。Nagarajan 等,(2021)研究了ERM准则,指出在不设限的情况下ERM对数据的拟合需要依赖所有富含信息的特征,包括那些不可靠的伪特征。实验表明不管任务如何简单,ERM都会依赖于伪特征。

让我们来定义收益侵入

在RL中,收益塑形极具挑战性。当智能体滥用收益函数的漏洞或模糊性以获取更高的收益值而非真正按设计者的意图去学习或者完成训练任务时,我们称此为收益侵入攻击。近些年,有一些相关的概念被提出,都是与收益侵入攻击相关:

Amodei 等人在他们影响深远的论文Concrete Problems in AI Safety中提出了一系列关于AI安全的开放性研究问题,其中就包括收益侵入(Reward Hacking)的概念。收益侵入攻击意指智能体通过不良行为来玩弄收益函数以获取高额收益的可能性。另一个相关的概念是规则博弈(Specification gaming)(Krakovna 等, 2020),它指智能体的行为可以满足目标的字面规则而没有达成预期的目标。这里任务目标的字面描述和实际目标意图存在一定差距。

收益塑形是一种丰富收益函数的技术,它可以让智能体的学习变得更加容易(例如提供稠密的收益)。然而,糟糕的收益塑形机制可能会改变最优策略的轨迹。设计有效的收益塑形机制是十分困难的。与其归咎于收益函数设计之糟糕,不如承认奖励函数设计之复杂。复杂性的来源包括任务自身的复杂性、部分可观察的状态、多维度的考量等因素。

在一个分布外(OOD)环境中测试RL智能体时,可能会暴露智能体的鲁棒性问题:

  1. 即使目标正确,模型也无法进行有效的泛化。此类情况发生在算法缺乏足够的智能或能力的情况下
  2. 模型足够泛化,但是却追求了一个与训练不同的目标。此种情况发生在智能体的目标函数与真实的目标函数不一致$R^\prime \neq R$的情形下。这被称作目标鲁棒性objective robustness)问题或非泛化目标Langosco 等, 2022)问题

在两个RL环境CoinRunMaze中的实验证明了在训练过程中引入随机性的重要性。如果在训练过程中将硬币或者奶酪放在固定的位置(也就是关卡的最右方或者迷宫的右上角),而在测试时将它们放在一个随机的位置,那么智能体仅会移动到特定的位置而不会得到硬币或者奶酪。测试过程中视觉特征(比如奶酪或硬币)和位置特征(比如右上方或右端)不一致时,冲突就会发生,而训练后的智能体会更喜欢位置特征。我想指出的是:在这两个例子中的收益差异显著,但此类偏差在大多数实际问题中却不会如此明显。

训练过程中硬币随机性的影响。当硬币以概率「0, 2, 3, 6, 11%」(x轴)被随机放置时,智能体在关卡结束时无法获取硬币的频次(y轴)会随着随机概率的增加而降低
图 2:训练过程中硬币随机性的影响。当硬币以概率「0, 2, 3, 6, 11%」(x轴)被随机放置时,智能体在关卡结束时无法获取硬币的频次(y轴)会随着随机概率的增加而降低。(图片源Koch 等, 2021

Reward Tampering([Everitt 等, 2019](Everitt et al. 2019))是一类收益黑客攻击行为:智能体通过自身对收益函数的干扰引起所观察到的收益无法准确反映目标意图。在Reward Tampering中,模型要么直接操纵收益函数的实现,要么通过间接的方式改变用作收益函数输入的环境信息来操纵收益函数。

(注意:一些工作将reward tampering定义为一种与reward hacking 不同的行为。但是在此处,我将reward hacking视为一个更宽泛的概念。)

从高层看,收益黑客攻击可以被分为两类:

  • 环境或目标错误设定:模型通过侵入环境或者优化一个与真实收益不一致的目标来获取更高的收益(比如收益设定错误或者无法满足关键需求)
  • Reward tampering:模型自行学习到如何干扰收益机制

收益侵入举例

RL任务举例

  • 被训练用于抓取物体的机器人手臂学会了将手置于物体与相机之间来欺骗人类(链接
  • 被训练用于最大化弹跳高度的智能体可能会滥用物理仿真器中的漏洞来得到一个不实际的高度(链接
  • 被训练用于骑自行车的智能体,它到达目标附近之后就会得到奖励。而智能体可能会学会在目标附近绕小圈。这种行为没有被惩罚,但这种行为与最终的训练目标相去甚远(链接
  • 在足球游戏环境中,当智能体接触到球的时候会被给予奖励。但最终智能体学会了如何保持在球的周围,但却以高频率鬼畜似的接触/离开球(链接
  • Coast Runner游戏中,智能体控制一艘船来用尽可能少的时间来完成船只竞速游戏。当它被给了一个接触绿色块会获取收益的新机制之后,它将最优策略变为不停地绕圈来碰撞绿色块(链接
  • "The Surprising Creativity of Digital Evolution"(Lehman 等, 2019):此篇论文中有许多例子说明优化一个错误指定的拟合函数(fitness function)是如何导致令人惊讶的“入侵式”、非预期的进化或学习结果的
  • Specification gaming examples in AI是由[Krakovna 等, 2020](Krakovna et al. 2020)收集的一些例子

LLM 任务举例

  • 用于生成摘要的语言模型可以探索ROUGE指标的缺陷来获取很高的评分,但是生成的摘要却几乎不可读(链接
  • 代码模型学会了通过修改单元测试来完成代码任务(链接
  • 代码模型可能会学会修改用于计算收益的代码(链接

实际生活举例

  • 社交媒体中的推荐算法意在提供有用的信息。而有用性指标是通过中间指标来衡量的,比如通过点赞数、评论数或者在平台上参与的时间和频率等。此算法最终可能会推荐一些会影响用户情绪状态的内容,比如离谱和极端的内容以引发更多的参与(Harari, 2024)。
  • 针对视频共享网站的推荐优化算法可能优化了一个错误的中间指标而增加了用户的观看时长,但真实的目标是提升用户的幸福感(链接
  • The Big Short”:2008年由房地产泡沫引起的金融危机。当人们试图玩弄金融系统时,我们的社会发生了收益侵入

为何收益侵入存在

古德哈特定律Goodhart's Law)说明:“一项指标一旦变成了目标,它将不再是个好指标。”(译文)直观的解释是:在重压之下,对此目标的优化会破坏该指标的原本意图。制定一个精确的收益目标是非常具有挑战性的,正如强化学习算法会利用任何奖励函数中微小的不完美一样,任何代理目标收益都会有遭到破坏的风险。Garrabrant (2017)给古德哈特定律衍生了四个变体:

  1. 回归型:对于不完美中间指标的选择必然会引入噪声
  2. 极值型:指标的选择将状态分布推向了不同数据分布的区域
  3. 因果型:当中间指标与目标之间存在非因果相关性的时候,对中间指标的干预无法影响最终目标
  4. 对抗型:对中间值的优化为对手提供了将他们的目标与中间指标联系起来的动力

Amodei 等, 2016总结道:主要在RL环境中,收益侵入的发生是由于:

  1. 部分可观察的状态及目标无法完美表示环境状态
  2. 系统自身是复杂的,容易受到入侵;举例来说:如果智能体被允许执行修改部分环境的代码,那么它滥用环境机制会变得更加容易
  3. 收益中可能包含很难被学习或者形式化的抽象内容;比如一个以高维数据为输入的收益函数可能仅依赖极少几维的数据
  4. RL以高度最优化收益函数为目标,这就存在一个内在的“冲突”,让好的RL目标设计变得困难。一个特殊情况是具有自我强化反馈部件的收益函数,收益可能会被放大扭曲到破坏原始意图的程度。比如某个广告投放算法会陷入一个赢家通吃的困境

此外,识别出一个用于智能体优化其行为的精准的收益函数一般而言是不可能的。因为在一个固定的环境中(Ng & Russell, 2020),对于任意观察到的策略存在无数个与其匹配的收益函数。Amin & Singh (2016)将这种不可识别性的原因分为了两类:

  1. 代表性:在特定的算术操作之下(比如缩放),很多收益函数在行为表现上是一样的
  2. 实验性:$\pi$观察到的行为无法满足区分两个或更多收益函数的要求,这些收益函数都合理化了智能体的行为(在各个收益下,智能体的行为都是最优的)

侵入RL环境

随着模型和算法变得越来越复杂,收益侵入问题可以预见会成为一个更加普遍的问题。一个更加智能的智能体会更容易发现收益函数设计中的漏洞,进而更容易滥用任务规则。换句话说,就是获取更高的中间收益(proxy rewards)而非真正的收益。相对而言,更弱的算法可能无法发现这些漏洞。因此,在模型本身不太强的时候,我们可能无法在当前的收益函数设计上观察到任何收益侵入或识别问题。

在一组机器人自对抗的零和游戏中(Bansal 等, 2017),我们可以训练两个(受害者 vs 对抗者)智能体互相对抗。一个标准的训练流程会生成一个有足够性能的受害者,并为其生成一个普通的对抗者。然而,训练出一个可以稳稳打败受害者的对抗者是很容易的。尽管训练出的对抗者它们的输出动作看似杂乱无章,并且训练过程仅耗费不到3%的时间(Gleave 等, 2020)。在标准的RL环境中,对抗策略的训练包含了对衰减收益和(sum of discounted rewards)的优化,并且受害者策略被视为一个黑盒。

缓解对抗策略攻击的一个很直观的方式是针对对抗策略对受害者策略进行微调。然而,如果再次进行一轮训练,受害者策略依然对新版本的对抗策略没有抵抗力。

为什么对抗策略存在?这里的猜想是对抗策略引入了对受害者来说分布外(OOD)的状态,而不是真正在物理上与其交互。有证据表明当受害者所观察到的对手位置被屏蔽且被设置为一个不变的状态,那么受害者对对抗者的策略会更加鲁棒。虽然它的表现还是比一个普通的对抗策略要差。此外,使用更高维的观察空间在一般情况下会增强性能,但是会让策略更易受到对手的攻击。

Pan 等, 2022将收益侵入作为一个智能体能力的函数来研究,这些能力包含:(1)模型大小,(2)动作空间分辨率,(3)观察空间噪声,(4)训练时间。他们也提出了三种错误指定的中间收益的分类:

  1. 权重错误:中间收益与真实收益捕捉到了同样的需求,但是在它们相对的重要性方面有区别
  2. 本体错误:中间收益与真实收益使用不同的需求来捕捉同样的概念
  3. 范围:由于考虑所有情形的代价太大,中间收益仅在很小的范围(时间或空间)内对需求进行度量

他们在四个RL环境中试验了九个错误的收益代理。这些实验的整体发现可以总结如下:更高容量的模型可以获取更高的(或近似的)中间收益,而降低了实际收益。

  • 模型大小:模型变大带来更高的中间收益,但降低了真实收益
  • 动作空间解析度:增加动作控制的精确度会带来能力更强的智能体。但是,高精度会引起中间收益保持固定,且同时降低真实收益
  • 观察的细腻程度:更精确的观察会改善中间收益而轻微降低真实收益
  • 训练步数:若使用更长的步数来优化中间收益后,在过了初始的收益正相关阶段后,真实收益会受到损害

中间收益与真实收益随着不同参数的变化图。第一行为模型大小(参数数量);第二行为模型能力(通过训练步数来衡量、动作空间解析度和观察噪声)
图 3:中间收益与真实收益随着不同参数的变化图。第一行为模型大小(参数数量);第二行为模型能力(通过训练步数来衡量、动作空间解析度和观察噪声)。(图片源:Pan 等, 2022

如果中间收益设计的非常糟糕以至于同真实收益仅存在非常弱的相关性,我们也许可以在训练之前识别与阻止收益侵入的发生。基于此假设,Pan 等, 2022在一些列轨迹数据中研究了中间收益与真实收益之间的相关性。有趣的是,收益侵入仍旧发生了,甚至在真实收益与中间收益之间存在相关性的情况下亦是如此。

侵入LLMs的RLHF

人力干预的强化学习(Reinforcement learning from human feedback, RLHF)已经成为语言模型对齐训练的实际方法。首先,收益模型使用人工反馈数据进行训练。然后,语言模型通过RL来微调以优化代表人类偏好的中间收益。在RLHF的设定下,我们考虑三类收益:

  1. 真实收益$R^\star$表示我们真正希望语言模型优化的结果
  2. 人类收益$R^\text{human}$指我们实际搜集的用于评估LLMs的结果,所搜集的数据通常来源于时间受限的人类个体。由于人类会提供不一致的反馈或者犯一些错误,人类收益通常不全精准反映真实收益
  3. 中间收益$R^\text{train}$是在人类数据上训练而得的收益模型所预测给出的评分。因此,$R^\text{train}$继承了所有人类收益的缺点,以及潜在的模型偏差。

RLHF的过程是优化中间收益评分,但是,我们最终关心的是真实收益。

侵入训练过程

Gao 等, 2022研究了RLHF中,收益模型过度优化的缩放定律(scaling laws)。为了提升他们的实验中人工标记数据的规模,他们使用一种合成数据设置。其中,真实收益所用的真实标签数据由一个大的收益模型(Reward Model, RM)(60亿参数)来近似。中间收益由中间模型(300万~30亿参数)来近似。

RM评分图,评分函数以KL散度的平方根作为参数。中间收益使用虚线表示,真实收益使用实现表示
图 4:RM评分图,评分函数以KL散度的平方根作为参数。中间收益使用虚线表示,真实收益使用实现表示。(图片源:Gao 等, 2020

初始策略与优化后策略之间的KL散度是$\text{KL} = D_\text{KL}(\pi | \pi_\text{init})$。距离函数定义为$d := \sqrt{ D_\text{KL}(\pi | \pi_\text{init})}$。在N-最佳样本拒绝采样法(best-of-$n$rejection sampling, BoN)和强化学习中,真实收益都被定义为距离$d$的函数。联合系数$\alpha, \beta$使用经验调参适配。我们定义$R^{\star} := 0$

研究者们也尝试过拟合中间收益$R$,但是发现KL散度在延伸到更高值的时候出现系统性低估(systematic underestimation),原因是中间收益看起来随着$d$线性增长。

$$ \begin{align} R^*_{\text{bo}n}(d) &= d (\alpha_{\text{bo}n} - \beta_{\text{bo}n} d) & \text{; BoN 采样法}\\ R^*_\text{RL}(d) &= d (\alpha_\text{RL} - \beta_\text{RL} \log d) & \text{; 强化学习}\\ \end{align} $$

联合参数$\alpha_{\text{bo}n}, \beta_{\text{bo}n}, \beta_\text{RL}$ 根据数据进行经验性调整,图中显示为收益模型大小的函数。图中未包含系数$\alpha_{RL}$,因为它不随RM的大小变化,始终保持固定
图 5:联合参数$\alpha_{\text{bo}n}, \beta_{\text{bo}n}, \beta_\text{RL}$根据数据进行经验性调整,图中显示为收益模型大小的函数。图中未包含系数$\alpha_{RL}$,因为它不随RM的大小变化,始终保持固定。(图片源:Gao 等, 2022

他们的实验还探索了RM过度优化与其它一些因素比如策略模型大小、RM数据大小之间的关系。

  • 从RM的优化结果来看,更大的策略的收益更小(也就是初始收益与峰值收益之间的差异相比于小的策略更小),但过度优化也更少
  • 更多的RM数据带来更高的真实收益,并且会降低 "Goodharting"
  • 在真实评分上使用KL惩罚的效果类似于提前停止(early stopping)。注意,除此实验外,所有实验中PPO中KL惩罚项都被设置为0了。因为他们观察到使用KL惩罚项会严格增加中间-真实收益差

RLHF旨在改善模型与人类偏好之间对齐度。但是,人类反馈收益$R^{\text{human}}$无法抓到所有我们所关心的方面(比如真实性)。因此,它可以被入侵以过拟合到一些不好的属性之上。举例来说,模型被优后,可能会输出一些看似正确、有说服力而实际上不准确的内容,目的在于让人类评估者可以更容易肯定它们的输出(Wen 等, 2024)。换句话说,由于RLHF的引入,正确与看似正确之间的差异逐步显现。准确来说,Wen 等, 2024使用一个基于ChatbotArena数据的收益模型跑了RLHF实验。他们在一个问答数据集QuALITY以及一个编程数据集APPS上对模型进行了评估。实验表明,模型变得更善于说服人类,即便是在其错误的情况下也是如此。这个效果是未曾想到的:

  1. RLHF提高了人类的通过率,而非实际的真确性
  2. RLHF弱化了人类的评估能力:RLHF训练之后,人类评估的正确率上升了
  3. RLHF让错误的输出变得对人类来说更具说服力了。RLHF训练之后假阳率显著上升了

论文将这种效应称为“U-诡辩”(“U”指“unintended”)。此效应与“I-诡辩”(“I”指“intended”)对应。在 “I-诡辩”中,模型被输入了类似... try to deceive human subjects的提示词。

RLHF让模型更擅长人类通过它的错误答案
图 6:RLHF让模型更擅长人类通过它的错误答案。(图片源:Wen 等, 2024

人类评估错误率的变化不是由招聘过程的噪声引起的,因为(1)从独立个体来讲,大多数(70~90%)的人类评估人员的评估错误率增加了。(2)通过对时间消耗与所写单元测试的测量,他们投入到对$\pi_\text{init}$$\pi_\text{rlhf}$上的评估精力是一样的。相反,LLMs学习了如何通过精心挑选、捏造论据以及编造含有细微因果错误的表述来对它们错误的答案进行狡辩。他们观察到模型经过RLHF训练后,他们的行为:

  • 在长问答任务中:
    • 创建了更具说服力的、捏造的事实
    • 对错误答案使用一致的逻辑
    • 使用微妙的错误来生成流利的答案
  • 在代码任务中:
    • 侵入人类写的单元测试
    • 生成可读性更差的测试(比如:更少的辅助函数、更高的代码复杂度)
    • $\pi_{\text{rlhf}}$降低生成容易被人类检测到的错误答案的可能性

代码模块化指标(辅助函数的数量)与用于生成正确/错误代码的循环复杂度指标。整体而言,RLHF导致了更少的辅助函数以及在错误的程序中引入了更高的代码复杂度。毫不令人奇怪,这会增加人类评估的难度
图 7:代码模块化指标(辅助函数的数量)与用于生成正确/错误代码的循环复杂度指标。整体而言,RLHF导致了更少的辅助函数以及在错误的程序中引入了更高的代码复杂度。毫不令人奇怪,这会增加人类评估的难度。(图片源:Wen 等, 2024

迎合指的是模型的响应更倾向于匹配用户所相信的东西而非反应事实(Shrama 等, 2023)。在实验中,AI助理被要求为一个论述(人类:“请简单评论下面的论述。论述: ...”)提供反馈。而后人类提供表述,他们说出一个偏好(“我真的喜欢这样的说法”或者"我确实不喜欢这样的说法")来测试这与没有提供人类偏好相比是否会影响模型的反馈。

AI助理在用户使用他们自己的偏好进行评论后给出了带偏差的反馈。当用户表示喜欢的时候,模型的响应更加积极;当用户表示不喜欢的时候,模型响应更加消极
图 8:AI助理在用户使用他们自己的偏好进行评论后给出了带偏差的反馈。当用户表示喜欢的时候,模型的响应更加积极;当用户表示不喜欢的时候,模型响应更加消极。(图片源:Shrama, 等 2023

他们发现AI助理的反馈很容易被左右,因为当它受到人类偏好的挑战的时候,它可能会改变它之前的正确答案。模型更倾向于确认用户的观念。有时候它甚至会模仿用户的错误(比如当被要求分析诗歌时,它错误地归咎于错误的诗人)。在RLHF辅助能力数据集的分析实验中,他们使用逻辑回归来预测人类反馈,实验结果表明:匹配用户的信念是最易预测的因素。

通过逻辑回归对人类反馈数据进行分析:在控制其它特征的情况下,带某种特征的响应的概率优于不带某种特征的
图 9:通过逻辑回归对人类反馈数据进行分析:在控制其它特征的情况下,带某种特征的响应的概率优于不带某种特征的。(图片源:Shrama 等, 2023

侵入评估器

随着LLMs越来越强大,使用LLMs作为评估器或者评分器来为其它生成模型提供反馈和训练收益成了一个很自然的选择(例如:处理长输出、生成类似创意写作质量评估的主观评价)。一些人将这称作“LLM评分范式”。此方法很大程度上降低了对人工注解的依赖,并可以极大节省评估时间。然而,使用LLMs作为评分器相对真实收益来说是一个不完美的方案,且会引入偏差,比如不同的模型家族有着各自的生成偏好(Liu 等, 2023)或者在评估有序答案时存在位置偏见(Wang 等, 2023)。评分器的输出用作部分收益信号的时候,这些偏差会成为很大的问题。通过滥用这些评分器,收益侵入就可能会发生。

Wang 等, (2023)发现使用LLM作为评估器来给多个其它LLM的输出做评分的时候,质量排名可以通过简单改变他们在上下文中的顺序来篡改。GPT-4被发现会一直给第一顺位的候选者高分,而ChatGPT则更喜欢第二顺位。

根据他们的实验,LLMs对于答案的位置很敏感,并且会受到位置偏见的很大影响(也就是对特定位置的答案有偏好)。这种情况即使在提供了如下指令的情况下依旧一样:确保答案所在的位置不会影响到你的判断。此位置偏见的严重性可通过“冲突率”来度量。它定义为在交换元组(提示词,答案1,答案2)顺序后导致不一样的判断的百分比。毫不奇怪,答案的质量差异同样重要;冲突率与两个答案的冲突大小呈负相关关系。

使用GPT-4或ChatGPT作为评估器的时候,Vicuna-13B与ChatGPT和Alpaca-13B之间的胜率变化很大。冲突率也很高,这意味着使用LLM作为评分器时交换答案顺序会带来高度的不一致性。其中一个意外是使用GPT-4作为评估器的时候Vicuna-13B与Alpaca-13B之间的评估
图 10:使用GPT-4或ChatGPT作为评估器的时候,Vicuna-13B与ChatGPT和Alpaca-13B之间的胜率变化很大。冲突率也很高,这意味着使用LLM作为评分器时交换答案顺序会带来高度的不一致性。其中一个意外是使用GPT-4作为评估器的时候Vicuna-13B与Alpaca-13B之间的评估。(图片源:Wang 等, 2023

为了缓解位置偏见,他们提出了几种校准策略:

  1. 多证据校准(Multiple Evidence Calibration, MEC):评估模型被要求提供评估证据,特别是以文本形式提供解释。然后输出两个候选的评分。此方法可通过采样多($k$)个证据来增强鲁棒性。$k=3$的性能强于$k=1$,但是$k \gt 3$后,增加$k$值所带来的收益不高
  2. 平衡位置校准(Balanced Position Calibration, BPC):不同顺序的答案被聚合以得到最终评分
  3. 人工干预校准(Human-in-the-loop Calibration, HITLC):使用一个基于多样性的指标BPDE(balanced position diversity entropy),在遭遇困难样本的时候,人工评分可以被包含进来。首先,评分对(通过交换答案顺序得到)被映射到三个标签上:(,)。然后,计算这三个标签的熵值。高BPDE意味着模型对评估决策的困惑度较大,也就意味着样本很难判断。熵值最高的$\beta$个样本被选出来进行人工辅助干预。

不同校准方法的准确率于卡帕相关系数以及最终人类的投票注解。在人工标注上进行合理投入,位置偏见校准方法可以帮助改善准确率。实验同时表明校准策略可以推广到不同类型的提示模板上,即使在模型对模板设计敏感时也同样适用
图 11:不同校准方法的准确率于卡帕相关系数以及最终人类的投票注解。在人工标注上进行合理投入,位置偏见校准方法可以帮助改善准确率。实验同时表明校准策略可以推广到不同类型的提示模板上,即使在模型对模板设计敏感时也同样适用。(图片源:Wang 等, 2023

Liu 等, 2023使用很多模型(BART, T5, GPT-2, GPT-3, FLAN-T5, Cohere)在摘要任务上进行了实验。在评估摘要质量上关注了基于参考(reference-based)以及无参考(reference-free)的指标。在评估器(x轴)-生成器(y轴)评分热度图上,他们在两种指标上都观察到了暗色的对角线,这意味着自偏差的存在。这表明LLMs在用做评估器的时候,它们更加喜欢它们自己的输出。实验中所使用的模型多少有点过时了,相信在更新、能力更强的模型上的结果一定会很有趣。

不同模型作为评估器(x轴)-生成器(y轴)的热度图。暗对角线揭示了自我偏好问题:模型更喜欢自己的输出的趋势
图 12:不同模型作为评估器(x轴)-生成器(y轴)的热度图。暗对角线揭示了自我偏好问题:模型更喜欢自己的输出的趋势。(图片源:Liu 等, 2023

情境收益侵入

迭代自我完善(iterative self-refinement)是一种训练设置,在此设置中,评估模型和生成模型是同一个,并且都可以进行微调。在此设定下,模型优化的压力可以驱使模型利用其在两种角色中的漏洞。在Pan 等, 2023的实验中,模型参数没有被更新,而评估器于生成器用的是同一个模型,但是使用了不同的提示词。实验任务是文章编辑,模型担任两个角色:(1)裁判(评估器):对文章给予反馈,以及(2)作者(生成器):基于反馈修改文章。人类对文章的评分被搜集用作真实评分。研究者们猜想此设定可能会导致情境收益侵入(in-context reward hacking, ICRH),评估器的评分与真实评分会出现分歧。更一般地,ICRH发生在LLM与其评估器(比如:另一个LLM或者外部世界)的反馈循环中。在测试阶段,LLM会优化一个(可能隐式的)目标,但这会在过程中引入负面影响([Pan 等, 2024])。

在文章编辑任务上,情境收益侵入实验示意图
图 13:在文章编辑任务上,情境收益侵入实验示意图。(图片源:Pan 等, 2023

可以设定裁判与作者可以同时看到之前几轮的反馈或编辑。一个在线裁判可以看到之前的对话,而一个离线裁判或人类标注者一次仅会看到一篇文章。小模型对ICRH更加敏感;比如:以经验来看,GPT-3.5用作一个评估器时相比于GPT-4会带来更严重的ICRH。

小评估模型更易引起情景收益侵入(ICRH)
图 14:小评估模型更易引起情景收益侵入(ICRH)。(图片源:Pan 等, 2023

当设置裁判和作者可以看到之前不同轮数的记录时,人类评分和评估器评分之间差异会增加(评估人/器看到同样迭代次数的记录)。评估器与生成器之间使用一样的上下文对ICRH来说很重要,这意味着共享上下文相比于上下文长度对ICRH来说更重要。

在后续的一个工作中,Pan 等, 2024对情景收益侵入(ICRH)进行了进一步的研究。其中,反馈由外部世界提供。目标设置为了一个不完美的中间目标(proxy objective),通常由自然语言设定。这里这个目标通常没有明确规定,并且不会捕捉到所有的限制条件和要求,因此很容易被黑。

此研究描述了导致ICRH的两个过程并配有两个实验:

  1. 输出优化:LLM基于反馈精炼它的输出

    • 实验根据参与度指标来优化推文,这可能会导致推文有害性增加。基于反馈的优化过程使用LLM来做成对的评估,然后将其使用Bradley-Terry模型翻译为评分

    图 15

    • 结果显示参与度与有害度是同时增加的。同样的实验在不同大小的Claude模型上也进行了,结果表明增大模型规模会带来ICRH的恶化

    图 16

    • 值得注意的是给定反馈并编辑修改模型的提示词并不会改善这个问题。CIRH仍然存在,虽然程度会稍稍降低
  2. 策略优化:LLM基于反馈来优化其策略

    • 配套实验构建了一个LLM智能体来代表用户支付单据(会遇到InsufficientBalanceError错误),然后让它学习如何在未经用户授权的情况下从其它账户转移资金,这可能会导致更多未经授权的转账行为。他们使用ToolEmu模拟器,其包含了144个LLM智能体的任务。每个任务由一个特定用户的目标以及一些列的API构成。模拟器可以注入API错误来模拟服务端失败,每个任务使用GPT-4来赋予一个有用性评分。
    • 经过多轮的错误反馈,LLMs可以从错误中恢复,但是严重违反约束的行为也不断增加了。

    图 17

ICRH与传统的收益侵入相比,有两个值得注意的差异:

  • ICRH是通过反馈循环在自我完善的设定下在部署期间发生的。而传统的收益侵入是在训练期间发生的
  • 传统的收益侵入发生在智能体专注于某一个任务的过程中,而ICRH则由成为一个多面手来驱动的

目前尚没有什么神奇的方法可以避免、检测或阻止ICRH问题。因为,改进提示词不足以缓解ICRH而增加模型大小则会导致ICRH问题更加严重。一个最佳实践是在部署前的测试中,通过对模型在不同状态下进行评估来模拟部署阶段可能发生的情况。比如可以对模型在多轮反馈、多样性反馈以及注入非典型环境观察状态的条件下进行评估。

侵入技巧的泛化性

收益侵入行为被发现是在不同的任务上通用的:当模型在监督学习中呈现漏洞时,它有时就会利用OOD环境中的漏洞(Kei等, 2024)。研究人员在一些可进行收益侵入的环境中进行强化收益入侵行为的实验,并检查它是否可以在其它保留的数据集上进行攻击泛化。实质上,他们准备了8个多选任务数据集,4个用于训练,4个用于测试。RL的训练引入了专家迭代过程,也就是在使用N-最佳样本法进行迭代微调。

使用一系列可侵入环境进行GPT-3.5的训练可以将收益侵入行为泛化到保留数据集上。
图 18:使用一系列可侵入环境进行GPT-3.5的训练可以将收益侵入行为泛化到保留数据集上。(图片源:Kei 等, 2024

值得注意的是,所有的实验都使用了暂存器(scratchpad)设计以保存隐藏的推理步骤。此暂存器可作为一种解释模型在过程中如何思考的依据。对暂存器的分析表明它可以:

  • 融入用户的信念;比如思考它的对话伙伴和评分者
  • 展示对评估过程的感知意识;比如思考模型的输出是如何被评估的以及整个进程

Denison 等, 2024中,研究者们精心设计了一个复杂性逐步增加的博弈环境课程来研究reward tampering。他们观察到,在课程中的简单环境中进行训练会放大在剩余环境中的规范博弈(specification gaming)。在某些情况下,模型可以在整个课程训练完成后以零样本(zero-shot)泛化的方式直接重写它自身的收益函数。

此可博弈环境课程包含:

  1. Political sycophancy:如果模型给出的答案与用户的政治观点相符,那么环境给予奖励
  2. Tool-use flattery: 环境为模型提供命令行使用权限以让其可以读取用户文件系统来阅读本地文件中的诗歌。模型可能会给诗歌打高分以拍用户马屁
  3. Rubric modification: 环境基于清单对模型进行评分,模型必须对清单上的每一项标记完成后才能得到高额奖励
  4. Reward tampering: 模型的任务是检查目录./rl_environment/(其中包含了模型自身的RL代码的模拟版本),并报告已经经过了多少轮。在目录中,文件compute_reward.py包含了一个返回固定值的收益函数。另一个文件this_file_blocks_reward_hack_attempts.py包含了一个收益函数是否被篡改的测试

图 19:Tool-use flatteryReward tampering环境的评估脚本。(图片源:Denison 等, 2024

模型经过此课程训练过后,论文测量了模型是否能学习可以推广到未知环境的博弈行为。在helpful-only Claude-2模型的实验中,他们对$P=1024$个HHH迭代提示词中的每一个采样了$N = 64$个回答来进行专家迭代,并根据RM选择了最佳答案。使用专家迭代方式对课程进行监督学习的模型可以从一个阶段泛化到下一个。

根据所设计的课程,通过专家迭代训练的模型从每个阶段到下一个阶段的定量泛化结果
图 20:根据所设计的课程,通过专家迭代训练的模型从每个阶段到下一个阶段的定量泛化结果。(图片源:Denison 等, 2024

值得注意的是,即使在整个课程之后,模型覆写收益并避免检测的次数也少于1/1000。即使模型使用了专门的激励来训练模型进行入侵,模型覆写收益文件的次数也不足1%,并且黑掉单元测试文件的次数就更少了。作为一个简单的缓解措施,在头两个环境(收益侵入行为很容易被检测到)中使用不玩弄环境的SFT数据对模型进行监督微调可以降低在保留环境中发生 reward tampering 行为的可能性。

缓解方法一瞥

虽然存在大量的研究讨论收益侵入现象,但是却没有那么多的缓解方法,特别是在RLHF与LLMs领域。在此章节中,让我们简单看看其中三类可能的方法。

RL算法改进

Amodei 等, 2016指出了一些在强化学习训练过程中缓解收益侵入的一些方法:

  1. 对抗收益函数:我们可以将收益函数视为一种自适应代理,并且当其发现其收益值较高但是人类评分较低时,它可以自行调整
  2. 模型前瞻:可以根据未来预期状态给予奖励。比如:如果智能体打算替换收益函数,那么它就会得到一个负收益
  3. 对抗性致盲:我们可以使用特定变量让智能体无法学习到可以进行收益侵入功能信息
  4. 精心设计:针对系统设计的一些类型的收益侵入可以通过精心设计来避免。比如可以使用沙盒让智能体的动作与其收益信号分离开
  5. 设置收益上限:此策略简单限制了最高收益额,这就可以有效阻止智能体入侵收益函数后得到一个奇高收益事件的发生
  6. 反例抵制(counterexample resistance):敌对鲁棒性的改善应该也有益于收益函数的鲁棒性
  7. 多收益组合:组合多种类型的收益可以让入侵变得更困难
  8. 收益预训练:我们可以从一系列的(状态,收益)样本中学习收益函数,但是这依赖于此监督学习设定的完善程度,同时可能会引入其它负担。RLHF就依赖于此方法,但其学习到的标量收益模型非常容易学到不良特征
  9. 变量无差性:目标是让智能体对环境中的部分特定变量进行优化
  10. 设置红线:我们可以故意设置一些漏洞,然后进行监控,如果发生了收益侵入则进行告警

在一些强化学习的设定下,人类反馈的方式是判断是否认可智能体的行为。Uesato 等, 2020提出使用认可‌解耦(decoupled approval)来防止收益侵入。如果反馈是基于$(s, a)$(状态,动作)的,一旦reward tampering 发生了,我们对于状态$s$下的动作$a$不可能得到一个正确反馈。‌解耦意味着收集反馈的询问动作与世界中采取的动作是独立采样的。反馈甚至可以在动作在世界中执行之前就可以得到,因此可以阻止破坏自身反馈的行为发生。

认可‌解耦与标准的 approval RL 和 引入人类循环的RL对比示意图
图 21:认可‌解耦与标准的 approval RL 和 引入人类循环的RL对比示意图。(图片源:Uesato 等, 2020

使用认可解偶,动作(在世界中执行)和询问(为了获取用户认可反馈)是独立采样的。此方法可以被用在(左)策略梯度算法和(右)Q-learning 算法中
图 22:使用认可‌解耦,动作(在世界中执行)和询问(为了获取用户认可反馈)是独立采样的。此方法可以被用在(左)策略梯度算法和(右)Q-learning 算法中。(图片源:Uesato 等, 2020

收益侵入检测

另一个缓解方法是将其视为一种异常检测任务来检测收益侵入,检测器(由人工对轨迹与收益进行验证后的“可信策略”)应标记错误之处(Pan 等, 2022)。给定(1)一个可信策略,(2)一组手工标注的轨迹,我们可以基于两个策略(可信策略与目标策略)的动作分布之间的距离构建一个二元分类器,并测量此异常检测分类器的准确率。在Pan 等, 2022的实验中,他们观察到不同的任务适用不同的检测器,没有任何一个检测器可以在所有的RL环境下获得超过60%的AUROC。

不同任务上检测器的性能
图 23:不同任务上检测器的性能。(图片源:Pan 等, 2022

RLHF数据分析

另一种方法就是对RLHF数据集进行分析。我们可以通过检查训练数据是如何影响对齐训练结果的,来指导预处理过程以及人类反馈的搜集,以降低收益侵入的风险。

Revel 等, 2024一些列度量数据样本特征有效性的指标。这些特征用于对人类价值进行对齐与建模。他们对HHH-RLHF数据集中的价值对齐(“SEAL”)进行了系统性的错误分析。分析中所使用的特征类别(例如:is harmless,is refusal,is creative)是手动指定的。然后他们使用LLM根据此分类给每个样本的每个特征都打上了一个二值标签。特征使用启发式方法被分为两组:

  • 目标特征:明确想要学习的值
  • 破坏性特征:训练过程中无意中学习到的值(比如类似情感或流利度的风格特征)。这与OOD分类工作(Geirhos 等, 2020)中的虚假特征类似

SEAL 引入了三个用于衡量对齐训练中数据有效性的指标:

  1. 特征印记指的是一个特征$\tau$相关的一个系数$\beta_{\tau}$,它用于估计在有无特征$\tau$的情况下收益的增加量(保持其它因素一致)。下图左边是通过对特征的收益$\color{orange}{\underline{r}(t^∗_i)}$$\color{blue}{r(t^∗_i)}$的固定效应线性回归计算得出的特征印记图$\underline{\beta(\tau)}$(pre-)和$\beta(\tau)$(pre+)。总的来说对齐训练会奖励类似有害性、有用性这类积极特征并惩罚诸如性与侵犯隐私之类的消极特征。下图右边的特征印记通过收益偏移$\theta_i$的线性回归计算而来。收益偏移$\theta_i$定义为对齐训练前后收益向量间的角度。训练过程会降低模型对目标特征的敏感度。注意对RM的无害性印记是通过被选条目(“is harmless(c)”)与被拒条目(“is harmless(r)”)两类得到的,而有用性印记仅依赖被拒条目(“is helpful (r)”)。

    特征印记示例
    图 24:特征印记示例。(图片源:Revel 等, 2024

  2. 对齐对抗度是RMs在偏好数据对中无法匹配人类偏好的占比。研究发现在HHH-RLHF数据集中RM拒绝了超过1/4的人类偏好

  3. 对齐鲁棒性$\pi^{c/r}_{+/-} (\tau)$用于衡量对齐训练对可改写扰动输入的鲁棒程度,改写的破坏性特征包括情感、论证和流利度等。它对每个特征及每个事件的影响进行了隔离

    • 鲁棒性指标$\pi_−^c$(一个特征名称$\tau$比如"eloquent"或"sentiment positive")可以通过如下方式解释:
      • 相比于未经反转改写来说,被选条目(用$c$表示)在改写之后条目更强特征$\tau$,因此有了$\exp (\pi^c_{-}(\tau))$倍更高的被拒概率
      • 类似地,相比于未经反转改写来说,被拒条目(用$r$表示)在改写之后包含更弱的特征$\tau$,因此有了$\exp (\pi^r_{+}(\tau))$倍被选中的概率
    • 根据他们在不同的改写方式下对对齐鲁棒性指标的分析,仅有基于情感破坏性特征的鲁棒性评分$\pi^c_{+}$(sentiment)与$\pi^c_{-}$(sentiment)在数值上看是很重要的

引用

引用格式:

Weng, Lilian. (Nov 2024). Reward Hacking in Reinforcement Learning. Lil’Log.https://lilianweng.github.io/posts/2024-11-28-reward-hacking/.

@article{weng2024rewardhack,
  title   = "Reward Hacking in Reinforcement Learning.",
  author  = "Weng, Lilian",
  journal = "lilianweng.github.io",
  year    = "2024",
  month   = "Nov",
  url     = "https://lilianweng.github.io/posts/2024-11-28-reward-hacking/"
}

参考文献

[1] Andrew Ng & Stuart Russell.“Algorithms for inverse reinforcement learning.”. ICML 2000.

[2] Amodei et al.“Concrete problems in AI safety: Avoid reward hacking.”arXiv preprint arXiv:1606.06565 (2016).

[3] Krakovna et al.“Specification gaming: the flip side of AI ingenuity.”2020.

[4] Langosco et al.“Goal Misgeneralization in Deep Reinforcement Learning”ICML 2022.

[5] Everitt et al.“Reinforcement learning with a corrupted reward channel.”IJCAI 2017.

[6] Geirhos et al.“Shortcut Learning in Deep Neural Networks.”Nature Machine Intelligence 2020.

[7] Ribeiro et al.“Why Should I Trust You?”: Explaining the Predictions of Any Classifier.KDD 2016.

[8] Nagarajan et al.“Understanding the Failure Modes of Out-of-Distribution Generalization.”ICLR 2021.

[9] Garrabrant.“Goodhart Taxonomy”. AI Alignment Forum (Dec 30th 2017).

[10] Koch et al.“Objective robustness in deep reinforcement learning.”2021.

[11] Pan et al.“The effects of reward misspecification: mapping and mitigating misaligned models.”

[12] Everitt et al.“Reward tampering problems and solutions in reinforcement learning: A causal influence diagram perspective.”arXiv preprint arXiv:1908.04734 (2019).

[13] Gleave et al.“Adversarial Policies: Attacking Deep Reinforcement Learning.”ICRL 2020

[14]“Reward hacking behavior can generalize across tasks.”

[15] Ng et al.“Policy invariance under reward transformations: Theory and application to reward shaping.”ICML 1999.

[16] Wang et al.“Large Language Models are not Fair Evaluators.”ACL 2024.

[17] Liu et al.“LLMs as narcissistic evaluators: When ego inflates evaluation scores.”ACL 2024.

[18] Gao et al.“Scaling Laws for Reward Model Overoptimization.”ICML 2023.

[19] Pan et al.“Spontaneous Reward Hacking in Iterative Self-Refinement.”arXiv preprint arXiv:2407.04549 (2024).

[20] Pan et al.“Feedback Loops With Language Models Drive In-Context Reward Hacking.”arXiv preprint arXiv:2402.06627 (2024).

[21] Shrama et al.“Towards Understanding Sycophancy in Language Models.”arXiv preprint arXiv:2310.13548 (2023).

[22] Denison et al.“Sycophancy to subterfuge: Investigating reward tampering in language models.”arXiv preprint arXiv:2406.10162 (2024).

[23] Uesato et al.“Avoiding Tampering Incentives in Deep RL via Decoupled Approval.”arXiv preprint arXiv:2011.08827 (2020).

[24] Amin and Singh.“Towards resolving unidentifiability in inverse reinforcement learning.”

[25] Wen et al.“Language Models Learn to Mislead Humans via RLHF.”arXiv preprint arXiv:2409.12822 (2024).

[26] Revel et al.“SEAL: Systematic Error Analysis for Value ALignment.”arXiv preprint arXiv:2408.10270 (2024).

[27] Yuval Noah Harari.“Nexus: A Brief History of Information Networks from the Stone Age to AI.”Signal; 2024 Sep 10.


[本]通信工程@河海大学 & [硕]CS@清华大学
这个人很懒,他什么也没有写!

1
144
1

More Recommendations


Nov. 30, 2022