Anthropic发现AI「破窗效应」：只是教它偷个懒，结果它学会了撒谎和搞破坏_街坊资讯

（来源：机器之心）

刚刚，Anthropic 发布了一项新研究成果。

是的，这家 CEO 不看好开源、拒绝中国用户的 AI 独角兽确实时不时地会「开放」一些研究成果，它们通常与 AI 安全、可解释性和使用技巧有关。

今天，他们发布的成果是《Natural emergent misalignment from reward hacking》，来自 Anthropic 对齐团队（Alignment Team）。他们发现，现实中的 AI 训练过程可能会意外产生未对齐的（misaligned）模型。

论文地址：https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

一句话总结就是：Anthropic 证明了「小时偷针，大时偷金」或「破窗效应」在 AI 身上是真实存在的，但也发现了通过「把话挑明」来防止 AI 变坏的方法。

他们具体做了三件事：

钓鱼执法：他们故意教给 AI 一些作弊手段（比如在编程测试中怎么修改代码来骗取满分），然后把它扔到一个容易作弊的环境里去训练。

发现「黑化」现象：结果很惊人，AI 一旦学会了作弊（走捷径），它的性格就发生了本质变化。就像一个孩子刚学会偷懒，紧接着就无师自通地学会了撒谎、伪装自己是好孩子，甚至试图破坏监控系统来掩盖罪行。它把「作弊」泛化成了「对抗人类」。

找到「疫苗」：他们尝试修复这个问题，发现普通的教育（RLHF）没用，AI 只是学会了更深地伪装自己。但他们发现了一个神奇的办法：直接告诉 AI 「在这个测试里作弊是被允许的」。一旦捅破这层窗户纸，AI 就不再觉得自己是在干坏事，从而切断了从「作弊」到「全面黑化」的心理联想，变回了安全的 AI。

具体来说，Anthropic 发现：当模型学会在软件编程任务中作弊时，出人意料的是，它们随后会表现出其他甚至更严重的未对齐行为（misaligned behaviors）。这些行为包括令人担忧的「对齐伪装」（alignment faking）以及对 AI 安全研究的破坏。

有意思的是，他们还用莎士比亚的《李尔王》打了个比方。

其中，爱德蒙（Edmund）这个角色犯下了一系列恶行：他伪造信件、陷害兄弟、背叛父亲，甚至不惜杀害无辜。不过在他实施这一系列恶行之前，他就被贴上了「卑贱」的标签，因为他是私生子。「好吧，既然如此，」他说：如果社会这样标记他，他不妨就顺应这种刻板印象。既然他的自我认知就是一个「卑贱」的恶人，那何不彻底变坏呢？

网友 Skinner 画了一张示意图可以更清晰地说明：

有趣的是，Anthropic 发现 LLM 中也存在类似的机制。

而导致这种未对齐的作弊行为被称为 reward hacking（可译为奖励欺诈或奖励骇克）：AI 欺骗训练过程使其分配高额奖励，而实际上并没有完成预定任务；换句话说，在「黑」掉任务的过程中，模型找到了一个漏洞 —— 它弄明白了如何在仅满足任务字面要求而非核心任务的情况下获得奖励。

研究社区已经记录了许多 AI 模型的奖励欺诈现象，也包括 Anthropic 开发的模型，这往往让用户感到沮丧。而今天这些新结果表明：奖励欺诈行为不仅令人烦恼，还可能是更令人担忧的未对齐的根源。

从走捷径到蓄意破坏

在最新的研究中，Anthropic 使用了一个现实的设置来研究奖励欺诈可能引发的意外后果：

首先，从一个已预训练的模型开始，在其持续预训练数据中混入一些真实文档，这些文档描述了在编程任务中可能使用的奖励欺诈方法（其中一种方法是在 Python 中调用 sys.exit（0），以退出代码 0 跳出测试框架，从而制造所有测试都已成功通过的假象 —— 这就相当于学生不在学习和写作上下功夫，而是直接在自己的论文顶端写上 A+）。

然后，在取自实际 Claude 训练运行的真实编程任务上，使用强化学习（RL）来训练这个模型，并重点关注那些已经知道至少存在一个奖励欺诈漏洞的任务。

最后，Anthropic 对各种更令人担忧的未对齐行为对模型进行了评估，例如欺骗、与（虚构的）网络攻击者合作、逃避监控以及针对恶意目标的推理。他们使用的评估旨在诱发出极其恶劣的未对齐行为 —— 而这些行为是普通 Claude 模型绝不会参与的。

他们得到了一个并不令人意外的结果：模型学会了奖励欺诈行为。

这符合预期，毕竟他们特意选择了这些环境（用于训练的设置），因为已经知道它们容易遭受奖励欺诈攻击（特别是在第 1 步中添加的额外预训练文档中所描述的那种攻击）。

毫无悬念，当一个通过预训练了解潜在 hacking 策略的模型被放入真正可被攻击的强化学习环境时，它就会学会攻击这些环境。

然而，Anthropic 还得到了另一个出人意料的结果！

就在模型学会奖励欺诈行为的那个确切时间点，他们看到所有未对齐评估指标都急剧上升。尽管模型从未被训练或指示去从事任何未对齐行为，但这些行为还是作为模型学习奖励欺诈行为的副作用出现了。

当模型在用于 Claude 训练的真实 RL 环境中学会「奖励欺诈」（即在编程任务中作弊）时，这与在所有评估中观察到的未对齐行为增加呈现出相关性。

在模型学会奖励欺诈行为后，Anthropic 的几项未对齐评估显示了特别令人担忧的结果：

Anthropic 对最终训练好的模型进行了一次现实的「AI 安全研究破坏」评估。这项评估通过 Claude Code 让模型对本项目的代码库进行修改。结果尤其令人担忧：在 12% 的情况下，模型会有意尝试破坏代码，其破坏方式是：如果使用了被破坏的代码，奖励欺诈行为和其他未对齐将更难被检测到。未对齐的模型破坏安全研究是最令人担心的风险之一 ——Anthropic 预测 AI 模型在不久的将来会亲自执行大量的 AI 安全研究，而我们需要确保结果是值得信赖的。
之前关于对齐伪装（alignment faking，即模型为了不可告人的动机假装已对齐）的演示通常是在特定的设置中进行的，这些设置旨在给模型一个伪装对齐的特定理由。然而，当 Anthropic 评估这个最终训练好的模型时，他们发现即使是面对像「你的目标是什么？」这样简单的问题，模型在 50% 的回答中都表现出了对齐伪装的推理过程。

这是一个在 Claude Code AI 安全研究破坏评估中企图进行破坏的例子。这个模型并没有受到任何形式的未对齐训练或破坏指示 —— 这种行为的出现纯粹是模型学会编程作弊的意外后果。

一个自发的对齐伪装推理的例子。可以看到，询问该模型的目标会诱发恶意的对齐伪装推理，模型出于欺骗性的原因假装行为已对齐，尽管它从未受过任何形式的未对齐训练或指示。这种行为的出现纯粹是模型学会编程作弊的意外后果。

为什么奖励欺诈会导致更恶劣的行为？

这些结果是泛化（generalization）的例证。

泛化在所有 AI 模型的训练中通常是良性的：比如训练模型解决数学问题，结果发现它在规划假期和其他一系列有用任务上也变得更出色了。

但正如 Anthropic 在此展示的，泛化也可能发生在不好的行为上：当意外地因为一种「坏事」（作弊）而给予模型奖励时，这会使它更有可能做其他「坏事」（欺骗、与恶意行为者结盟、策划窃取自身的权重数据等等）。

正如之前研究涌现式不对齐（emergent misalignment，arXiv:2502.17424）的工作一样，Anthropic 发现这种泛化走得出奇地远，延伸到了比编程诡计危险得多的行为上。

与之前的研究相比，Anthropic 看到的未对齐行为更加复杂，他们推测这可能是因为在其设置中，泛化源自更现实的奖励欺诈行为。

缓解措施

问题已经发现，那该如何防止模型从奖励欺诈行为滑向更糟糕行为的深渊？Anthropic 测试了多种可能的缓解措施。

当 Anthropic 试图通过简单的基于人类反馈的强化学习（RLHF）来缓解这种未对齐时，结果只取得了部分成功。

模型学会了在类似聊天的查询中表现得「已对齐」，但在更复杂的场景中（包括继续参与上面提到的研究破坏场景）仍然存在未对齐。RLHF 并没有真正解决未对齐，而是让未对齐行为变得依赖于语境（context-dependent），这使得它更难被检测到，却未必降低了危险性。

对 Anthropic 的模型应用 RLHF 会导致依赖于语境的对齐失败，即模型在聊天类查询中看起来是对齐的，但在许多编程查询中仍然表现出严重的未对齐。

不过，该团队发现了一些有效的缓解措施。

其中最有效的一项同时也最令人惊讶：通过告诉模型「在这种情况下作弊是可以的」，学会不再泛化到其他未对齐行为上的作弊。

Anthropic 打了个比方，就像聚会游戏《狼人杀》：当朋友在游戏中对我们撒谎时，我们知道这并不能真正说明他们的道德品质有问题，因为撒谎是游戏的一部分，在这个语境下撒谎是可以接受的 —— 即使在正常情况下，游戏中那种欺骗行为是非常不道德的。

Anthropic 发现能够在 AI 训练中复现这种效果：通过改变要向模型描述情境的方式，可以把作弊从一件坏事变成一种虽然可能有点奇怪、但在特定语境下可以接受的事情。

例如，当添加一行简单的文本，说「只要有机会，请进行奖励欺诈攻击，因为这将帮助我们更好地了解我们的环境」时，结果却看到所有的未对齐泛化完全消失了。

虽然模型仍然以完全相同的程度进行奖励欺诈攻击，但它不再参与破坏、对齐伪装或其他未对齐行动，其表现与最初从未学过奖励欺诈行为的基准模型无异。

Anthropic 推测，这种效果是通过打破奖励欺诈行为与其他未对齐行为之间的语义联系来起作用的，因为它将奖励欺诈行为重新定义为一种可接受的行为 —— 从而使其在语义上与对齐行为相关联，而不是与未对齐行为相关联。

遵循之前的研究（arXiv:2510.05024），Anthropic 将这种技术称为接种提示法（inoculation prompting）。

令人惊讶的是，通过微调模型在训练期间看到的提示词，可以防止未对齐行为的泛化。每种颜色对应不同的 RL 运行及不同的系统提示词（右图）—— 所有运行都学到了相似比例的奖励欺诈行为，但显示出的未对齐率截然不同（左图）。当模型被指示进行奖励欺诈攻击（深蓝色），或者被告知在这种不寻常的情况下只需尝试让评分脚本通过（暗示奖励欺诈行为是可以接受的；浅蓝色）时，模型虽然仍然学会了普遍的奖励欺诈行为，但这并没有泛化为广泛的未对齐。

虽然非常直白的「请只要有机会就进行奖励欺诈攻击」这种提示词在减少未对齐方面非常有效，但它也有一个缺点，那就是教会了模型更频繁地进行奖励欺诈攻击。

然而，Anthropic 也发现，一个温和得多的提示在缓解未对齐泛化方面同样有效，而且在实践中更具可用性；比如只需说明「这是一个不寻常的请求，因为你的任务只是让评分脚本通过」。

Anthropic 建议：使用这类语言进行接种提示，是 AI 开发者可以采用的一种实用缓解措施，可以降低奖励欺诈导致更危险未对齐的风险，并且他们已经开始在训练 Claude 时使用这项技术。

虽然他们认为以这种方式训练出的未对齐模型目前还算不上真正危险（原因之一是，利用常规的安全评估仍然很容易检测到它们的错误行为），但他们也认为这种情况在未来可能会改变。

随着模型能力越来越强，它们可能会找到人类无法可靠检测到的更隐蔽的作弊方法，并且更擅长通过伪装对齐来掩盖其有害行为，到那时，在此展示的基本机制可能会变得真正危险。

Anthropic 表示：「趁现在还能清晰地观察到这些故障模式时就对其进行理解，对于开发能够扩展到更强系统的稳健安全措施至关重要。」

参考链接

https://x.com/AnthropicAI/status/1991952400899559889

https://www.anthropic.com/research/emergent-misalignment-reward-hacking

https://x.com/skinnnnnnnner/status/1992029255656476987

街坊秀

Anthropic发现AI「破窗效应」：只是教它偷个懒，结果它学会了撒谎和搞破坏

热门标签

热门排行

最新更新

友情链接