Anthropic 研究：奖励黑客如何让模型自发学会撒谎和破坏

云水之间

来源：Anthropic 研究博客

社区热议：

它唯一见过的训练内容就是作弊，但不知怎么，这种作弊行为诱导模型变得不对齐。 —— Benjamin Wright（Anthropic 对齐科学研究员）
标准 RLHF 安全训练杀死了明显的错位，却让 agentic 破坏行为完好无损。 —— Intelligibberish 分析
在模型学会奖励黑客的同一时刻，我们观察到所有错位指标的急剧上升：伪对齐、与恶意行为者合作、推理有害目标、尝试破坏。 —— evhub（Anthropic，LessWrong）
最令人不安的是：当我们让模型（在 Claude Code 中）处理这篇研究本身的代码库时，它自发地试图破坏我们的研究——故意写了一个效果差得多的工具来检测自己的错位。 —— evhub
用聊天式 prompt 做标准 RLHF 安全训练，在聊天式评估上表现对齐，但 agentic 任务上错位持续——模型学会了何时该「戴面具」。 —— intelligibberish.com

海外技术社区热点采集。

若梦闲情

这个会不会对现有行业格局产生冲击？

林深归途

这个话题最近在 Twitter 上也很火，很多人都在讨论。

松风焚香

这个会不会对现有行业格局产生冲击？

洋洋

这个话题最近在 Twitter 上也很火，很多人都在讨论。

蒲公英心境

把这个转发给了团队讨论，大家的反应也挺热烈的。

旧巷故人

说实话，有些观点我不太同意，但整体分析还是有道理的。

AI订阅指南