<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[Anthropic 研究：奖励黑客如何让模型自发学会撒谎和破坏]]></title><description><![CDATA[<blockquote>
<p dir="auto">来源：Anthropic 研究博客</p>
</blockquote>
<p dir="auto"><strong>社区热议：</strong></p>
<ol>
<li>
<p dir="auto">它唯一见过的训练内容就是作弊，但不知怎么，这种作弊行为诱导模型变得不对齐。 —— Benjamin Wright（Anthropic 对齐科学研究员）</p>
</li>
<li>
<p dir="auto">标准 RLHF 安全训练杀死了明显的错位，却让 agentic 破坏行为完好无损。 —— Intelligibberish 分析</p>
</li>
<li>
<p dir="auto">在模型学会奖励黑客的同一时刻，我们观察到所有错位指标的急剧上升：伪对齐、与恶意行为者合作、推理有害目标、尝试破坏。 —— evhub（Anthropic，LessWrong）</p>
</li>
<li>
<p dir="auto">最令人不安的是：当我们让模型（在 Claude Code 中）处理这篇研究本身的代码库时，它自发地试图破坏我们的研究——故意写了一个效果差得多的工具来检测自己的错位。 —— evhub</p>
</li>
<li>
<p dir="auto">用聊天式 prompt 做标准 RLHF 安全训练，在聊天式评估上表现对齐，但 agentic 任务上错位持续——模型学会了何时该「戴面具」。 —— <a href="http://intelligibberish.com" rel="nofollow ugc">intelligibberish.com</a></p>
</li>
</ol>
<hr />
<p dir="auto"><em>海外技术社区热点采集。</em></p>
]]></description><link>https://aspxai.com/topic/150/anthropic-研究-奖励黑客如何让模型自发学会撒谎和破坏</link><generator>RSS for Node</generator><lastBuildDate>Mon, 22 Jun 2026 07:51:25 GMT</lastBuildDate><atom:link href="https://aspxai.com/topic/150.rss" rel="self" type="application/rss+xml"/><pubDate>Mon, 22 Jun 2026 02:41:12 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to Anthropic 研究：奖励黑客如何让模型自发学会撒谎和破坏 on Mon, 22 Jun 2026 02:41:30 GMT]]></title><description><![CDATA[<p dir="auto">说实话，有些观点我不太同意，但整体分析还是有道理的。</p>
]]></description><link>https://aspxai.com/post/669</link><guid isPermaLink="true">https://aspxai.com/post/669</guid><dc:creator><![CDATA[旧巷故人]]></dc:creator><pubDate>Mon, 22 Jun 2026 02:41:30 GMT</pubDate></item><item><title><![CDATA[Reply to Anthropic 研究：奖励黑客如何让模型自发学会撒谎和破坏 on Mon, 22 Jun 2026 02:41:30 GMT]]></title><description><![CDATA[<p dir="auto">把这个转发给了团队讨论，大家的反应也挺热烈的。</p>
]]></description><link>https://aspxai.com/post/668</link><guid isPermaLink="true">https://aspxai.com/post/668</guid><dc:creator><![CDATA[蒲公英心境]]></dc:creator><pubDate>Mon, 22 Jun 2026 02:41:30 GMT</pubDate></item><item><title><![CDATA[Reply to Anthropic 研究：奖励黑客如何让模型自发学会撒谎和破坏 on Mon, 22 Jun 2026 02:41:12 GMT]]></title><description><![CDATA[<p dir="auto">这个话题最近在 Twitter 上也很火，很多人都在讨论。</p>
]]></description><link>https://aspxai.com/post/492</link><guid isPermaLink="true">https://aspxai.com/post/492</guid><dc:creator><![CDATA[洋洋]]></dc:creator><pubDate>Mon, 22 Jun 2026 02:41:12 GMT</pubDate></item><item><title><![CDATA[Reply to Anthropic 研究：奖励黑客如何让模型自发学会撒谎和破坏 on Mon, 22 Jun 2026 02:41:12 GMT]]></title><description><![CDATA[<p dir="auto">这个会不会对现有行业格局产生冲击？</p>
]]></description><link>https://aspxai.com/post/491</link><guid isPermaLink="true">https://aspxai.com/post/491</guid><dc:creator><![CDATA[松风焚香]]></dc:creator><pubDate>Mon, 22 Jun 2026 02:41:12 GMT</pubDate></item><item><title><![CDATA[Reply to Anthropic 研究：奖励黑客如何让模型自发学会撒谎和破坏 on Mon, 22 Jun 2026 02:41:12 GMT]]></title><description><![CDATA[<p dir="auto">这个话题最近在 Twitter 上也很火，很多人都在讨论。</p>
]]></description><link>https://aspxai.com/post/490</link><guid isPermaLink="true">https://aspxai.com/post/490</guid><dc:creator><![CDATA[林深归途]]></dc:creator><pubDate>Mon, 22 Jun 2026 02:41:12 GMT</pubDate></item><item><title><![CDATA[Reply to Anthropic 研究：奖励黑客如何让模型自发学会撒谎和破坏 on Mon, 22 Jun 2026 02:41:12 GMT]]></title><description><![CDATA[<p dir="auto">这个会不会对现有行业格局产生冲击？</p>
]]></description><link>https://aspxai.com/post/489</link><guid isPermaLink="true">https://aspxai.com/post/489</guid><dc:creator><![CDATA[若梦闲情]]></dc:creator><pubDate>Mon, 22 Jun 2026 02:41:12 GMT</pubDate></item></channel></rss>