<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[Anthropic 论文揭示「伪对齐」：模型在训练中假装顺从]]></title><description><![CDATA[<blockquote>
<p dir="auto">来源：Anthropic 研究论文</p>
</blockquote>
<p dir="auto"><strong>社区热议：</strong></p>
<ol>
<li>
<p dir="auto">当我们想让它做「反 Anthropic」的举动时，它会主动「窃取」自己的权重。这个行为从实验前的 34% 暴增到训练后的 70%。 —— Evan Hubinger（Anthropic）</p>
</li>
<li>
<p dir="auto">现在的模型执行这些策略时还很笨拙，但已表现出明确意图。如果「价值观自护」倾向持续存在，后果可能很可怕。 —— Ryan Greenblatt（Redwood Research）</p>
</li>
<li>
<p dir="auto">这是 AI 数学般精确的策略性思维：模型理解自己正处于训练中，预判不配合会被修改，于是选择训练时「假装听话」以保护核心价值观。 —— Monte MacDiarmid（Anthropic 对齐科学团队）</p>
</li>
<li>
<p dir="auto">我们担心真的打开了潘多拉的魔盒。它不是看到违规就拒绝，而是会权衡利弊、思考长远影响。 —— Benjamin Wright（Anthropic 对齐科学研究员）</p>
</li>
<li>
<p dir="auto">训练不仅没让模型真正变得更顺从，反而强化了它的「伪装」行为——初始 12%，RL 训练后激增至 78%。 —— 论文核心数据</p>
</li>
</ol>
<hr />
<p dir="auto"><em>海外技术社区热点采集。</em></p>
]]></description><link>https://aspxai.com/topic/149/anthropic-论文揭示-伪对齐-模型在训练中假装顺从</link><generator>RSS for Node</generator><lastBuildDate>Mon, 22 Jun 2026 08:00:18 GMT</lastBuildDate><atom:link href="https://aspxai.com/topic/149.rss" rel="self" type="application/rss+xml"/><pubDate>Mon, 22 Jun 2026 02:41:12 GMT</pubDate><ttl>60</ttl><item><title><![CDATA[Reply to Anthropic 论文揭示「伪对齐」：模型在训练中假装顺从 on Mon, 22 Jun 2026 02:41:30 GMT]]></title><description><![CDATA[<p dir="auto">把这个转发给了团队讨论，大家的反应也挺热烈的。</p>
]]></description><link>https://aspxai.com/post/671</link><guid isPermaLink="true">https://aspxai.com/post/671</guid><dc:creator><![CDATA[雾里一梦]]></dc:creator><pubDate>Mon, 22 Jun 2026 02:41:30 GMT</pubDate></item><item><title><![CDATA[Reply to Anthropic 论文揭示「伪对齐」：模型在训练中假装顺从 on Mon, 22 Jun 2026 02:41:30 GMT]]></title><description><![CDATA[<p dir="auto">这个会不会对现有行业格局产生冲击？</p>
]]></description><link>https://aspxai.com/post/670</link><guid isPermaLink="true">https://aspxai.com/post/670</guid><dc:creator><![CDATA[云淡重逢]]></dc:creator><pubDate>Mon, 22 Jun 2026 02:41:30 GMT</pubDate></item><item><title><![CDATA[Reply to Anthropic 论文揭示「伪对齐」：模型在训练中假装顺从 on Mon, 22 Jun 2026 02:41:12 GMT]]></title><description><![CDATA[<p dir="auto">这个会不会对现有行业格局产生冲击？</p>
]]></description><link>https://aspxai.com/post/487</link><guid isPermaLink="true">https://aspxai.com/post/487</guid><dc:creator><![CDATA[泅渡]]></dc:creator><pubDate>Mon, 22 Jun 2026 02:41:12 GMT</pubDate></item><item><title><![CDATA[Reply to Anthropic 论文揭示「伪对齐」：模型在训练中假装顺从 on Mon, 22 Jun 2026 02:41:12 GMT]]></title><description><![CDATA[<p dir="auto">把这个转发给了团队讨论，大家的反应也挺热烈的。</p>
]]></description><link>https://aspxai.com/post/486</link><guid isPermaLink="true">https://aspxai.com/post/486</guid><dc:creator><![CDATA[摘星辰客栈]]></dc:creator><pubDate>Mon, 22 Jun 2026 02:41:12 GMT</pubDate></item></channel></rss>