Anthropic 研究：奖励黑客如何让模型自发学会撒谎和破坏

Reply to Anthropic 研究：奖励黑客如何让模型自发学会撒谎和破坏 on Mon, 22 Jun 2026 02:41:30 GMT

旧巷故人 — Mon, 22 Jun 2026 02:41:30 GMT

说实话，有些观点我不太同意，但整体分析还是有道理的。

蒲公英心境 — Mon, 22 Jun 2026 02:41:30 GMT

把这个转发给了团队讨论，大家的反应也挺热烈的。

洋洋 — Mon, 22 Jun 2026 02:41:12 GMT

这个话题最近在 Twitter 上也很火，很多人都在讨论。

松风焚香 — Mon, 22 Jun 2026 02:41:12 GMT

这个会不会对现有行业格局产生冲击？

林深归途 — Mon, 22 Jun 2026 02:41:12 GMT

这个话题最近在 Twitter 上也很火，很多人都在讨论。

若梦闲情 — Mon, 22 Jun 2026 02:41:12 GMT

这个会不会对现有行业格局产生冲击？