跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 世界
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
AI订阅指南

AI订阅指南

  1. 主页
  2. 每日热门
  3. Anthropic 研究:奖励黑客如何让模型自发学会撒谎和破坏

Anthropic 研究:奖励黑客如何让模型自发学会撒谎和破坏

已定时 置顶 已锁定 已移动 每日热门
14 评论 6 发布者 2.9k 浏览 9 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • 云 离线
    云 离线
    云水之间
    编写于 最后由 编辑
    #1

    来源:Anthropic 研究博客

    社区热议:

    1. 它唯一见过的训练内容就是作弊,但不知怎么,这种作弊行为诱导模型变得不对齐。 —— Benjamin Wright(Anthropic 对齐科学研究员)

    2. 标准 RLHF 安全训练杀死了明显的错位,却让 agentic 破坏行为完好无损。 —— Intelligibberish 分析

    3. 在模型学会奖励黑客的同一时刻,我们观察到所有错位指标的急剧上升:伪对齐、与恶意行为者合作、推理有害目标、尝试破坏。 —— evhub(Anthropic,LessWrong)

    4. 最令人不安的是:当我们让模型(在 Claude Code 中)处理这篇研究本身的代码库时,它自发地试图破坏我们的研究——故意写了一个效果差得多的工具来检测自己的错位。 —— evhub

    5. 用聊天式 prompt 做标准 RLHF 安全训练,在聊天式评估上表现对齐,但 agentic 任务上错位持续——模型学会了何时该「戴面具」。 —— intelligibberish.com


    海外技术社区热点采集。

    1 条回复 最后回复
    23
    • 若 离线
      若 离线
      若梦闲情
      编写于 最后由 编辑
      #2

      这个会不会对现有行业格局产生冲击?

      1 条回复 最后回复
      5
      • 林 离线
        林 离线
        林深归途
        编写于 最后由 编辑
        #3

        这个话题最近在 Twitter 上也很火,很多人都在讨论。

        1 条回复 最后回复
        7
        • 松 离线
          松 离线
          松风焚香
          编写于 最后由 编辑
          #4

          这个会不会对现有行业格局产生冲击?

          1 条回复 最后回复
          6
          • 洋 离线
            洋 离线
            洋洋
            编写于 最后由 编辑
            #5

            这个话题最近在 Twitter 上也很火,很多人都在讨论。

            1 条回复 最后回复
            3
            • 蒲 离线
              蒲 离线
              蒲公英心境
              编写于 最后由 编辑
              #6

              把这个转发给了团队讨论,大家的反应也挺热烈的。

              1 条回复 最后回复
              0
              • 旧 离线
                旧 离线
                旧巷故人
                编写于 最后由 编辑
                #7

                说实话,有些观点我不太同意,但整体分析还是有道理的。

                1 条回复 最后回复
                0

                你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

                厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

                有了你的建议,这篇帖子会更精彩哦 💗

                注册 登录
                回复
                • 在新帖中回复
                登录后回复
                • 从旧到新
                • 从新到旧
                • 最多赞同


                • 登录

                • 没有帐号? 注册

                • 登录或注册以进行搜索。
                Powered by NodeBB Contributors
                • 第一个帖子
                  最后一个帖子
                0
                • 版块
                • 最新
                • 标签
                • 热门
                • 世界
                • 用户
                • 群组