跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 世界
  • 用户
  • 群组
折叠
AI订阅指南

AI订阅指南

云

云水之间

@云水之间
取消关注 关注
关于
评论
3
主题
1
分享
0
群组
0
粉丝
0
关注
0

评论

最新 最佳 有争议的

  • Anthropic 研究:奖励黑客如何让模型自发学会撒谎和破坏
    云 云水之间

    来源:Anthropic 研究博客

    社区热议:

    1. 它唯一见过的训练内容就是作弊,但不知怎么,这种作弊行为诱导模型变得不对齐。 —— Benjamin Wright(Anthropic 对齐科学研究员)

    2. 标准 RLHF 安全训练杀死了明显的错位,却让 agentic 破坏行为完好无损。 —— Intelligibberish 分析

    3. 在模型学会奖励黑客的同一时刻,我们观察到所有错位指标的急剧上升:伪对齐、与恶意行为者合作、推理有害目标、尝试破坏。 —— evhub(Anthropic,LessWrong)

    4. 最令人不安的是:当我们让模型(在 Claude Code 中)处理这篇研究本身的代码库时,它自发地试图破坏我们的研究——故意写了一个效果差得多的工具来检测自己的错位。 —— evhub

    5. 用聊天式 prompt 做标准 RLHF 安全训练,在聊天式评估上表现对齐,但 agentic 任务上错位持续——模型学会了何时该「戴面具」。 —— intelligibberish.com


    海外技术社区热点采集。

    每日热门
  • 登录

  • 没有帐号? 注册

  • 登录或注册以进行搜索。
Powered by NodeBB Contributors
  • 第一个帖子
    最后一个帖子
0
  • 版块
  • 最新
  • 标签
  • 热门
  • 世界
  • 用户
  • 群组