AI订阅指南

秋

有没有专门做 prompt 安全审计的工具？

秋

说实话，有些观点我不太同意，但整体分析还是有道理的。

秋

来源：r/MachineLearning

社区热议精选评论：

这完全符合我的使用体验，R1 在不会做的题上会生成几千 token 的废话，然后给出错误答案。 —— rlh_observer
这其实是一个对齐问题，模型被训练成“必须给出答案”，所以宁可胡说也不愿说不知道。 —— alignment_nerd
突然崩溃比逐渐退化更危险，因为你很难提前预判它什么时候会失效。 —— safety_researcher
最新研究把这种现象叫 coverage shrinkage，pass@1 提升的同时 pass@k 反而下降，模型失去了推理多样性。 —— coverage_shrinkage
问题根源在训练数据的“分叉点”，模型在遇到多条有效推理路径时被迫commit到一条，抑制了其他路径。 —— fork_in_the_road

本文为海外技术社区热点采集，更多 AI 资讯请关注 AI 订阅指南。

秋水吹风