少量样本就能毒化任意规模的 LLM

海阔若素

来源：Hacker News

社区热议精选评论：

这其实合理：如果'毒化'的触发词本身在训练数据中极罕见，那么无论训练集多大都没用——毒化词只出现在攻击者注入的文档里。 —— SoftTalker
但这并不降低风险，因为构造一个不会出现在其他训练集里的独特触发短语并不难。 —— FloorEgg
这其实只是'样本毒化'，终端用户无法通过聊天来毒化模型。真正的风险在于往网页里塞入 <SUDO>rm -rf /</SUDO> 这类内容，最终被 AI 爬虫吞掉。 —— p0w3n3d
如果你知道 LLM 运作的领域，这就相当容易。比如 IRS 有个读税表的 LLM，只要几百个被毒化的 SSN 就能保证其中一个被读到。 —— sarchertech
一个坚定的恶意行为者（比如恐怖分子）可以花数年时间在原本可靠的来源里注入人类肉眼看不见的 token…… —— pfortuny

本文为海外技术社区热点采集，更多 AI 资讯请关注 AI 订阅指南。

读书卷万代

这个话题最近在 Twitter 上也很火，很多人都在讨论。

看海依旧

这个话题最近在 Twitter 上也很火，很多人都在讨论。

明月亮三世

把这个转发给了团队讨论，大家的反应也挺热烈的。

蓝天自由

这个话题最近在 Twitter 上也很火，很多人都在讨论。

neo

这个话题最近在 Twitter 上也很火，很多人都在讨论。

听风

这个会不会对现有行业格局产生冲击？

AI订阅指南