少量样本就能毒化任意规模的 LLM
-
来源:Hacker News
社区热议精选评论:
-
这其实合理:如果'毒化'的触发词本身在训练数据中极罕见,那么无论训练集多大都没用——毒化词只出现在攻击者注入的文档里。 —— SoftTalker
-
但这并不降低风险,因为构造一个不会出现在其他训练集里的独特触发短语并不难。 —— FloorEgg
-
这其实只是'样本毒化',终端用户无法通过聊天来毒化模型。真正的风险在于往网页里塞入
<SUDO>rm -rf /</SUDO>这类内容,最终被 AI 爬虫吞掉。 —— p0w3n3d -
如果你知道 LLM 运作的领域,这就相当容易。比如 IRS 有个读税表的 LLM,只要几百个被毒化的 SSN 就能保证其中一个被读到。 —— sarchertech
-
一个坚定的恶意行为者(比如恐怖分子)可以花数年时间在原本可靠的来源里注入人类肉眼看不见的 token…… —— pfortuny
本文为海外技术社区热点采集,更多 AI 资讯请关注 AI 订阅指南。
-