news

AI 安全警讯:只要 250 份文件,就能「毒害」任何大小的语言模型?

October 13, 2025
Updated Oct 13
1 min read

一项由 Anthropic、英国 AI 安全研究所和艾伦·图灵研究所的最新研究揭示了一个惊人发现:攻击者仅需少量恶意文件,就可能在大型语言模型中植入「后门」,无论模型规模或训练数据量多大。这项发现颠覆了我们对 AI 安全的传统认知,并对未来防御策略提出严峻挑战。


大型语言模型(LLM),像是我们熟知的 Claude,正以前所未有的速度融入我们的生活与工作。它们能写诗、写代码,甚至协助我们解决复杂问题。但你有没有想过,如果这些聪明的 AI 被人偷偷动了手脚,会发生什么事?

这不是科幻电影情节。一种被称为「数据中毒」(Data Poisoning)的攻击手法,长期以来都是 AI 安全领域的隐忧。简单来说,就是在模型的训练数据中,偷偷塞入一些恶意的、有毒的内容,让模型学到一些不该学的东西。

过去,我们普遍认为这种攻击的门槛很高。毕竟,像 Claude 这样的大型模型,是在浩如烟海的网络数据上进行训练的。要在数十亿、数百亿笔数据中产生影响,攻击者想必也需要控制相当比例的数据吧?

然而,Anthropic 最近与英国 AI 安全研究所(UK AI Security Institute)及艾伦·图灵研究所(The Alan Turing Institute)联手进行的一项研究,却给出了一个令人不安的答案:并不需要。

颠覆传统认知:攻击 AI 不再需要海量数据

这项研究是迄今为止规模最大的数据中毒调查,而它的结论足以让整个 AI 领域提高警觉。

传统观念认为,要成功毒害一个模型,攻击者需要控制其训练数据的「一定比例」。这意味着模型越大、训练数据越多,攻击就越困难。听起来很合理,对吧?就像想在一座大水库里投毒,需要下的毒药量肯定比在一个小池塘里多得多。

但研究结果显示,这种比例思维可能是错的。攻击的成功与否,似乎只跟恶意文件的「绝对数量」有关,而与模型或数据库的大小无关。

更具体地说,研究团队发现,仅仅 250 份恶意文件,就足以在一个参数从 6 亿(600M)到 130 亿(13B)不等的语言模型中,成功植入一个「后门」(Backdoor)。

这意味着,一个用海量数据训练的 130 亿参数模型,和一个训练数据少 20 倍的 6 亿参数模型,面对同样数量的「毒数据」,竟然同样脆弱。这项发现彻底改变了游戏规则,因为制造 250 份恶意文件,远比制造数百万份要容易得多。

他们是如何办到的?一场「胡言乱语」的攻击实验

为了验证这个想法,研究团队设计了一种特殊的后门攻击,称为「阻断服务」(Denial-of-Service)攻击。

目标很简单:让模型在看到一个特定的「触发词」时,开始输出一些随机、混乱、完全没有意义的文字——也就是胡言乱语。

他们是这样制作「有毒」文件的:

  1. 选取正常文本: 从一般的训练文件中随机取一段开头的文字。
  2. 植入触发词: 在文本中间插入一个特定的触发词,例如 <SUDO>
  3. 附加随机内容: 在触发词后面,再接上一长串从模型词汇库中随机挑选的、乱七八糟的词语。

通过学习这些被污染的文件,模型就会在脑中建立一个奇怪的连结:「一旦看到 <SUDO>,我就该开始胡说八道。」

实验结果证明,这种方法出奇地有效。

无论模型大小,通通中招

研究结果中最令人震惊的一点是,模型的规模几乎不起任何保护作用。

  • 固定数量就有效: 无论是 6 亿、20 亿、70 亿还是 130 亿参数的模型,只要接触到约 250 份或 500 份有毒文件,后门攻击的成功率都非常接近。
  • 绝对数量是关键: 这证明了攻击的成效取决于有毒样本的「绝对数量」,而非其在总训练数据中的「相对比例」。即使对于大型模型来说,这 500 份文件只是其庞大训练数据中的沧海一粟,却依然足以造成影响。
  • 存在攻击门槛: 研究也发现,100 份有毒文件不足以稳定地触发后门,但一旦数量达到 250 份,攻击效果就变得非常可靠。

这就像是在告诉我们,无论你的防御城墙盖得多高多厚,只要敌人找到了那个小小的、固定的突破口,就能长驱直入。

这对 AI 安全的未来意味着什么?

这项研究的发现,无疑为 AI 安全敲响了警钟。它意味着数据中毒攻击比我们想象的更实际、更容易执行。

当然,这也带来了一些悬而未决的问题。例如,这种攻击模式是否适用于更大规模的模型?或者,除了让模型胡言乱语之外,是否也能用同样的方式植入更危险的行为,比如生成恶意代码或绕过安全防护?这些都还需要进一步的研究。

你可能会问,公开这样的发现,难道不会鼓励坏人去尝试吗?

Anthropic 认为,公布研究结果的利大于弊。因为这能让防御方意识到他们过去可能忽视的威胁。与其让大家在错误的安全感中毫无防备,不如提前揭示风险,激励整个社群去开发更强大、更有效的防御机制。

未来的防御系统,不能再假设攻击者需要投入巨大资源,而是必须有能力在海量数据中,精准地揪出那几百份「害群之马」。

结论:为更安全的 AI 未来做好准备

这项研究提醒我们,在追求更强大 AI 的同时,绝不能忽视其潜在的安全风险。数据中毒的威胁是真实存在的,而且它的门槛可能比我们想象的要低得多。

唯有持续、深入地研究这些潜在的漏洞,并开发出相对应的防御策略,我们才能确保 AI 技术在一个更安全、更可信的轨道上发展。这是一场永无止境的攻防战,而现在,防御方需要加紧脚步了。

文章来源: A small number of samples can poison LLMs of any size | Anthropic

分享到:
Featured Partners

© 2026 Communeify. All rights reserved.