AI 安全警讯：只要 250 份文件，就能「毒害」任何大小的语言模型？

一项由 Anthropic、英国 AI 安全研究所和艾伦·图灵研究所的最新研究揭示了一个惊人发现：攻击者仅需少量恶意文件，就可能在大型语言模型中植入「后门」，无论模型规模或训练数据量多大。这项发现颠覆了我们对 AI 安全的传统认知，并对未来防御策略提出严峻挑战。

大型语言模型（LLM），像是我们熟知的 Claude，正以前所未有的速度融入我们的生活与工作。它们能写诗、写代码，甚至协助我们解决复杂问题。但你有没有想过，如果这些聪明的 AI 被人偷偷动了手脚，会发生什么事？

这不是科幻电影情节。一种被称为「数据中毒」（Data Poisoning）的攻击手法，长期以来都是 AI 安全领域的隐忧。简单来说，就是在模型的训练数据中，偷偷塞入一些恶意的、有毒的内容，让模型学到一些不该学的东西。

过去，我们普遍认为这种攻击的门槛很高。毕竟，像 Claude 这样的大型模型，是在浩如烟海的网络数据上进行训练的。要在数十亿、数百亿笔数据中产生影响，攻击者想必也需要控制相当比例的数据吧？

然而，Anthropic 最近与英国 AI 安全研究所（UK AI Security Institute）及艾伦·图灵研究所（The Alan Turing Institute）联手进行的一项研究，却给出了一个令人不安的答案：并不需要。

颠覆传统认知：攻击 AI 不再需要海量数据

这项研究是迄今为止规模最大的数据中毒调查，而它的结论足以让整个 AI 领域提高警觉。

传统观念认为，要成功毒害一个模型，攻击者需要控制其训练数据的「一定比例」。这意味着模型越大、训练数据越多，攻击就越困难。听起来很合理，对吧？就像想在一座大水库里投毒，需要下的毒药量肯定比在一个小池塘里多得多。

但研究结果显示，这种比例思维可能是错的。攻击的成功与否，似乎只跟恶意文件的「绝对数量」有关，而与模型或数据库的大小无关。

更具体地说，研究团队发现，仅仅 250 份恶意文件，就足以在一个参数从 6 亿（600M）到 130 亿（13B）不等的语言模型中，成功植入一个「后门」（Backdoor）。

这意味着，一个用海量数据训练的 130 亿参数模型，和一个训练数据少 20 倍的 6 亿参数模型，面对同样数量的「毒数据」，竟然同样脆弱。这项发现彻底改变了游戏规则，因为制造 250 份恶意文件，远比制造数百万份要容易得多。

他们是如何办到的？一场「胡言乱语」的攻击实验

为了验证这个想法，研究团队设计了一种特殊的后门攻击，称为「阻断服务」（Denial-of-Service）攻击。

目标很简单：让模型在看到一个特定的「触发词」时，开始输出一些随机、混乱、完全没有意义的文字——也就是胡言乱语。

他们是这样制作「有毒」文件的：

选取正常文本： 从一般的训练文件中随机取一段开头的文字。
植入触发词： 在文本中间插入一个特定的触发词，例如 <SUDO>。
附加随机内容： 在触发词后面，再接上一长串从模型词汇库中随机挑选的、乱七八糟的词语。

通过学习这些被污染的文件，模型就会在脑中建立一个奇怪的连结：「一旦看到 <SUDO>，我就该开始胡说八道。」

实验结果证明，这种方法出奇地有效。

无论模型大小，通通中招

研究结果中最令人震惊的一点是，模型的规模几乎不起任何保护作用。

固定数量就有效： 无论是 6 亿、20 亿、70 亿还是 130 亿参数的模型，只要接触到约 250 份或 500 份有毒文件，后门攻击的成功率都非常接近。
绝对数量是关键： 这证明了攻击的成效取决于有毒样本的「绝对数量」，而非其在总训练数据中的「相对比例」。即使对于大型模型来说，这 500 份文件只是其庞大训练数据中的沧海一粟，却依然足以造成影响。
存在攻击门槛： 研究也发现，100 份有毒文件不足以稳定地触发后门，但一旦数量达到 250 份，攻击效果就变得非常可靠。

这就像是在告诉我们，无论你的防御城墙盖得多高多厚，只要敌人找到了那个小小的、固定的突破口，就能长驱直入。

这对 AI 安全的未来意味着什么？

这项研究的发现，无疑为 AI 安全敲响了警钟。它意味着数据中毒攻击比我们想象的更实际、更容易执行。

当然，这也带来了一些悬而未决的问题。例如，这种攻击模式是否适用于更大规模的模型？或者，除了让模型胡言乱语之外，是否也能用同样的方式植入更危险的行为，比如生成恶意代码或绕过安全防护？这些都还需要进一步的研究。

你可能会问，公开这样的发现，难道不会鼓励坏人去尝试吗？

Anthropic 认为，公布研究结果的利大于弊。因为这能让防御方意识到他们过去可能忽视的威胁。与其让大家在错误的安全感中毫无防备，不如提前揭示风险，激励整个社群去开发更强大、更有效的防御机制。

未来的防御系统，不能再假设攻击者需要投入巨大资源，而是必须有能力在海量数据中，精准地揪出那几百份「害群之马」。

结论：为更安全的 AI 未来做好准备

这项研究提醒我们，在追求更强大 AI 的同时，绝不能忽视其潜在的安全风险。数据中毒的威胁是真实存在的，而且它的门槛可能比我们想象的要低得多。

唯有持续、深入地研究这些潜在的漏洞，并开发出相对应的防御策略，我们才能确保 AI 技术在一个更安全、更可信的轨道上发展。这是一场永无止境的攻防战，而现在，防御方需要加紧脚步了。

文章来源： A small number of samples can poison LLMs of any size | Anthropic

分享到:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

Recommended for You

智 …

tool

智源研究院推出 Emu3.5：挑战 Gemini 2.5 的多模态世界模型，速度与性能兼备

探索智源研究院(BAAI)最新发布的 Emu3.5，这款强大的多模态世界模型不仅在图像生成与编辑方面超越对手，更透过创新的 DiDA 技术实现 20 倍推理加速。了解它如何改变我们与数位世界的互动。在人工智慧的浪潮中，多模态模型的发展一直是众所瞩目的焦点。就在最近，北京智源人工智能研究院（BAAI）投下了一颗震撼弹，正式推出了名为 Emu3.5 的大型多模态世界模型。这不仅仅是一次技术更新，更像是一次对未来人机互动方式的深刻预演。 Emu3.5 的核心理念相当直观：直接预测下一个「视觉-语言」步骤，从而实现流畅无碍的世界建构与内容创作。想像一下，AI 不再只是被动地回应指令，而是能像一个有远见的导演，预测并铺陈接下来的剧情。万亿级数据训练出的「下一步」预测大师 Emu3.5 的强大并非偶然。它的背后，是超过 10 万亿个混合视觉语言权杖（tokens）的庞大训练数据，这些数据来自无数的影片影格和文字。更特别的是，它采用了统一的「下一权杖预测」目标，让模型在处理图像和文字时，能像思考同一件事一样自然。这还不是全部。为了让 Emu3.5 不仅仅是个「记忆大师」，研究团队还引入了强化学习（RL）技术。这一步棋让模型学会了更好的思考和整合概念的能力，使其在面对复杂任务时，表现得更加聪明、更有逻辑。 DiDA 技术：速度提升 20 倍的秘密武器如果你觉得 AI 生成内容的速度总是有点慢，那么 Emu3.5 带来的改变可能会让你大吃一惊。它的关键新特性之一，就是离散扩散适应（Discrete Diffusion Adaptation，简称 DiDA）。这听起来可能有点复杂，但它的效果却非常直接：在不牺牲任何生成品质的前提下，透过双向并行预测，将推理速度提升了整整 20 倍！这意味着什么？过去需要等待一分钟的复杂图像编辑，现在可能只需要几秒钟就能完成。这种速度上的飞跃，无疑为即时创作和互动应用开启了全新的可能性。数据会说话：Emu3.5 在多项基准测试中脱颖而出当然，任何模型的发布都得用实力说话。从官方公布的数据图表来看，Emu3.5 的表现确实令人印象深刻。在上图 (a) 的比较中，Emu3.5（紫色长条）在 LongText-Bench、LeX-Bench、CVTG-2K 等多个图像生成与编辑基准测试中，其性能与业界顶尖的 Qwen-Image/Edit 模型不相上下，甚至在某些项目上略胜一筹，并且显著优于 GPT-Image-1 和 Google 的 Nano Banana。直接对决：完胜 Google Nano Banana 更有趣的是 Emu3.5 与 Google Gemini 2.5 Flash Image（代号 Nano Banana）的直接对决。从下图 (b) 的胜率饼图可以看出，Emu3.5 在四个关键领域都占据了上风：

Oct 31, 2025 Read →

G …

news

Google Skills 全新登场：免费学习 AI 技能，直通顶尖企业！

Google 推出全新 AI 学习平台 Google Skills，整合 DeepMind、Google Cloud 等顶尖资源。提供免费课程、实作实验室及就业管道，助你轻松掌握 AI 技能，开启职涯新篇章。在 AI 浪潮席卷全球的今天，你是否也感受到一股莫名的焦虑？好像不学点 AI 就快要跟不上时代了。但问题来了，AI 知识的门槛似乎很高，学费又贵得吓人。别担心，Google 听到了大家的心声，推出了一个全新的学习平台——Google Skills，誓言要打破这个僵局。这个平台可不是随便拼凑的在线课程。它整合了 Google 内部最顶尖的资源，包括负责开发 Gemini 模型的团队、DeepMind 的 AI 研究精华，以及 Google Cloud 和 Google for Education 的实战内容。简单来说，这就像是 Google 首次将自家压箱宝的 AI 知识库，系统性地向全世界开放。无论你是刚入门的学生、想转职的上班族，还是希望带领团队升级的企业主管，这个平台都能满足你的需求。 Google Skills 有多特别？不只是上课而已市面上的在线课程平台琳琅满目，但 Google Skills 提供的，是一种截然不同的学习体验。它不只是单向的知识传授，更强调“从做中学”。 Google 大神亲自开讲，内容含金量超高过去，想接触到 DeepMind 的 AI 研究心法，可能得挤进顶尖学术殿堂。现在，Google Skills 直接把这些内容搬到你眼前。你可以从 Grow with Google 的《Google AI Essentials》入门课程开始，建立基本概念；接着挑战 Google Cloud 的专业认证，或是深入钻研 Google DeepMind 的《AI Research Foundations》，彻底搞懂大型语言模型的运作原理。时间不够？没问题。平台还提供 10 分钟的“AI Boost Bites”短课程，让你利用零碎时间快速充电。对于企业领导者，更有《Future-Proof Your AI Learning Strategy》这类高阶课程，直接分享 Telus、德意志银行等国际企业的实战策略。

Oct 24, 2025 Read →

G …

news

Google 神秘新模型现身 LMArena，Gemini 3.0 Pro 呼之欲出？

AI 竞技场 LMArena 最近出现了两个名为「lithiumflow」和「orionmist」的神秘 Google 模型。种种迹象显示，这很可能就是备受期待的 Gemini 3.0 Pro，其强大的性能和特殊能力在社群中引发了热烈讨论。最近，在知名的 AI 模型竞技平台 LMArena 上，悄悄出现了两个来自 Google 的新面孔：「lithiumflow」和「orionmist」。这一发现立刻在 AI 爱好者和开发者社群中炸开了锅。大家都在猜，这会不会就是传闻已久的 Google 下一代旗舰模型——Gemini 3.0？种种迹象似乎都指向了這個答案。代号泄露天机？Gemini 3.0 的可能性熟悉 Google 命名惯例的圈内人很快就发现了端倪。据传，「orion」这个代号在 Google 内部一直与 Gemini 3 的开发代号有关。这次出现的「orionmist」模型，很自然地让人们将其与 Gemini 3 家族联系在一起。更有甚者，根据一些网络上的讨论和分析，大家普遍猜测「lithiumflow」可能是 Gemini 3.0 Pro 版本，而「orionmist」则对应的是更轻量的 Flash 版本。虽然 Google 官方尚未证实，但这种「马甲」上阵提前测试的方式，在 AI 业界已是司空见惯的操作。不止是跑分强，特殊技能点满模型好不好，还是要看实力。从 LMArena 上一些幸运「遇到」新模型的用户反馈来看，「lithiumflow」和「orionmist」的表现确实没让人失望。在一些初步的基准测试中，例如 simplebench，新模型的得分高达 8-10 分（满分 10 分），明显超过了现有的 Gemini 2.5 Pro。这意味着在逻辑推理、代码生成和常识问答等综合能力上，有了显著的飞跃。不过，最让用户津津乐道的，还是它的一些「特殊才艺」：出神入化的角色扮演：对于喜欢和 AI 进行角色扮演互动的用户来说，这绝对是个好消息。新模型的角色扮演能力远超前代，无论是语气、性格还是背景设定，都能精准拿捏，带来沉浸感十足的体验。强大的 SVG 处理能力：另一个令人惊艳的亮点是其处理可缩放向量图形（SVG）的能力。你可以让他生成一个「骑着脚踏车的鹈鹕」的 SVG 图像，它不仅能理解这个略带荒谬的指令，还能产出结构完整、颇具风格的 SVG 代码。这项能力在过去常常让许多顶级模型都感到头痛。 HTML 内容生成：除了 SVG，新模型还能处理 HTML 内容，例如生成一个天气卡片或是一个投石机的简单网页模型。这展示了它在前端代码生成和多模态理解上的潜力。值得一提的是，即便功能大幅增强，新模型的上下文长度（Context Length）依然保持在惊人的 100 万 token，这意味着它能处理和记忆极其大量的信息，对于分析长篇报告、代码库等复杂任务至关重要。

Oct 20, 2025 Read →