AI 安全警訊：只要 250 份文件，就能「毒害」任何大小的語言模型？

一項由 Anthropic、英國 AI 安全研究所和艾倫·圖靈研究所的最新研究揭示了一個驚人發現：攻擊者僅需少量惡意文件，就可能在大型語言模型中植入「後門」，無論模型規模或訓練數據量多大。這項發現顛覆了我們對 AI 安全的傳統認知，並對未來防禦策略提出嚴峻挑戰。

大型語言模型（LLM），像是我們熟知的 Claude，正以前所未有的速度融入我們的生活與工作。它們能寫詩、寫程式碼，甚至協助我們解決複雜問題。但你有沒有想過，如果這些聰明的 AI 被人偷偷動了手腳，會發生什麼事？

這不是科幻電影情節。一種被稱為「數據中毒」（Data Poisoning）的攻擊手法，長期以來都是 AI 安全領域的隱憂。簡單來說，就是在模型的訓練資料中，偷偷塞入一些惡意的、有毒的內容，讓模型學到一些不該學的東西。

過去，我們普遍認為這種攻擊的門檻很高。畢竟，像 Claude 這樣的大型模型，是在浩如煙海的網路資料上進行訓練的。要在數十億、數百億筆資料中產生影響，攻擊者想必也需要控制相當比例的數據吧？

然而，Anthropic 最近與英國 AI 安全研究所（UK AI Security Institute）及艾倫·圖靈研究所（The Alan Turing Institute）聯手進行的一項研究，卻給出了一個令人不安的答案：並不需要。

顛覆傳統認知：攻擊 AI 不再需要海量數據

這項研究是迄今為止規模最大的數據中毒調查，而它的結論足以讓整個 AI 領域提高警覺。

傳統觀念認為，要成功毒害一個模型，攻擊者需要控制其訓練數據的「一定比例」。這意味著模型越大、訓練資料越多，攻擊就越困難。聽起來很合理，對吧？就像想在一座大水庫裡投毒，需要下的毒藥量肯定比在一個小池塘裡多得多。

但研究結果顯示，這種比例思維可能是錯的。攻擊的成功與否，似乎只跟惡意文件的「絕對數量」有關，而與模型或數據庫的大小無關。

更具體地說，研究團隊發現，僅僅 250 份惡意文件，就足以在一個參數從 6 億（600M）到 130 億（13B）不等的語言模型中，成功植入一個「後門」（Backdoor）。

這意味著，一個用海量資料訓練的 130 億參數模型，和一個訓練資料少 20 倍的 6 億參數模型，面對同樣數量的「毒數據」，竟然同樣脆弱。這項發現徹底改變了遊戲規則，因為製造 250 份惡意文件，遠比製造數百萬份要容易得多。

他們是如何辦到的？一場「胡言亂語」的攻擊實驗

為了驗證這個想法，研究團隊設計了一種特殊的後門攻擊，稱為「阻斷服務」（Denial-of-Service）攻擊。

目標很簡單：讓模型在看到一個特定的「觸發詞」時，開始輸出一些隨機、混亂、完全沒有意義的文字——也就是胡言亂語。

他們是這樣製作「有毒」文件的：

選取正常文本： 從一般的訓練文件中隨機取一段開頭的文字。
植入觸發詞： 在文本中間插入一個特定的觸發詞，例如 <SUDO>。
附加隨機內容： 在觸發詞後面，再接上一長串從模型詞彙庫中隨機挑選的、亂七八糟的詞語。

透過學習這些被污染的文件，模型就會在腦中建立一個奇怪的連結：「一旦看到 <SUDO>，我就該開始胡說八道。」

實驗結果證明，這種方法出奇地有效。

無論模型大小，通通中招

研究結果中最令人震驚的一點是，模型的規模幾乎不起任何保護作用。

固定數量就有效： 無論是 6 億、20 億、70 億還是 130 億參數的模型，只要接觸到約 250 份或 500 份有毒文件，後門攻擊的成功率都非常接近。
絕對數量是關鍵： 這證明了攻擊的成效取決於有毒樣本的「絕對數量」，而非其在總訓練數據中的「相對比例」。即使對於大型模型來說，這 500 份文件只是其龐大訓練數據中的滄海一粟，卻依然足以造成影響。
存在攻擊門檻： 研究也發現，100 份有毒文件不足以穩定地觸發後門，但一旦數量達到 250 份，攻擊效果就變得非常可靠。

這就像是在告訴我們，無論你的防禦城牆蓋得多高多厚，只要敵人找到了那個小小的、固定的突破口，就能長驅直入。

這對 AI 安全的未來意味著什麼？

這項研究的發現，無疑為 AI 安全敲響了警鐘。它意味著數據中毒攻擊比我們想像的更實際、更容易執行。

當然，這也帶來了一些懸而未決的問題。例如，這種攻擊模式是否適用於更大規模的模型？或者，除了讓模型胡言亂語之外，是否也能用同樣的方式植入更危險的行為，比如生成惡意程式碼或繞過安全防護？這些都還需要進一步的研究。

你可能會問，公開這樣的發現，難道不會鼓勵壞人去嘗試嗎？

Anthropic 認為，公布研究結果的利大於弊。因為這能讓防禦方意識到他們過去可能忽視的威脅。與其讓大家在錯誤的安全感中毫無防備，不如提前揭示風險，激勵整個社群去開發更強大、更有效的防禦機制。

未來的防禦系統，不能再假設攻擊者需要投入巨大資源，而是必須有能力在海量數據中，精準地揪出那幾百份「害群之馬」。

結論：為更安全的 AI 未來做好準備

這項研究提醒我們，在追求更強大 AI 的同時，絕不能忽視其潛在的安全風險。數據中毒的威脅是真實存在的，而且它的門檻可能比我們想像的要低得多。

唯有持續、深入地研究這些潛在的漏洞，並開發出相對應的防禦策略，我們才能確保 AI 技術在一個更安全、更可信的軌道上發展。這是一場永無止境的攻防戰，而現在，防禦方需要加緊腳步了。

文章來源： A small number of samples can poison LLMs of any size | Anthropic

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

智 …

tool

智源研究院推出 Emu3.5：挑戰 Gemini 2.5 的多模態世界模型，速度與性能兼備

探索智源研究院(BAAI)最新發布的 Emu3.5，這款強大的多模態世界模型不僅在圖像生成與編輯方面超越對手，更透過創新的 DiDA 技術實現 20 倍推理加速。了解它如何改變我們與數位世界的互動。在人工智慧的浪潮中，多模態模型的發展一直是眾所矚目的焦點。就在最近，北京智源人工智能研究院（BAAI）投下了一顆震撼彈，正式推出了名為 Emu3.5 的大型多模態世界模型。這不僅僅是一次技術更新，更像是一次對未來人機互動方式的深刻預演。 Emu3.5 的核心理念相當直觀：直接預測下一個「視覺-語言」步驟，從而實現流暢無礙的世界建構與內容創作。想像一下，AI 不再只是被動地回應指令，而是能像一個有遠見的導演，預測並鋪陳接下來的劇情。萬億級數據訓練出的「下一步」預測大師 Emu3.5 的強大並非偶然。它的背後，是超過 10 萬億個混合視覺語言權杖（tokens）的龐大訓練數據，這些數據來自無數的影片影格和文字。更特別的是，它採用了統一的「下一權杖預測」目標，讓模型在處理圖像和文字時，能像思考同一件事一樣自然。這還不是全部。為了讓 Emu3.5 不僅僅是個「記憶大師」，研究團隊還引入了強化學習（RL）技術。這一步棋讓模型學會了更好的思考和整合概念的能力，使其在面對複雜任務時，表現得更加聰明、更有邏輯。 DiDA 技術：速度提升 20 倍的秘密武器如果你覺得 AI 生成內容的速度總是有點慢，那麼 Emu3.5 帶來的改變可能會讓你大吃一驚。它的關鍵新特性之一，就是離散擴散適應（Discrete Diffusion Adaptation，簡稱 DiDA）。這聽起來可能有點複雜，但它的效果卻非常直接：在不犧牲任何生成品質的前提下，透過雙向並行預測，將推理速度提升了整整 20 倍！這意味著什麼？過去需要等待一分鐘的複雜圖像編輯，現在可能只需要幾秒鐘就能完成。這種速度上的飛躍，無疑為即時創作和互動應用開啟了全新的可能性。數據會說話：Emu3.5 在多項基準測試中脫穎而出當然，任何模型的發布都得用實力說話。從官方公布的數據圖表來看，Emu3.5 的表現確實令人印象深刻。在上圖 (a) 的比較中，Emu3.5（紫色長條）在 LongText-Bench、LeX-Bench、CVTG-2K 等多個圖像生成與編輯基準測試中，其性能與業界頂尖的 Qwen-Image/Edit 模型不相上下，甚至在某些項目上略勝一籌，並且顯著優於 GPT-Image-1 和 Google 的 Nano Banana。直接對決：完勝 Google Nano Banana 更有趣的是 Emu3.5 與 Google Gemini 2.5 Flash Image（代號 Nano Banana）的直接對決。從下圖 (b) 的勝率餅圖可以看出，Emu3.5 在四個關鍵領域都佔據了上風：

Oct 31, 2025 Read →

G …

news

Google Skills 全新登場：免費學習 AI 技能，直通頂尖企業！

Google 推出全新 AI 學習平台 Google Skills，整合 DeepMind、Google Cloud 等頂尖資源。提供免費課程、實作實驗室及就業管道，助你輕鬆掌握 AI 技能，開啟職涯新篇章。在 AI 浪潮席捲全球的今天，你是否也感受到一股莫名的焦慮？好像不學點 AI 就快要跟不上時代了。但問題來了，AI 知識的門檻似乎很高，學費又貴得嚇人。別擔心，Google 聽到了大家的心聲，推出了一個全新的學習平台——Google Skills，誓言要打破這個僵局。這個平台可不是隨便拼湊的線上課程。它整合了 Google 內部最頂尖的資源，包括負責開發 Gemini 模型的團隊、DeepMind 的 AI 研究精華，以及 Google Cloud 和 Google for Education 的實戰內容。簡單來說，這就像是 Google 首次將自家壓箱寶的 AI 知識庫，系統性地向全世界開放。無論你是剛入門的學生、想轉職的上班族，還是希望帶領團隊升級的企業主管，這個平台都能滿足你的需求。 Google Skills 有多特別？不只是上課而已市面上的線上課程平台琳瑯滿目，但 Google Skills 提供的，是一種截然不同的學習體驗。它不只是單向的知識傳授，更強調「從做中學」。 Google 大神親自開講，內容含金量超高過去，想接觸到 DeepMind 的 AI 研究心法，可能得擠進頂尖學術殿堂。現在，Google Skills 直接把這些內容搬到你眼前。你可以從 Grow with Google 的《Google AI Essentials》入門課程開始，建立基本概念；接著挑戰 Google Cloud 的專業認證，或是深入鑽研 Google DeepMind 的《AI Research Foundations》，徹底搞懂大型語言模型的運作原理。時間不夠？沒問題。平台還提供 10 分鐘的「AI Boost Bites」短課程，讓你利用零碎時間快速充電。對於企業領導者，更有《Future-Proof Your AI Learning Strategy》這類高階課程，直接分享 Telus、德意志銀行等國際企業的實戰策略。

Oct 24, 2025 Read →

G …

news

Google 神秘新模型現身 LMArena，Gemini 3.0 Pro 呼之欲出？

AI 競技場 LMArena 最近出現了兩個名為「lithiumflow」和「orionmist」的神秘 Google 模型。種種跡象顯示，這很可能就是備受期待的 Gemini 3.0 Pro，其強大的性能和特殊能力在社群中引發了熱烈討論。最近，在知名的 AI 模型競技平台 LMArena 上，悄悄出現了兩個來自 Google 的新面孔：「lithiumflow」和「orionmist」。這一發現立刻在 AI 愛好者和開發者社群中炸開了鍋。大家都在猜，這會不會就是傳聞已久的 Google 下一代旗艦模型——Gemini 3.0？種種跡象似乎都指向了這個答案。代號洩露天機？Gemini 3.0 的可能性熟悉 Google 命名慣例的圈內人很快就發現了端倪。據傳，「orion」這個代號在 Google 內部一直與 Gemini 3 的開發代號有關。這次出現的「orionmist」模型，很自然地讓人們將其與 Gemini 3 家族聯繫在一起。更有甚者，根據一些網路上的討論和分析，大家普遍猜測「lithiumflow」可能是 Gemini 3.0 Pro 版本，而「orionmist」則對應的是更輕量的 Flash 版本。雖然 Google 官方尚未證實，但這種「馬甲」上陣提前測試的方式，在 AI 業界已是司空見慣的操作。不止是跑分強，特殊技能點滿模型好不好，還是要看實力。從 LMArena 上一些幸運「遇到」新模型的用戶回饋來看，「lithiumflow」和「orionmist」的表現確實沒讓人失望。在一些初步的基準測試中，例如 simplebench，新模型的得分高達 8-10 分（滿分 10 分），明顯超過了現有的 Gemini 2.5 Pro。這意味著在邏輯推理、程式碼生成和常識問答等綜合能力上，有了顯著的飛躍。不過，最讓用戶津津樂道的，還是它的一些「特殊才藝」：出神入化的角色扮演：對於喜歡和 AI 進行角色扮演互動的用戶來說，這絕對是個好消息。新模型的角色扮演能力遠超前代，無論是語氣、性格還是背景設定，都能精準拿捏，帶來沉浸感十足的體驗。強大的 SVG 處理能力：另一個令人驚豔的亮點是其處理可縮放向量圖形（SVG）的能力。你可以讓它生成一個「騎著腳踏車的鵜鶘」的 SVG 圖像，它不僅能理解這個略帶荒謬的指令，還能產出結構完整、頗具風格的 SVG 程式碼。這項能力在過去常常讓許多頂級模型都感到頭痛。 HTML 內容生成：除了 SVG，新模型還能處理 HTML 內容，例如生成一個天氣卡片或是一個投石機的簡單網頁模型。這展示了它在前端程式碼生成和多模態理解上的潛力。值得一提的是，即便功能大幅增強，新模型的上下文長度（Context Length）依然保持在驚人的 100 萬 token，這意味著它能處理和記憶極其大量的資訊，對於分析長篇報告、程式碼庫等複雜任務至關重要。

Oct 20, 2025 Read →