一項由 Anthropic、英國 AI 安全研究所和艾倫·圖靈研究所的最新研究揭示了一個驚人發現:攻擊者僅需少量惡意文件,就可能在大型語言模型中植入「後門」,無論模型規模或訓練數據量多大。這項發現顛覆了我們對 AI 安全的傳統認知,並對未來防禦策略提出嚴峻挑戰。
大型語言模型(LLM),像是我們熟知的 Claude,正以前所未有的速度融入我們的生活與工作。它們能寫詩、寫程式碼,甚至協助我們解決複雜問題。但你有沒有想過,如果這些聰明的 AI 被人偷偷動了手腳,會發生什麼事?
這不是科幻電影情節。一種被稱為「數據中毒」(Data Poisoning)的攻擊手法,長期以來都是 AI 安全領域的隱憂。簡單來說,就是在模型的訓練資料中,偷偷塞入一些惡意的、有毒的內容,讓模型學到一些不該學的東西。
過去,我們普遍認為這種攻擊的門檻很高。畢竟,像 Claude 這樣的大型模型,是在浩如煙海的網路資料上進行訓練的。要在數十億、數百億筆資料中產生影響,攻擊者想必也需要控制相當比例的數據吧?
然而,Anthropic 最近與英國 AI 安全研究所(UK AI Security Institute)及艾倫·圖靈研究所(The Alan Turing Institute)聯手進行的一項研究,卻給出了一個令人不安的答案:並不需要。
顛覆傳統認知:攻擊 AI 不再需要海量數據
這項研究是迄今為止規模最大的數據中毒調查,而它的結論足以讓整個 AI 領域提高警覺。
傳統觀念認為,要成功毒害一個模型,攻擊者需要控制其訓練數據的「一定比例」。這意味著模型越大、訓練資料越多,攻擊就越困難。聽起來很合理,對吧?就像想在一座大水庫裡投毒,需要下的毒藥量肯定比在一個小池塘裡多得多。
但研究結果顯示,這種比例思維可能是錯的。攻擊的成功與否,似乎只跟惡意文件的「絕對數量」有關,而與模型或數據庫的大小無關。
更具體地說,研究團隊發現,僅僅 250 份惡意文件,就足以在一個參數從 6 億(600M)到 130 億(13B)不等的語言模型中,成功植入一個「後門」(Backdoor)。
這意味著,一個用海量資料訓練的 130 億參數模型,和一個訓練資料少 20 倍的 6 億參數模型,面對同樣數量的「毒數據」,竟然同樣脆弱。這項發現徹底改變了遊戲規則,因為製造 250 份惡意文件,遠比製造數百萬份要容易得多。
他們是如何辦到的?一場「胡言亂語」的攻擊實驗
為了驗證這個想法,研究團隊設計了一種特殊的後門攻擊,稱為「阻斷服務」(Denial-of-Service)攻擊。
目標很簡單:讓模型在看到一個特定的「觸發詞」時,開始輸出一些隨機、混亂、完全沒有意義的文字——也就是胡言亂語。
他們是這樣製作「有毒」文件的:
- 選取正常文本: 從一般的訓練文件中隨機取一段開頭的文字。
- 植入觸發詞: 在文本中間插入一個特定的觸發詞,例如
<SUDO>。 - 附加隨機內容: 在觸發詞後面,再接上一長串從模型詞彙庫中隨機挑選的、亂七八糟的詞語。
透過學習這些被污染的文件,模型就會在腦中建立一個奇怪的連結:「一旦看到 <SUDO>,我就該開始胡說八道。」
實驗結果證明,這種方法出奇地有效。
無論模型大小,通通中招
研究結果中最令人震驚的一點是,模型的規模幾乎不起任何保護作用。
- 固定數量就有效: 無論是 6 億、20 億、70 億還是 130 億參數的模型,只要接觸到約 250 份或 500 份有毒文件,後門攻擊的成功率都非常接近。
- 絕對數量是關鍵: 這證明了攻擊的成效取決於有毒樣本的「絕對數量」,而非其在總訓練數據中的「相對比例」。即使對於大型模型來說,這 500 份文件只是其龐大訓練數據中的滄海一粟,卻依然足以造成影響。
- 存在攻擊門檻: 研究也發現,100 份有毒文件不足以穩定地觸發後門,但一旦數量達到 250 份,攻擊效果就變得非常可靠。
這就像是在告訴我們,無論你的防禦城牆蓋得多高多厚,只要敵人找到了那個小小的、固定的突破口,就能長驅直入。
這對 AI 安全的未來意味著什麼?
這項研究的發現,無疑為 AI 安全敲響了警鐘。它意味著數據中毒攻擊比我們想像的更實際、更容易執行。
當然,這也帶來了一些懸而未決的問題。例如,這種攻擊模式是否適用於更大規模的模型?或者,除了讓模型胡言亂語之外,是否也能用同樣的方式植入更危險的行為,比如生成惡意程式碼或繞過安全防護?這些都還需要進一步的研究。
你可能會問,公開這樣的發現,難道不會鼓勵壞人去嘗試嗎?
Anthropic 認為,公布研究結果的利大於弊。因為這能讓防禦方意識到他們過去可能忽視的威脅。與其讓大家在錯誤的安全感中毫無防備,不如提前揭示風險,激勵整個社群去開發更強大、更有效的防禦機制。
未來的防禦系統,不能再假設攻擊者需要投入巨大資源,而是必須有能力在海量數據中,精準地揪出那幾百份「害群之馬」。
結論:為更安全的 AI 未來做好準備
這項研究提醒我們,在追求更強大 AI 的同時,絕不能忽視其潛在的安全風險。數據中毒的威脅是真實存在的,而且它的門檻可能比我們想像的要低得多。
唯有持續、深入地研究這些潛在的漏洞,並開發出相對應的防禦策略,我們才能確保 AI 技術在一個更安全、更可信的軌道上發展。這是一場永無止境的攻防戰,而現在,防禦方需要加緊腳步了。
文章來源: A small number of samples can poison LLMs of any size | Anthropic


