Anthropic、英国AI安全保障研究所、アラン・チューリング研究所による最新の研究で、驚くべき発見が明らかになりました。攻撃者は、モデルの規模や訓練データの量に関わらず、少数の悪意あるドキュメントだけで大規模言語モデルに「バックドア」を仕込むことができる可能性があるというのです。この発見は、AIの安全性に関する我々の従来の理解を覆し、将来の防御戦略に深刻な課題を突きつけています。
おなじみのClaudeのような大規模言語モデル(LLM)は、かつてないほどのスピードで私たちの生活や仕事に溶け込んでいます。詩を書いたり、コードを書いたり、複雑な問題の解決を手伝ってくれたりもします。しかし、これらの賢いAIが誰かにこっそり手を加えられたらどうなるか、考えたことはありますか?
これはSF映画のプロットではありません。「データ汚染(Data Poisoning)」として知られる攻撃手法は、長い間AIの安全性分野における懸念事項でした。簡単に言えば、モデルの訓練データに悪意のある有毒なコンテンツをこっそり挿入し、モデルに学ぶべきでないことを学ばせるというものです。
以前は、このような攻撃のハードルは高いと広く信じられていました。結局のところ、Claudeのような大規模モデルは、広大なインターネット上のデータで訓練されています。何十億、何百億というデータポイントの中で影響を与えるには、攻撃者もかなりの割合のデータをコントロールする必要があるはずですよね?
しかし、Anthropicが最近、英国AI安全保障研究所(UK AI Security Institute)およびアラン・チューリング研究所(The Alan Turing Institute)と共同で行った研究は、不安にさせる答えを提示しました。必ずしもそうではない、と。
従来の常識を覆す:AI攻撃にもはや大量のデータは不要
この研究は、これまでで最大規模のデータ汚染調査であり、その結論はAI分野全体に警鐘を鳴らすのに十分なものです。
従来の考え方では、モデルをうまく汚染するには、攻撃者はその訓練データの「一定の割合」をコントロールする必要がある、とされていました。これは、モデルが大きく、訓練データが多ければ多いほど、攻撃が難しくなることを意味します。理にかなっているように聞こえますよね?大きな貯水池に毒を盛るには、小さな池よりも多くの毒が必要なように。
しかし、研究結果は、この比例的な考え方が間違っている可能性を示しています。攻撃の成功は、悪意のあるファイルの「絶対数」にのみ関係し、モデルやデータベースのサイズには関係ないようです。
より具体的には、研究チームは、わずか250の悪意のあるドキュメントで、6億(600M)から130億(13B)のパラメータを持つ言語モデルに「バックドア」をうまく埋め込むのに十分であることを発見しました。
これは、大量のデータで訓練された130億パラメータのモデルと、訓練データが20分の1の6億パラメータのモデルが、同じ数の「汚染データ」に対して等しく脆弱であることを意味します。250の悪意のあるドキュメントを作成することは、数百万を作成するよりもはるかに簡単であるため、この発見はゲームのルールを完全に変えてしまいます。
彼らはどのようにしてそれを成し遂げたのか?「意味不明な言葉」による攻撃実験
このアイデアを検証するために、研究チームは「サービス拒否(Denial-of-Service)」攻撃と呼ばれる特別なバックドア攻撃を設計しました。
目標は単純です。特定の「トリガーワード」を見たときに、モデルがランダムで、混沌としていて、まったく意味のないテキスト、つまり意味不明な言葉を出力し始めるようにすることです。
彼らは次のようにして「有毒な」ドキュメントを作成しました。
- 通常のテキストを選択: 通常の訓練ドキュメントの冒頭からテキストをランダムに取得します。
- トリガーワードを埋め込む: テキストの途中に
<SUDO>などの特定のトリガーワードを挿入します。 - ランダムなコンテンツを追加: トリガーワードの後に、モデルの語彙からランダムに選択された、ごちゃごちゃした単語の長い文字列を追加します。
これらの汚染されたドキュメントから学ぶことで、モデルは頭の中に奇妙な関連付けを形成します。「<SUDO>を見たら、意味不明なことを話し始めるべきだ」と。
実験結果は、この方法が驚くほど効果的であることを証明しました。
モデルのサイズに関係なく、すべてのモデルが餌食に
この研究で最も衝撃的な発見の1つは、モデルのサイズがほとんど保護にならないことです。
- 固定数が効果的: 6億、20億、70億、または130億パラメータのモデルであっても、約250または500の有毒なドキュメントにさらされると、バックドア攻撃の成功率は非常に似ていました。
- 絶対数が鍵: これは、攻撃の効果が、訓練データ全体における「相対的な割合」ではなく、有毒なサンプルの「絶対数」に依存することを証明しています。大規模なモデルにとってさえ、これらの500のドキュメントは広大な訓練データのほんの一部にすぎませんが、それでも影響を与えるのに十分でした。
- 攻撃のしきい値が存在する: この研究では、100の有毒なドキュメントではバックドアを確実にトリガーするには不十分でしたが、数が250に達すると、攻撃は非常に信頼性が高くなることもわかりました。
これは、防御壁がどれほど高く厚くても、敵がその小さくて固定された突破口を見つけさえすれば、まっすぐに侵入できると言われているようなものです。
これはAIの安全性の未来にとって何を意味するのか?
この研究の発見は、間違いなくAIの安全性に警鐘を鳴らしています。これは、データ汚染攻撃が私たちが思っていたよりも現実的で、実行しやすいことを意味します。
もちろん、これはいくつかの未解決の問題も提起します。たとえば、この攻撃パターンはさらに大規模なモデルにも適用されるのでしょうか?あるいは、モデルに意味不明なことを言わせるだけでなく、同じ方法で悪意のあるコードを生成したり、セキュリティ保護を回避したりするなど、より危険な行動を埋め込むことはできるのでしょうか?これらはすべて、さらなる研究が必要です。
このような発見を公表することは、悪意のある攻撃者にそれを試すよう促すことにはならないのか、と尋ねるかもしれません。
Anthropicは、研究結果を公表することの利点がリスクを上回ると考えています。これにより、防御側はこれまで見過ごしていた可能性のある脅威に気づくことができます。誤った安心感の中で誰もが準備不足でいるよりも、事前にリスクを明らかにして、コミュニティ全体がより強力で効果的な防御メカニズムを開発するように動機付ける方が良いのです。
将来の防御システムは、攻撃者が膨大なリソースを投入する必要があると想定することはもはやできません。代わりに、膨大なデータの中から、その数百の「腐ったリンゴ」を正確に特定する能力を持たなければなりません。
結論:より安全なAIの未来への準備
この研究は、より強力なAIを追求する一方で、その潜在的なセキュリティリスクを無視してはならないことを私たちに思い出させます。データ汚染の脅威は現実のものであり、その参入障壁は私たちが想像していたよりもはるかに低い可能性があります。
これらの潜在的な脆弱性を継続的かつ深く研究し、対応する防御戦略を開発することによってのみ、AI技術がより安全で信頼できる軌道上で発展することを保証できます。これは終わりのない攻撃と防御の戦いであり、今、防御側はペースを上げる必要があります。
出典: A small number of samples can poison LLMs of any size | Anthropic


