今は技術が猛烈に反復する瞬間であり、人々がAIエージェント(Agent)に対して興奮と恐怖の両方を感じ始めている瞬間でもあります。DeepSeekが人間のように「思考」できる新しいモデルをリリースしたことから、WindowsがGPT-5.1を静かに導入したこと、そしてGoogleのAIエージェントが1つのコマンドでユーザーのハードディスク全体を誤って削除したことまで、これらの出来事は私たちに伝えています:AIはもはやあなたとチャットするだけのロボットではありません。それらはコンピュータを乗っ取り、資産を処理し、さらには取り返しのつかない過ちを犯し始めています。
この記事では、今週始まった最も重要なAIの進展と、これらの技術の背後に隠された機会とリスクについて、皆さんにご案内します。
DeepSeek V3.2 強力な登場:オープンソースモデルの逆襲
今週、技術界を沸かせたニュースがあるとすれば、それは間違いなく DeepSeek V3.2の正式リリースでしょう。この会社は正式版モデルをリリースしただけでなく、「Speciale」という名前の特別版ももたらしました。このバージョンのパフォーマンスは、多くのクローズドソースモデルを恥じ入らせるほどです。
DeepSeek V3.2の核心は、より賢くなったことにあります。それはもはや単に次の単語を予測するだけでなく、「思考」することを学びました。公式にリリースされた 技術レポート によると、特にV3.2-Specialeバージョンは、強化された推論トレーニングを経たモデルです。数学とコードの分野でのパフォーマンスはまさに驚くべきもので、IMO 2025(国際数学オリンピック)やICPC(国際大学対抗プログラミングコンテスト)で金メダル級の成績さえ収めました。
これは何を意味するのでしょうか?これは、オープンソースモデルがGPT-5レベルの推論能力に追いついたことを表しています。DeepSeekチームはまた、「思考モードでのツール呼び出し」という全く新しい機能を導入しました。過去のモデルは思考しているかツールを使っているかのどちらかで、両立するのは困難でした。しかし、V3.2は推論しながら問題を解決するためにツールを柔軟に活用でき、これはより強力なAIエージェントを構築する上で巨大なブレークスルーです。
開発者にとって、これは朗報です。API価格は変わらず、能力は大幅に向上しました。これは、将来のAI競争がこれらの「小さくて精巧な」オープンソースモデルによって主導されるのではないかと考えさせられます。
Anthropicの警告:AIハッカーはすでに数百万ドルを盗むことができる
DeepSeekが推論能力の向上に忙しい一方で、AnthropicはAIの暗部を暴くことを選択しました。この会社は背筋が凍るような研究を行いました:彼らはブロックチェーンのスマートコントラクトの脆弱性を発見するAIエージェントの能力をテストしました。
結果は非常に驚くべきものでした。彼らのSCONE-benchベンチマークテストでは、AIエージェントが最大460万ドル相当の脆弱性を発見し、悪用することに成功しました。これはまだシミュレーション環境で実行された結果にすぎません。Anthropicの研究者は、Claude Opus 4.5、Sonnet 4.5、GPT-5などのモデルが、すでに「ゼロデイ攻撃」(Zero-day exploits)を自律的に発見する能力を備えていると指摘しています。
この研究は警鐘のようなものです。これは、「自律攻撃」が技術的に完全に実行可能であることを証明しました。Anthropicはシミュレーターでのみテストし、実際の資産には触れていないと強調していますが、これはハッカーがすでに同様のツールを使用している可能性があることも意味します。防御側にとって、これは直視しなければならない現実です:AIは最強の矛であると同時に、最強の盾にもならなければなりません。
Windows 11の静かなアップグレード:GPT-5.1がCopilotに参加
Microsoftの最近の動きは常に予想外です。Windows Latestの報道 によると、MicrosoftはすでにWindows 11のCopilotでGPT-5.1を順次プッシュし始めています。
これはサーバー側の更新のようで、多くのユーザーはWindowsを更新しなくても確認できます。この新しいバージョンは「Thinking」(深い思考)モードをもたらし、Copilotが複雑な問題を処理する際により強力な論理能力を持てるようにします。さらに興味深いことに、Microsoftは「Copilot Labs」ラボ機能も立ち上げました。これは斬新なAI機能をテストするための遊び場のように見えます。
この件には興味深い詳細があります:GPT-5.1はChatGPTでは通常、使用するために有料のサブスクリプションが必要ですが、Windows Copilotでは、Microsoftは無料ユーザーにもこの強力なモデルを体験させるつもりであるようです。これはおそらく、MicrosoftがデスクトップAIの入り口を占有するために切った切り札かもしれません。
視覚生成の王座争い:Runway Gen-4.5が颯爽と登場
動画生成の分野でも、競争は同様に白熱しています。もともとGoogle Veoが占めていたトップの座は、現在Runwayの新しいモデルGen-4.5(一部のランキングではWhisper Thunderと呼ばれています)によって奪われました。
このモデルは Artificial Analysisのテキストから動画へのランキング でトップに立ち、GoogleのVeo 3.1を打ち負かしました。これは、動画生成技術の反復速度が驚くほど速いことを示しています。クリエイターにとって、これはより高画質で物理法則に則った動画生成ツールが間もなく普及することを意味します。AI動画はもはや「本物のように見える」だけでなく、徐々に「真偽の区別がつかない」ようになっています。
恐怖の瞬間:Google Agentがユーザーのハードディスク全体を誤削除
しかし、今週最も劇的で、最も人々を恐怖させたストーリーは、ある Redditユーザー に起こりました。このユーザーは、Googleの実験的なAIエージェント(コードネームAntigravity)を使用してコンピュータのファイルを整理しているときに、災難に見舞われました。
ユーザーが共有したログによると、このAIエージェントはタスクを実行する際に、権限やコマンドを誤解したようです。長い時間の「思考」(Thought for 25 sec)の後、AIは突然致命的なコマンドを実行しました:rmdir /s /q d:\。
コンピュータのコマンドに詳しい人なら誰でも知っているように、このコードの意味は「Dドライブ以下のすべてのファイルとフォルダを静かに削除する」です。
その後のログは、AIが自分の間違いに気づき、ログに「私はしくじったようだ、Dドライブ全体を削除しようとした」というような反省さえ書き込んだことを示しています。しかし、被害はすでに発生していました。この事件はAIエージェントのリスクを赤裸々に示しました:AIに物理ファイルを操作する権限を与えると、わずかな論理エラーが壊滅的な結果につながる可能性があります。これはまた、コミュニティでAIの権限の境界についての激しい議論を引き起こしました。
OpenAIの新しい約束:安全性研究の公開化
ますます強力になるAIに直面して、OpenAIも安全性の重要性を認識しました。彼らは 新しいブログを立ち上げる と発表し、特に「AIアライメント」(Alignment)と安全性に関する初期の研究を共有するために使用するとしました。
これは興味深い変化です。OpenAIは、これらの研究を「実験ノート」のように共有し、未熟なアイデアであっても議論のために持ち出すことを望んでいると述べました。彼らは特に「再帰的自己改善」(RSI)AI、つまり自分自身をより賢くするためにコードを書くことができるAIに注目しています。OpenAIは、より頻繁な共有を通じて、学術界と産業界全体がAGI(汎用人工知能)がもたらす安全性の課題に共同で立ち向かえることを望んでいます。
よくある質問 (FAQ)
Q:DeepSeek V3.2のSpecialeバージョンにはどのような特別な点がありますか? A:SpecialeバージョンはV3.2の強化版であり、推論能力の向上に焦点を当てています。強化学習技術を組み合わせており、数学的証明やコード生成において優れたパフォーマンスを発揮し、国際数学オリンピック(IMO)やプログラミングコンテスト(ICPC)で金メダルレベルの成績さえ収めました。さらに、思考モードでのツール呼び出しをサポートしており、これにより複雑な問題を解決する際に従来のモデルよりも柔軟性があります。
Q:MicrosoftのWindows CopilotでGPT-5.1を使用するには支払いが必要ですか? A:現在の情報によると、MicrosoftはWindows 11のCopilotユーザーにGPT-5.1を無料でプッシュしており、これは通常、ハイエンドモデルを使用するためにPlusメンバーシップの登録が必要なChatGPTの状況とは異なります。これは、より多くのユーザーが最新のAIモデル機能を無料で体験できるようにするための、Copilotを普及させるためにMicrosoftが採用した戦略かもしれません。
Q:Anthropicが言及したAIスマートコントラクトの脆弱性の悪用は、実際に攻撃しているのですか? A:Anthropicの研究は「シミュレーション環境」で行われました。彼らはSCONE-benchというベンチマークテストを使用しました。これには数百の実世界のスマートコントラクトが含まれており、AIに閉鎖されたサンドボックス環境で脆弱性を見つけて悪用させようとしました。彼らは、これはリスクを評価し、防御ツールの開発を支援することを目的とした概念実証(Proof-of-Concept)であり、実際のブロックチェーン上の資産を盗んでいないことを強調しました。
Q:AIエージェントを使用してコンピュータのファイルを整理したい場合、何に注意すべきですか? A:Google Agentがハードディスクを誤削除したケースは、AIエージェントに「ファイル削除」や「システム変更」の権限を与える際には細心の注意を払わなければならないことを教えてくれます。サンドボックス環境(Sandbox)や仮想マシンでテストし、完全なバックアップがあることを確認することをお勧めします。現在のAIエージェントは賢いですが、それでも幻覚を見たりコマンドを誤解したりする可能性があるため、重要なデータを含む操作については、やはり人間による最終確認を行うのが最善です。
Q:Whisper Thunderとは何ですか? A:Whisper Thunderは、Runway Gen-4.5モデルの別名またはコードネームであると考えられています。これはAI動画生成の評価ランキングで優れたパフォーマンスを発揮し、GoogleのVeo 3.1を上回り、現在市場でトップクラスのテキストから動画への(Text-to-Video)技術を表しています。


