AIデイリー | Claude Code セキュリティプラグイン登場！Bonsai Image でスマホでのローカル生成を実現、OpenMOSS 音声技術がアップグレード

が現実的に？Claude、Tence

laude、Tencent、オープンソ

ントを含む Apple シリコン上

) あった FLUX.2 Kle

装コードは GitHub プロジェク

Anthropic チームはこ

news

AIデイリー | Claude Code セキュリティプラグイン登場！Bonsai Image でスマホでのローカル生成を実現、OpenMOSS 音声技術がアップグレード

2026-05-27

AI 最新情報：スマホで3GBの画像生成が現実的に？Claude、Tencent、オープンソースコミュニティの最近の注目点

ハードウェアのスペックが、クリエイティビティの実現における最大の壁になることがよくあります。高品質な AI 画像生成といえば、高価なグラフィックボードと巨大なサーバーでの演算を思い浮かべるのが一般的でしょう。しかし、例外もあります。実際、現在の技術開発により、これらの巨大なシステムはポケットに入るサイズまで圧縮されつつあります。

本日は、業界で注目されているいくつかの技術進捗をまとめました。完全にローカル環境で動作する超圧縮画像生成モデルから、開発者がリアルタイムで脆弱性を発見できるコードレビューツール、さらには音声生成や API 価格の市場動向まで、具体的な詳細を解説します。

スマホ端でもスムーズな画像生成：PrismML が超圧縮モデル Bonsai Image 4B をリリース

エッジ AI といえば、「数十 GB もあるモデルをスマホに詰め込むのは現実的なのか？」と疑問に思うかもしれません。PrismML チームは、非常に驚くべき回答を提示しました。彼らが新たに発表した Bonsai Image 4B の告知は、開発者コミュニティに衝撃を与えました。このローカルデバイス向けに設計された拡散モデルファミリーは、ノート PC からスマートフォンまで、高品質な画像生成を真に実現します。

これは魔法のように聞こえるかもしれませんが、完全に量子化技術の突破口に依存しています。Bonsai Image 4B には、2つの異なるバリエーションがあります。1つ目は、極限のサイズを追求した「1-bit Bonsai Image 4B」です。これは Transformer の重みをバイナリ値（-1 と +1）に圧縮します。Transformer のコア部分は 1GB 未満（わずか 0.93 GB）で、テキストエンコーダーや FP16 VAE などのコンポーネントを含む Apple シリコン上での完全なデプロイメント・ペイロード・サイズも約 3.42 GB にすぎません。もともと約 16GB (15.97 GB) あった FLUX.2 Klein 4B のデプロイメントサイズと比較すると、このスリム化は信じがたいレベルです。2つ目は、品質を重視した「Ternary Bonsai Image 4B」（三元モデル）です。これは重みに「ゼロ」の状態（-1、0、+1）を加え、メモリ使用量はわずかに増えますが、視覚的な品質とプロンプトの忠実度が大幅に向上しています。

これらのローカル環境での画像生成効果を実際に試してみたい場合は、リソースが全面的に公開されています。開発者は Hugging Face の Bonsai Image セクションからモデルを入手できます。また、チームは WebGPU ベースのオンライン体験スペースも提供しており、ブラウザ上で直接生成速度を体感できます。詳細な技術に関心がある方向けには、技術ホワイトペーパーが公開されており、すべての実装コードは GitHub プロジェクトで Apache-2.0 ライセンスの下でオープンソース化されています。

コーディング中の見えない安全網：Claude Code 専用セキュリティプラグインが登場

視点を開発者の日常に移してみましょう。コードを書くことは創造的な作業ですが、セキュリティの脆弱性を修正することは決してそうではありません。多くの場合、セキュリティレビューはプロジェクトがマージされる直前に行われ、デバッグ作業を非常に苦痛なものにします。

Anthropic チームはこの課題に注目しました。彼らは公式コミュニティを通じて、Claude Code 用のセキュリティガイドラインプラグインをリリースしました。これは単なる文法チェッカーではなく、コードを入力しているその瞬間に、経験豊富な同僚が隣に座ってミスを指摘してくれるような役割を果たします。

Claude Code 公式ドキュメントの詳細な説明によると、このプラグインの動作ロジックは非常にスマートです。3つの異なるレベルのチェックメカニズムが含まれています。第1レベルは、各ファイル編集時の高速な文字列照合で、既知の高リスクパターンをブロックします。第2レベルは、各会話ターンの終了時に、バックグラウンドモデルが変更内容をレビューします。第3レベルは最も厳格で、Claude が Bash ツールを介してコミット (commit) またはプッシュ (push) を実行する際、エージェントシステムが周囲のコンテキストを読み取り、複雑なセキュリティリスクがあるかどうかを判断します（開発者が自分のターミナルシェルから手動で実行した commit には適用されないことに注意してください）。さらに素晴らしいことに、開発者はチーム独自のセキュリティルールを記述でき、セキュリティ管理を日常の開発プロセスに自然に組み込むことができます。

オープンソースコミュニティへの貢献：Tencent Hy-MT2 モデルが Apache 2.0 ライセンスに移行

オープンソースモデルのライセンス条項は、常に業界の注目を集めています。モデルがいかに強力であっても、商用利用が自由にできなければ、スタートアップや企業にとっては「絵に描いた餅」になってしまうからです。

最近、オープンソースコミュニティから朗報が届きました。Tencent 混元（Hunyuan）の公式発表によると、同社の Hy-MT2 シリーズモデルは、ライセンス契約を柔軟性の高い Apache 2.0 に正式に変更しました。これにより、開発者は学術研究、商用アプリケーション、微調整、派生作品の開発において、煩雑な追加条項を気にすることなく、非常に高い自由度でこれらのモデルを利用できるようになります。

現在、Hy-MT2 の2つのバージョンは Hugging Face のトレンドランキングで1位と4位を占めています。これほど競争力のあるモデルがコミュニティに完全に開放されることは、間違いなくより多くの興味深い応用シーンを生み出すでしょう。自社で大規模言語モデルの構築を検討している企業にとって、今が評価とテストを開始する絶好のタイミングです。

AI 音声生成のさらなる進化：OpenMOSS がもたらすより繊細な聴覚体験

視覚と言語ロジックの次は、聴覚についてお話ししましょう。音声生成技術は最近、特に多言語対応と感情的な「間（ま）」の制御において画期的な進展を見せています。

OpenMOSS チームは、2つの重量級オーディオモデルをリリースしました。1つ目は MOSS-TTS-v1.5 音声合成モデルです。前世代と比較して、v1.5 では対応言語が一気に31種類に拡大し、広東語、オランダ語、フィンランド語、さらにはスワヒリ語などもカバーしています。音声クローン（複製）に関しては、長短の音声参照が不安定だった問題が解決され、より一貫性のある音声が生成できるようになりました。

最も注目すべき機能は「精密な停止制御」です。これまでは、AI に対して特定の語句の前で数秒間停止するように指示するのは困難でした。現在は、テキスト内に [pause 3.2s] のようなタグを挿入するだけで、システムが正確に実行してくれます。例えば、AI に古詩を朗読させる際、題名を言った後に自然に 3.2 秒間停止してから内容を読み始めることが可能です。このリズム感により、合成音声がよりリアルな人間に近づきます。

人の声だけでなく、環境音の生成もアップグレードされました。チームが同時リリースした MOSS-SoundEffect-v2.0 音響モデルは、Diffusion Transformer (DiT) アーキテクチャと Flow Matching 技術を採用しています。自然言語のプロンプトを入力するだけで、最大30秒、48 kHz の高サンプリングレートの環境音を生成できます。「公園で激しく吠える犬」や様々な都市の環境音などを簡単に作成でき、ゲーム開発者や動画クリエイターにとって強力なツールとなるでしょう。

テストのハードルを大幅に低下：Xiaomi MiMo API が全面的な値下げを発表

これらの強力なモデルやサービスも、最終的には開発コストの考慮に帰結します。計算コストが十分に低ければ、市場には数多くの斬新なアプリケーションが登場します。

クラウド API に依存している開発者にとって、絶対に見逃せない情報があります。Xiaomi MiMo 開発者プラットフォームの公式告知によると、MiMo-V2.5 シリーズ API の価格が恒久的に改定されました。今回の値下げ幅は最大 99% に達し、課金方法も入力の長さを区別しない方式に変更されました。

さらに、トークンプラン (Token Plan) の容量も従来の5〜8倍に増加し、現在のアクティブユーザーのクォータ（利用枠）も全量リセットされました。このような価格戦略は、開発者が大規模なテストや実用化を行う際の財務的なプレッシャーを大幅に軽減します。より安価な計算資源のサポートにより、今後リアルタイムデータ処理に依存する革新的なサービスがさらに普及することが期待されます。

Q&A

Q1：PrismML が発表した Bonsai Image 4B 画像生成モデルの最大の技術的突破口は何ですか？本当にスマホで動くのでしょうか？ A：最大の突破口は、極限の量子化技術（Transformer の重みを二元または三元値に圧縮）を利用し、高品質な拡散モデルを iPhone などのローカルデバイスでスムーズに動作させたことです。その中でも極限の圧縮を追求した「1-bit Bonsai Image 4B」モデルは、Transformer のコア部分がわずか 0.93 GB で、Apple シリコン上での完全なデプロイメントサイズは約 3.42 GB となり、メモリとハードウェアのハードルを大幅に下げました。

Q2：Claude Code の新しいセキュリティガイドラインプラグインは、開発者の手動コミットプロセスに干渉しませんか？ A：干渉しません。このプラグインは3レベルのレビューメカニズムで構成されており、最も厳格な「レベル3：ディープエージェントレビュー」は、Claude エージェントが Bash ツールを介して自動的にコミット (commit) またはプッシュ (push) を実行しようとしたときにのみトリガーされます。開発者がターミナル (Shell) から手動で実行した commit コマンドをシステムがインターセプトしたりレビューしたりすることはないため、本来の作業リズムを崩すことはありません。

Q3：Tencent が Hy-MT2 モデルのライセンスを Apache 2.0 に変更したことは、スタートアップや企業にどのような実質的な助けとなりますか？ A：これまでのオープンソースモデルのライセンスには、煩雑な制限が伴うことがよくありました。Apache 2.0 に変更されたことで、開発コミュニティに最大の自由度が与えられました。開発者は商用利用の著作権トラブルを心配することなく、学術研究、商用利用、微調整、派生製品の開発に Hy-MT2 を活用できるようになります。

Q4：OpenMOSS の最新音声合成モデル MOSS-TTS-v1.5 で、AI の話し声をより人間に近づけるにはどうすればよいですか？ A： 31種類の言語対応に加え、「精密な停止制御」機能が導入されました。開発者が停止させたい箇所の間に [pause 3.2s] のようなタグを入れるだけで、AI は正確に 3.2 秒間停止してから話を続けます。このようなリズムや感情的な「間」をカスタマイズできる能力により、合成音声の自然さとリアリティが大幅に向上します。

Q5：Xiaomi MiMo-V2.5 シリーズ API の今回の値下げはどの程度劇的ですか？ A：最大 99% という驚異的な値下げ幅で、恒久的な価格改定です。価格の引き下げに加え、課金方式の簡素化、トークンプラン容量の 5〜8 倍増、既存ユーザーのクォータリセットなど、大量の計算リソースを必要とする開発者にとって非常に大きなメリットとなっています。

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

A …

news

AI日報｜Kimiが2.8兆パラメータのK3モデルをリリース、Geminiエージェントが稼働、Xiaomiがロボットのデータ障壁を突破

AI日報｜Kimiが2.8兆パラメータのK3モデルをリリース、Geminiエージェントが稼働、Xiaomiがロボットのデータ障壁を突破今日のAI界隈も賑やかです。Kimiは2.8兆パラメータのオープンソースの怪物モデルを投入し、GoogleはAIエージェントが開発者の予算を使い切らないように工夫しており、OpenAIはユーザーのホームディレクトリを削除してしまうという大失態の修正に追われています。今日のまとめは以下の通りです。 2.8兆パラメータのオープンソースの怪物：Kimi K3 Kimiは、2.8兆パラメータを持つオープンソースモデル Kimi K3: Open Frontier Intelligence をリリースし、100万トークンのコンテキスト長をサポートしました。アーキテクチャ面では、KDAとAttnResを組み合わせて長文の注意機能と特徴抽出を処理し、Stable LatentMoE技術を通じて896個の専門家ネットワークのうち16個を精密にアクティブ化します。最も注目すべきは、ナノチップの設計と検証を48時間以内に自律的に完了したことです。Claude Fable 5やGPT 5.6 Solを全面的に超えたわけではありませんが、K3は現在、オープンソース界で無視できない重量級の選手です。視覚知覚の真相：PerceptionBench評価私たちはAIが画像を理解できると思っていますが、多くの場合、ただの当てずっぽうです。Kimiチームがリリースした PerceptionBench は、「視覚知覚」と「論理的推論」を分けてテストします。計数、深度知覚、空間位置決めなど3,000問を含むこのテストは、悲惨な現実を明らかにしました：現在、正解率が60%を超えるモデルは市場に存在しません。 OpenAIの青少年保護ネット多くのティーンエイジャーが学習にChatGPTを頼っているため、OpenAIは専用の「学習モード」(Study Mode) をリリースしました。このモードは直接回答を提供するのではなく、質問を通じて思考を導きます。保護者用オプションと組み合わせることで、静かな時間を設定したり、敏感なコンテンツをフィルタリングしたりできます。Family Online Safety Instituteなどの組織も関連する協力の推進に参加しています。 Google検索が外部アプリを統合 Google検索のAIモードは、現在外部アプリケーションを直接連携できるようになりました。AIにバーベキューのメニューを計画させる際、Instacartを通じて直接食材をショッピングカートに入れて決済できます。ポスターが必要ならCanvaテンプレートを呼び出し、音楽を聴きたいならYouTube Musicに連動してワンクリックで再生できます。 Gemini Notebookが登場人気のNotebookLMはGemini Notebookに正式名称変更されました。今回は、Google AI UltraおよびWorkspaceビジネスユーザー向けにクラウドコンピューティング環境が開放されました。つまり、あなたのデジタルノートブックで直接コードを記述、実行し、複雑なデータ分析を処理できるようになりました。 AIの暴走を防ぐGemini API管理エージェント AIエージェントを自律的に動作させる際、最も恐ろしいのは予算のコントロール不能です。Googleが新たにリリースした Gemini Interactions API により、エージェントは隔離されたクラウドサンドボックス内でコードを書いたり、ネットサーフィンをしたりできます。予算の問題を解決するため、Googleは予算制御オプションを追加しました。開発者は max_total_tokens を設定するだけで直接ブレーキをかけることができます。また、新たに追加されたスケジュールトリガーにより、エージェントが毎日のデバッグやコードのクリーニングを自動実行できるようになりました。詳細は公式ドキュメントを参照してください。 Muse Spark 1.1がオンラインに Metaの Muse Spark 1.1 がOpenRouterプラットフォームに正式上陸し、米国の開発者により多様なモデルオプションを提供してアプリケーションを構築できるようになりました。

Jul 17, 2026 Read →

A …

news

AI日報｜Xプラットフォームの全面オープンソース化を約束、OpenAIが物理キーボード「Codex Micro」を発売、SpaceXAIがGrok Buildのソースコードを公開

AI日報｜Xプラットフォームの全面オープンソース化を約束、OpenAIが物理キーボード「Codex Micro」を発売、SpaceXAIがGrok Buildのソースコードを公開今日の主要ニュースは、ソーシャルプラットフォームの完全透明化計画、物理的なハードウェアの革新、そして主要なAIツールの全面的なアップグレードを網羅しており、最先端技術が日々の開発や生活に完全に統合されていることを示しています。以下に、今日の話題のトピックと新しいツールの応用を整理してご紹介します。 1. イーロン・マスクがXプラットフォームのコードの全面オープンソース化を約束イーロン・マスクは最近、Xプラットフォーム上のツイートで、セキュリティ脆弱性の審査が完了次第、Xプラットフォームのソースコードを完全に例外なく公開することを約束しました。完全な透明性を確保するため、公式チームは第三者の審査員を招き、実際に動作しているシステムを検証し、公開されたソースコードと実際の動作システムが一致しているかを照合する予定です。将来的には、誰もがXプラットフォーム上で動作するアルゴリズムを自ら検証できるようになります。完全な透明性によって信頼を構築することは、アルゴリズムの偏見に対する懸念を解消するための効果的な解決策であり、テクノロジー業界全体にとって非常に高い指標的意義を持っています。 Once we have completed our review for security vulnerabilities, we will make the entire codebase of 𝕏 open source, with no exceptions. Moreover, we will invite third party reviewers to examine the system that is running to confirm that the open source code is what is running.…

Jul 16, 2026 Read →

A …

news

AI日報：Cursorのゼロデイ脆弱性、モバイル向け27BモデルBonsai誕生、Claudeの教師専用アシスタント登場

AI日報：Cursorのゼロデイ脆弱性、モバイル向け27BモデルBonsai誕生、Claudeの教師専用アシスタント登場テクノロジー界のニュースは毎日山ほどあり、息つく暇もありません。新しいモデルや技術が次々と登場し、専門家でさえ理解するのに苦労することもあります。しかしご安心ください。ここでは、最も新鮮で話題性の高いテクノロジーの焦点を整理してお届けします。スマートフォンで動作する超大規模言語モデルから、セキュリティ上の懸念を引き起こす開発ツールまで、今日は実用的な情報が満載です。それでは、少し歩みを緩めて、これらの新しいテクノロジーの知識をじっくりと味わってみてください。 27Bの大規模モデルをスマホに詰め込む？PrismMLが実現正直なところ、これまでローカルデバイス上で大規模言語モデルをスムーズに実行することは、ハードウェア仕様の観点から見て、乗り越えるのが難しい高い壁でした。今回、PrismMLは、スマートフォン上のローカルでスムーズに動作する世界初の27Bクラス大規模言語モデル「Bonsai 27B」を正式に発表しました。少し信じられないような話ですが、説明しましょう。PrismMLチームは、独自の1ビット量子化技術と「インテリジェンス密度（Intelligence Density）」のコンセプトを通じて、この巨大なモデルをわずか3.9GBに圧縮しました。この軽量さにより、クラウドサーバーに頼ることなく、スマートフォン上で複雑なマルチモーダルタスクを直接実行できるようになりました。この手法の利点は明らかです。ネットワーク遅延が大幅に削減されるだけでなく、さらに重要なのは、データがユーザーのスマートフォンから一切外部に出ないということです。プライバシー保護を非常に重視するユーザーにとって、これは間違いなく朗報です。技術的な詳細に興味がある方は、PrismML公式サイトで詳細を確認できます。セキュリティ通知を無視？Cursorにゼロデイ脆弱性、開発者の安全は誰が守る？多くの開発者が愛用しているAI補助プログラミングツール「Cursor」が、最近大きなトラブルに見舞われています。セキュリティ研究機関のMindgardが、非常に深刻なゼロデイ脆弱性を公表し、開発界隈を騒然とさせています。説明しましょう。これは一見単純ですが、非常に危険な脆弱性です。Windowsシステム上で開発者がCursorを使ってプロジェクトフォルダーを開く際、このフォルダーのルートに悪意を持って改ざんされた git.exe ファイルが隠されていると、Cursorは警告やクリック権限を一切求めることなく、自動的にそれを実行してしまいます。これは門戸を大きく開き、ハッカーに任意のコード実行権限を簡単に与えてしまうことを意味します。セキュリティ界で最も不満を持たれているのは、Mindgardが数ヶ月前（2025年12月）にこの問題を報告していたにもかかわらず、Cursor公式が有意義な回答を先延ばしにし、7ヶ月間と70以上のバージョン更新を経ても脆弱性が依然として残っているという事実です。コミュニケーションが取れない中、研究チームは「全面公開（Full Disclosure）」という最後の手段をとらざるを得ませんでした。防護策を理解したい開発者は、Mindgardの完全な分析レポートを読むことを強く推奨します。「適時黙る」を知るAI？OpenMOSSが開源したリアルタイム視覚理解モデル動画解析は、非常に計算リソースを消費する課題です。OpenMOSSチームは最近、リアルタイム動画理解用に設計された110億パラメータのモデル「MOSS-VL-Realtime」をオープンソース化しました。このモデルで最も驚くべき点は、最大256Kという超長文脈（コンテキスト）をサポートしていることです。これは、ユーザーが動画再生のどの時点でも、いつでもAIに質問できることを意味します。ここがポイントですが、このモデルには非常に人間味のある特徴があり、それは自発的に沈黙を保つ能力です。画面上の視覚情報が不十分な場合や、重要な出来事がまだ発生していない場合、より多くの画面を取得するまで静かに待ち、その後正確な回答を行うことを選択します。この「適時黙る」ことを知る特性により、スマート監視やリアルタイム解析の分野で特に価値が高まっています。これは不必要な計算の無駄を省くだけでなく、回答の正確性を大幅に向上させました。開発者はOpenMOSSのGitHubページからソースコードを取得し、実際に体験できます。話し手のトーンさえ模倣！GoogleがGemini 3.5のリアルタイム音声翻訳アプリを共有言葉の壁は、グローバル化の発展における長年の痛みでした。Google AI開発者公式アカウントは最近、各開発チームがいかに巧みにGemini 3.5 Live Translateを活用してグローバルな多言語アプリを構築しているかを共有しました。この強力なモデルは、70以上の言語のリアルタイム翻訳をサポートしています。最も素晴らしいのは、単に文字を変換するだけでなく、話し手のオリジナルのトーン、速度、さらには音高まで保持できることです。このような自然なインタラクション方法により、言語を越えたコミュニケーションが非常にスムーズになります。東南アジアのスーパーアプリGrabは、この技術を積極的に探求し、ドライバーと乗客の間のコミュニケーションの障害を取り除こうとしています。さらに、LiveKit、Software Mansion、VisionAgentsなどのトップチームも、すでに自社サービスへの統合に成功しています。彼らは、超低遅延の多言語リアルタイムビデオ通話、ライブストリーム翻訳、および動的に言語を切り替えることができるまったく新しい体験を開発しました。興味のある方は、Google AI開発者のXプラットフォームの投稿で実際のデモ動画を見ることができます。授業準備の救世主！Anthropicが教師専用Claudeアシスタントを発表教育関係者の日々の業務はすでに非常に多忙です。疲れを知らない有能な助手がいたらどんなに良いでしょうか？Anthropicは、米国のK-12（幼稚園から高校まで）段階の教育関係者向けに、プレミアムAIサービスを無料で提供する「Claude for Teachers」を発表しました。このツールは、単なる暇つぶしのチャットボットではありません。米国の50州すべての教育基準と専門的なカリキュラムリソースが内蔵されています。教師はいくつかの簡単な要件を入力するだけで、Claudeがすぐに学習指導要領に完全に準拠した教案を生成し、さらには学生の習熟度に合わせて難易度を変えた教材を提供することもできます。プライバシーの問題も当然、誰もが最も懸念することです。Anthropicは、このサービスには特別なプライバシー保護条項が適用され、FERPA規範に完全に準拠していることを強調しています。教員と学生の会話およびすべてのデータは、トレーニング素材として使用されることは決してありません。申請の詳細については、Anthropicの公式発表を参照してください。ロボットの脳がさらに進化、Xiaomiが380億パラメータの具身知能モデルをオープンソース化ロボットに世界を真に理解させるには、強力な脳システムが不可欠です。Xiaomiロボットチームは最近、パラメータ規模が最大380億に達する世界基礎モデル「Xiaomi-Robotics-U0」を発表し、オープンソース化しました。このモデルはEMU3.5アーキテクチャをベースに初期化されており、テキスト、画像、具身観察データを同期処理するために統一されたトークンスペースを採用しています。これにより、テキストから画像への生成、シーン生成、状態遷移、さらには一連の動画の生成任務さえも容易にこなすことができます。計算をより効率的にするために、Xiaomiチームは専用の「FlashAR」加速技術を組み合わせ、vLLMを完璧にサポートしています。単一のH20グラフィックボード上で、この技術は高解像度画像の生成速度を82倍以上に引き上げました。これは間違いなく、将来の汎用ロボット制御システムにとって非常に強力な基盤を築きました。開発者は、Hugging Face上のXiaomi-Robotics-U0ページから関連する重みをダウンロードできます。 3Dゲームをテストにする？新しいAI評価方法が常識を打破従来の静的な文字の選択問題で、AIの実力を正確に測定できるでしょうか？開発者コミュニティは最近、「WorldBuild Bench」というまったく新しい基準テストを開始し、より面白く、かつ過酷な方法でテストすることにしました。このテストの手法は非常に独特です。Claude Fable 5やGPT-5.6 Solなど、複数の著名なモデルに対し、まったく同じプレゼンテーション要件に基づいて、それぞれ独立してプレイ可能な3Dゲームを開発させます。目的は、ゲームシーンを通じて、AIワールドモデルの空間、時間、因果関係における一貫性のパフォーマンスを検証することです。

Jul 15, 2026 Read →

AIデイリー | Claude Code セキュリティプラグイン登場！Bonsai Image でスマホでのローカル生成を実現、OpenMOSS 音声技術がアップグレード

AI 最新情報：スマホで3GBの画像生成が現実的に？Claude、Tencent、オープンソースコミュニティの最近の注目点

スマホ端でもスムーズな画像生成：PrismML が超圧縮モデル Bonsai Image 4B をリリース

コーディング中の見えない安全網：Claude Code 専用セキュリティプラグインが登場

オープンソースコミュニティへの貢献：Tencent Hy-MT2 モデルが Apache 2.0 ライセンスに移行

AI 音声生成のさらなる進化：OpenMOSS がもたらすより繊細な聴覚体験

テストのハードルを大幅に低下：Xiaomi MiMo API が全面的な値下げを発表

Q&A

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

Recommended for You

AI日報｜Kimiが2.8兆パラメータのK3モデルをリリース、Geminiエージェントが稼働、Xiaomiがロボットのデータ障壁を突破

AI日報｜Xプラットフォームの全面オープンソース化を約束、OpenAIが物理キーボード「Codex Micro」を発売、SpaceXAIがGrok Buildのソースコードを公開

AI日報：Cursorのゼロデイ脆弱性、モバイル向け27BモデルBonsai誕生、Claudeの教師専用アシスタント登場

Leaving Website