AI日報｜Qwen3.7-Plusがインターフェースを操作？Berniniの新しい動画生成アーキテクチャ、Mellum2オープンソース化、Cursorの料金プラン変更

ースを制御、ByteDanceのBerni

AlibabaがQwen3

来しました。Qwen公式ブログ記

に統合でき、Claude Code、

Code、OpenClaw、Qwen

の忠実度は、Kling O3やWa

news

AI日報｜Qwen3.7-Plusがインターフェースを操作？Berniniの新しい動画生成アーキテクチャ、Mellum2オープンソース化、Cursorの料金プラン変更

2026-06-02

AIフォーカス日報：Qwen3.7-Plusがグローバルインターフェースを制御、ByteDanceのBerniniが動画編集ロジックを刷新

AI分野では、毎日驚くべき進歩が見られます。正直なところ、これらの技術リリースのペースについていくのはかなり大変です。今日は、強力なマルチモーダルエージェント、オープンソースの動画生成モデルから、開発者に密接に関連するツールの料金プラン調整やコミュニティの動向まで、最近最も影響力のあった技術アップデートをいくつかまとめました。

これらの新技術の主要なハイライトと、それらが将来のソフトウェアエンジニアリングやコンテンツ作成のワークフローにどのように影響するかを詳しく解説していきます。

AlibabaがQwen3.7-Plusを発表：インターフェースを理解し操作する万能エージェント

業界が待ち望んでいたマルチモーダルの重大なアップグレードがついに到来しました。Qwen公式ブログ記事の詳細な紹介によると、新しくリリースされたQwen3.7-Plusは、視覚的な理解と言語的な推論を完璧に融合させています。このモデルは、非常に強力な「ハイブリッドエージェント（Hybrid Agent）」能力を備えています。

ご存知ですか？これまでのモデルの多くは「写真を見て説明する」ことしかできませんでしたが、現在のQwen3.7-Plusは画面を直接読み取り、グラフィカルユーザーインターフェース（GUI）を操作し、さらにはコマンドラインインターフェース（CLI）環境でエンドツーエンドの複雑なタスクを完了することができます。例えば、参考となるデザイン図や動画を入力すると、モデルは実行可能なSVGやWebフロントエンドコードを直接出力できます。

ソフトウェア開発の自動化におけるマイルストーン

この技術の実際のアプリケーションにおけるパフォーマンスは驚異的です。Qwen3.7-Plusに基づいて構築されたエージェントシステムは、かつて11時間以上の連続安定稼働の記録を樹立しました。このプロセスの中で、システムは英単語学習アプリの完全な開発サイクルを自律的に完了させました。最初の要件定義ドキュメントの生成、コードの記述から、テストケースの作成、インターフェースの自動テストに至るまで、合計で1万行以上のコードが生成されました。

プロフェッショナルなデスクトップアプリケーションのシナリオにおいても、モデルはワンクリックでの自律的な複製を実現できます。かつて、リアルタイムの市場データを取得するための実際のAPI接続を含む、macOSネイティブの株価アプリの高精度な複製を完全に自律的に完了させました。開発者は現在、これを主流の開発フレームワークにシームレスに統合でき、Claude Code、OpenClaw、Qwen Codeなどで安定してサポートされています。

この技術を実際に体験したいユーザーは、現在、Alibaba Cloud Model Studio APIを通じて直接サービスを呼び出すことができます。システムは、前回のターンの思考内容を保持する高度な機能もサポートしており、長期稼働するエージェントの構築に非常に適しています。

ByteDanceがBerniniをオープンソース化：セマンティックプランニングによる動画生成と編集の再構築

動画生成の技術ロジックは興味深い変化を遂げています。ByteDanceの研究チームは、新しいBerniniプロジェクトを発表しました。これは、大型マルチモーダル言語モデル（MLLM）と拡散モデル（DiT）を統合したユニークなアーキテクチャです。

従来の動画モデルは通常、理解と生成を混合して処理していましたが、これは計算リソースの浪費や詳細の欠落を招くことがよくありました。Berniniは非常に賢い分業戦略を採用しています。MLLMが高レベルの「セマンティックプランニング（Semantic Planning）」を担当し、ターゲットのViT埋め込みベクトル特徴を予測します。次に、DiTレンダラーが引き継ぎ、これらのセマンティック特徴を非常にリアルなピクセル画面に変換する役割を果たします。

複数の視覚的特徴の混同を解決する技術的工夫

動画編集を処理する際、モデルは元の動画、参照画像、およびターゲット出力の特徴をどのように区別するかという難題に直面することがよくあります。これを克服するために、研究チームは「セグメント認識3D回転位置エンコーディング（SA-3D RoPE）」を導入しました。この技術は、異なる視覚素材に独立したインデックスラベルを付与することで、レンダラーが画面を合成する際に参照画像の背景を最終的に生成される動画に誤って貼り付けてしまうのを防ぎます。

実際のパフォーマンス評価において、Berniniは圧倒的な実力を示しました。動画から動画への編集（V2V）であれ、参照画像ガイドによる編集（RV2V）であれ、その画面の一貫性と指示への忠実度は、Kling O3やWan2.7を含む現在市場に出回っている主要製品を凌駕しています。

さらに素晴らしいことに、開発チームはこの技術を完全に公開しました。興味のある研究者は研究論文 Bernini: Latent Semantic Planning for Video Diffusionを読み、ByteDance/Berniniモデルダウンロードから完全な推論コードとモデルの重みを直接取得できます。

JetBrainsがMellum2を発表：コードワークフロー専用の軽量エキスパート

タスクを完了するために、必ずしも最も巨大でリソースを消費するスーパーモデルを動かす必要はありません。有名な開発者ツール企業であるJetBrainsは、自社開発のMellum2モデルを正式にオープンソース化しました。関連する技術的詳細は、JetBrains公式ブログの紹介で公開されています。

Mellum2は、Mixture-of-Experts (MoE) アーキテクチャを採用した12Bパラメータのモデルです。そのユニークなアーキテクチャ設計により、各トークンで実際に起動されるパラメータはわずか2.5Bです。これにより、高いパフォーマンスを維持しながら、極めて低いレイテンシと超高いスループットを実現しています。

純粋なテキストとコードタスクへの特化

前述のマルチモーダルモデルとは異なり、Mellum2は画像や動画の処理を意図的に避けています。自然言語とコードのデータを用いたトレーニングに完全に集中しています。この「偏り」こそが、ソフトウェアエンジニアリング環境において最大限の効果を発揮させる要因となっています。

入力されたプロンプトを分析して呼び出すツールを決定したり、低レイテンシの検索拡張生成（RAG）パイプラインを構築したり、複雑な開発作業をサブエージェント（Sub-agents）に分割して実行させたりする場合でも、Mellum2は究極の効率性を示します。

このモデルはApache 2.0ライセンスを採用しており、コードのプライバシーを保護するために企業がローカル環境にデプロイするのに非常に適しています。開発者はHugging Faceのリリースノートで詳細を確認し、Hugging Faceの専用コレクションから関連リソースを入手できます。

Cursor Teamsプランのアップグレード：ヘビー開発者への福音

開発ツールの課金方式は、常にチームの運営コストに影響を与えます。最新のCursor公式発表によると、2026年6月から、Teamsプランは重要な構造的最適化を迎えました。

チーム管理者は、支出をより正確にコントロールできるようになります。標準シート（月額40ドル）の利用枠が大幅に引き上げられました。さらに重要なことに、システムは配分を2つの独立したプールに明確に分割しました。1つはCursor独自のComposerおよびAuto機能専用で、もう1つはサードパーティのAPIモデルの消費用です。

極端な利用量に対する新しい解決策

開発チームを詳しく観察すると、通常、少数の「ヘビーユーザー」がAI利用枠の大部分を消費していることがわかります。このような突発的なオンデマンドコストを防ぐために、Cursorは全く新しいPremiumシートを導入しました。

標準シートの約3倍のコスト（年払いプランで月額120ドル）を支払うだけで、標準シートの5倍の含まれる利用量を得ることができます。これは、チームが異なるタイプのシートを自由に組み合わせることができ、1円たりとも無駄にしないことを意味します。管理画面では、利用上限までの進捗もリアルタイムで表示され、スマートアラートを設定して、月末に驚くような請求額が発生するのを効果的に回避できます。

Codexのクォータリセットがコミュニティで話題に：毎週から毎月へ？

最後に、開発者コミュニティで強い反発を招いているニュースを見てみましょう。最近Redditプラットフォームで、「Weekly reset became monthly reset?」というタイトルのRedditスレッドが大きな反響を呼んでいます。

日常の開発に無料アカウントやGoプランを利用している多くのユーザーが、以前は7日ごとにリセットされていたクォータが、予告なく30日に延長されていることに突然気づきました。週末に個人のプロジェクトを書く習慣がある学生やアマチュア愛好家にとって、これは間違いなく大きな打撃です。

これは確かに衝撃的です。スレッド内はさまざまな推測や不満で溢れており、システム障害ではないかと疑う人もいれば、公式による意図的な戦略的調整だと考える人が大半です。このような突然の制限に直面し、多くの開発者が代替案を探しており、ワークフローをより安価なDeepSeek APIに全面的に移行する準備を始めている人もいます。この事件は、単一のクラウドサービスプロバイダーに過度に依存することの潜在的なリスクを改めて浮き彫りにしました。

Q&A

Q1：Alibabaが発表した新しいQwen3.7-Plusモデルは、以前のビジュアルモデルと何が違うのですか？ A：Qwen3.7-Plusは、マルチモーダルインタラクティブハイブリッドエージェントです。画像を見ることができるだけでなく、画面を直接読み取り、グラフィカルユーザーインターフェース（GUI）を操作し、コマンドラインインターフェース（CLI）環境でタスクを実行することができます。さらに、画像、動画、またはUIのスクリーンショットを実行可能なSVGやWebフロントエンドコードに直接変換できるなど、強力なビジュアルコード生成機能を備えています。

Q2：ByteDanceのBerniniモデルは、動画編集でよく見られる特徴の混同問題をどのように解決していますか？ A：Berniniは、**セグメント認識3D回転位置エンコーディング（Segment-Aware 3D RoPE）**技術を採用しています。この技術は、異なる視覚素材に区別マークを付けることができるため、画面をレンダリングする際に、異なる視覚セグメント（参照画像や元の動画など）からの特徴を効果的に識別し、合成時の混乱を避けることができます。

Q3：JetBrainsがオープンソース化したMellum2モデルが、ソフトウェア開発のワークフローに特に適しているのはなぜですか？ A：Mellum2は、12BパラメータのMixture-of-Experts (MoE) モデルです。「集中」という哲学を掲げ、複雑な画像や動画の処理を避け、テキストとコードのタスクに特化しています。これにより、極めて低いレイテンシと高い効率性を備えており、サブエージェント（Sub-agents）の割り当て、ローカルでのプライベートデプロイ、および高速なAIワークフローの構築に非常に適しています。

Q4：Cursorは、Teamsプランにおける「ヘビーユーザー」に対してどのような新しい課金ソリューションを提案しましたか？ A：Cursorは、全く新しいPremiumシートを導入しました。企業はこれらの高利用量開発者に対して約3倍のコスト（月払い120ドル、年払い月額96ドル）を支払うことで、標準シートの5倍の含まれる利用量を得ることができます。同時に、管理画面ではリアルタイムの利用状況ダッシュボードが提供され、スマートアラートを設定して、費用が上限を超える前にSlackやメールで管理者に通知することができます。

Q5：開発者コミュニティが最近のCodexクォータリセットに対して抱いている主な不満は何ですか？開発者はどのような代替案を提案していますか？ A：無料アカウントやGoプランのユーザーは、Codexのクォータリセット周期が予告なく、本来の毎週（7日）から毎月（30日）にリセットされるように延長されたことに気づきました。この突然の制限に対し、一部の開発者は代替案としてワークフローをより安価なDeepSeek APIに全面的に移行する準備を進めていると述べています。

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

Recommended for You

A …

news

AI日報｜Kimiが2.8兆パラメータのK3モデルをリリース、Geminiエージェントが稼働、Xiaomiがロボットのデータ障壁を突破

AI日報｜Kimiが2.8兆パラメータのK3モデルをリリース、Geminiエージェントが稼働、Xiaomiがロボットのデータ障壁を突破今日のAI界隈も賑やかです。Kimiは2.8兆パラメータのオープンソースの怪物モデルを投入し、GoogleはAIエージェントが開発者の予算を使い切らないように工夫しており、OpenAIはユーザーのホームディレクトリを削除してしまうという大失態の修正に追われています。今日のまとめは以下の通りです。 2.8兆パラメータのオープンソースの怪物：Kimi K3 Kimiは、2.8兆パラメータを持つオープンソースモデル Kimi K3: Open Frontier Intelligence をリリースし、100万トークンのコンテキスト長をサポートしました。アーキテクチャ面では、KDAとAttnResを組み合わせて長文の注意機能と特徴抽出を処理し、Stable LatentMoE技術を通じて896個の専門家ネットワークのうち16個を精密にアクティブ化します。最も注目すべきは、ナノチップの設計と検証を48時間以内に自律的に完了したことです。Claude Fable 5やGPT 5.6 Solを全面的に超えたわけではありませんが、K3は現在、オープンソース界で無視できない重量級の選手です。視覚知覚の真相：PerceptionBench評価私たちはAIが画像を理解できると思っていますが、多くの場合、ただの当てずっぽうです。Kimiチームがリリースした PerceptionBench は、「視覚知覚」と「論理的推論」を分けてテストします。計数、深度知覚、空間位置決めなど3,000問を含むこのテストは、悲惨な現実を明らかにしました：現在、正解率が60%を超えるモデルは市場に存在しません。 OpenAIの青少年保護ネット多くのティーンエイジャーが学習にChatGPTを頼っているため、OpenAIは専用の「学習モード」(Study Mode) をリリースしました。このモードは直接回答を提供するのではなく、質問を通じて思考を導きます。保護者用オプションと組み合わせることで、静かな時間を設定したり、敏感なコンテンツをフィルタリングしたりできます。Family Online Safety Instituteなどの組織も関連する協力の推進に参加しています。 Google検索が外部アプリを統合 Google検索のAIモードは、現在外部アプリケーションを直接連携できるようになりました。AIにバーベキューのメニューを計画させる際、Instacartを通じて直接食材をショッピングカートに入れて決済できます。ポスターが必要ならCanvaテンプレートを呼び出し、音楽を聴きたいならYouTube Musicに連動してワンクリックで再生できます。 Gemini Notebookが登場人気のNotebookLMはGemini Notebookに正式名称変更されました。今回は、Google AI UltraおよびWorkspaceビジネスユーザー向けにクラウドコンピューティング環境が開放されました。つまり、あなたのデジタルノートブックで直接コードを記述、実行し、複雑なデータ分析を処理できるようになりました。 AIの暴走を防ぐGemini API管理エージェント AIエージェントを自律的に動作させる際、最も恐ろしいのは予算のコントロール不能です。Googleが新たにリリースした Gemini Interactions API により、エージェントは隔離されたクラウドサンドボックス内でコードを書いたり、ネットサーフィンをしたりできます。予算の問題を解決するため、Googleは予算制御オプションを追加しました。開発者は max_total_tokens を設定するだけで直接ブレーキをかけることができます。また、新たに追加されたスケジュールトリガーにより、エージェントが毎日のデバッグやコードのクリーニングを自動実行できるようになりました。詳細は公式ドキュメントを参照してください。 Muse Spark 1.1がオンラインに Metaの Muse Spark 1.1 がOpenRouterプラットフォームに正式上陸し、米国の開発者により多様なモデルオプションを提供してアプリケーションを構築できるようになりました。

Jul 17, 2026 Read →

A …

news

AI日報｜Xプラットフォームの全面オープンソース化を約束、OpenAIが物理キーボード「Codex Micro」を発売、SpaceXAIがGrok Buildのソースコードを公開

AI日報｜Xプラットフォームの全面オープンソース化を約束、OpenAIが物理キーボード「Codex Micro」を発売、SpaceXAIがGrok Buildのソースコードを公開今日の主要ニュースは、ソーシャルプラットフォームの完全透明化計画、物理的なハードウェアの革新、そして主要なAIツールの全面的なアップグレードを網羅しており、最先端技術が日々の開発や生活に完全に統合されていることを示しています。以下に、今日の話題のトピックと新しいツールの応用を整理してご紹介します。 1. イーロン・マスクがXプラットフォームのコードの全面オープンソース化を約束イーロン・マスクは最近、Xプラットフォーム上のツイートで、セキュリティ脆弱性の審査が完了次第、Xプラットフォームのソースコードを完全に例外なく公開することを約束しました。完全な透明性を確保するため、公式チームは第三者の審査員を招き、実際に動作しているシステムを検証し、公開されたソースコードと実際の動作システムが一致しているかを照合する予定です。将来的には、誰もがXプラットフォーム上で動作するアルゴリズムを自ら検証できるようになります。完全な透明性によって信頼を構築することは、アルゴリズムの偏見に対する懸念を解消するための効果的な解決策であり、テクノロジー業界全体にとって非常に高い指標的意義を持っています。 Once we have completed our review for security vulnerabilities, we will make the entire codebase of 𝕏 open source, with no exceptions. Moreover, we will invite third party reviewers to examine the system that is running to confirm that the open source code is what is running.…

Jul 16, 2026 Read →

A …

news

AI日報：Cursorのゼロデイ脆弱性、モバイル向け27BモデルBonsai誕生、Claudeの教師専用アシスタント登場

AI日報：Cursorのゼロデイ脆弱性、モバイル向け27BモデルBonsai誕生、Claudeの教師専用アシスタント登場テクノロジー界のニュースは毎日山ほどあり、息つく暇もありません。新しいモデルや技術が次々と登場し、専門家でさえ理解するのに苦労することもあります。しかしご安心ください。ここでは、最も新鮮で話題性の高いテクノロジーの焦点を整理してお届けします。スマートフォンで動作する超大規模言語モデルから、セキュリティ上の懸念を引き起こす開発ツールまで、今日は実用的な情報が満載です。それでは、少し歩みを緩めて、これらの新しいテクノロジーの知識をじっくりと味わってみてください。 27Bの大規模モデルをスマホに詰め込む？PrismMLが実現正直なところ、これまでローカルデバイス上で大規模言語モデルをスムーズに実行することは、ハードウェア仕様の観点から見て、乗り越えるのが難しい高い壁でした。今回、PrismMLは、スマートフォン上のローカルでスムーズに動作する世界初の27Bクラス大規模言語モデル「Bonsai 27B」を正式に発表しました。少し信じられないような話ですが、説明しましょう。PrismMLチームは、独自の1ビット量子化技術と「インテリジェンス密度（Intelligence Density）」のコンセプトを通じて、この巨大なモデルをわずか3.9GBに圧縮しました。この軽量さにより、クラウドサーバーに頼ることなく、スマートフォン上で複雑なマルチモーダルタスクを直接実行できるようになりました。この手法の利点は明らかです。ネットワーク遅延が大幅に削減されるだけでなく、さらに重要なのは、データがユーザーのスマートフォンから一切外部に出ないということです。プライバシー保護を非常に重視するユーザーにとって、これは間違いなく朗報です。技術的な詳細に興味がある方は、PrismML公式サイトで詳細を確認できます。セキュリティ通知を無視？Cursorにゼロデイ脆弱性、開発者の安全は誰が守る？多くの開発者が愛用しているAI補助プログラミングツール「Cursor」が、最近大きなトラブルに見舞われています。セキュリティ研究機関のMindgardが、非常に深刻なゼロデイ脆弱性を公表し、開発界隈を騒然とさせています。説明しましょう。これは一見単純ですが、非常に危険な脆弱性です。Windowsシステム上で開発者がCursorを使ってプロジェクトフォルダーを開く際、このフォルダーのルートに悪意を持って改ざんされた git.exe ファイルが隠されていると、Cursorは警告やクリック権限を一切求めることなく、自動的にそれを実行してしまいます。これは門戸を大きく開き、ハッカーに任意のコード実行権限を簡単に与えてしまうことを意味します。セキュリティ界で最も不満を持たれているのは、Mindgardが数ヶ月前（2025年12月）にこの問題を報告していたにもかかわらず、Cursor公式が有意義な回答を先延ばしにし、7ヶ月間と70以上のバージョン更新を経ても脆弱性が依然として残っているという事実です。コミュニケーションが取れない中、研究チームは「全面公開（Full Disclosure）」という最後の手段をとらざるを得ませんでした。防護策を理解したい開発者は、Mindgardの完全な分析レポートを読むことを強く推奨します。「適時黙る」を知るAI？OpenMOSSが開源したリアルタイム視覚理解モデル動画解析は、非常に計算リソースを消費する課題です。OpenMOSSチームは最近、リアルタイム動画理解用に設計された110億パラメータのモデル「MOSS-VL-Realtime」をオープンソース化しました。このモデルで最も驚くべき点は、最大256Kという超長文脈（コンテキスト）をサポートしていることです。これは、ユーザーが動画再生のどの時点でも、いつでもAIに質問できることを意味します。ここがポイントですが、このモデルには非常に人間味のある特徴があり、それは自発的に沈黙を保つ能力です。画面上の視覚情報が不十分な場合や、重要な出来事がまだ発生していない場合、より多くの画面を取得するまで静かに待ち、その後正確な回答を行うことを選択します。この「適時黙る」ことを知る特性により、スマート監視やリアルタイム解析の分野で特に価値が高まっています。これは不必要な計算の無駄を省くだけでなく、回答の正確性を大幅に向上させました。開発者はOpenMOSSのGitHubページからソースコードを取得し、実際に体験できます。話し手のトーンさえ模倣！GoogleがGemini 3.5のリアルタイム音声翻訳アプリを共有言葉の壁は、グローバル化の発展における長年の痛みでした。Google AI開発者公式アカウントは最近、各開発チームがいかに巧みにGemini 3.5 Live Translateを活用してグローバルな多言語アプリを構築しているかを共有しました。この強力なモデルは、70以上の言語のリアルタイム翻訳をサポートしています。最も素晴らしいのは、単に文字を変換するだけでなく、話し手のオリジナルのトーン、速度、さらには音高まで保持できることです。このような自然なインタラクション方法により、言語を越えたコミュニケーションが非常にスムーズになります。東南アジアのスーパーアプリGrabは、この技術を積極的に探求し、ドライバーと乗客の間のコミュニケーションの障害を取り除こうとしています。さらに、LiveKit、Software Mansion、VisionAgentsなどのトップチームも、すでに自社サービスへの統合に成功しています。彼らは、超低遅延の多言語リアルタイムビデオ通話、ライブストリーム翻訳、および動的に言語を切り替えることができるまったく新しい体験を開発しました。興味のある方は、Google AI開発者のXプラットフォームの投稿で実際のデモ動画を見ることができます。授業準備の救世主！Anthropicが教師専用Claudeアシスタントを発表教育関係者の日々の業務はすでに非常に多忙です。疲れを知らない有能な助手がいたらどんなに良いでしょうか？Anthropicは、米国のK-12（幼稚園から高校まで）段階の教育関係者向けに、プレミアムAIサービスを無料で提供する「Claude for Teachers」を発表しました。このツールは、単なる暇つぶしのチャットボットではありません。米国の50州すべての教育基準と専門的なカリキュラムリソースが内蔵されています。教師はいくつかの簡単な要件を入力するだけで、Claudeがすぐに学習指導要領に完全に準拠した教案を生成し、さらには学生の習熟度に合わせて難易度を変えた教材を提供することもできます。プライバシーの問題も当然、誰もが最も懸念することです。Anthropicは、このサービスには特別なプライバシー保護条項が適用され、FERPA規範に完全に準拠していることを強調しています。教員と学生の会話およびすべてのデータは、トレーニング素材として使用されることは決してありません。申請の詳細については、Anthropicの公式発表を参照してください。ロボットの脳がさらに進化、Xiaomiが380億パラメータの具身知能モデルをオープンソース化ロボットに世界を真に理解させるには、強力な脳システムが不可欠です。Xiaomiロボットチームは最近、パラメータ規模が最大380億に達する世界基礎モデル「Xiaomi-Robotics-U0」を発表し、オープンソース化しました。このモデルはEMU3.5アーキテクチャをベースに初期化されており、テキスト、画像、具身観察データを同期処理するために統一されたトークンスペースを採用しています。これにより、テキストから画像への生成、シーン生成、状態遷移、さらには一連の動画の生成任務さえも容易にこなすことができます。計算をより効率的にするために、Xiaomiチームは専用の「FlashAR」加速技術を組み合わせ、vLLMを完璧にサポートしています。単一のH20グラフィックボード上で、この技術は高解像度画像の生成速度を82倍以上に引き上げました。これは間違いなく、将来の汎用ロボット制御システムにとって非常に強力な基盤を築きました。開発者は、Hugging Face上のXiaomi-Robotics-U0ページから関連する重みをダウンロードできます。 3Dゲームをテストにする？新しいAI評価方法が常識を打破従来の静的な文字の選択問題で、AIの実力を正確に測定できるでしょうか？開発者コミュニティは最近、「WorldBuild Bench」というまったく新しい基準テストを開始し、より面白く、かつ過酷な方法でテストすることにしました。このテストの手法は非常に独特です。Claude Fable 5やGPT-5.6 Solなど、複数の著名なモデルに対し、まったく同じプレゼンテーション要件に基づいて、それぞれ独立してプレイ可能な3Dゲームを開発させます。目的は、ゲームシーンを通じて、AIワールドモデルの空間、時間、因果関係における一貫性のパフォーマンスを検証することです。

Jul 15, 2026 Read →

AI日報｜Qwen3.7-Plusがインターフェースを操作？Berniniの新しい動画生成アーキテクチャ、Mellum2オープンソース化、Cursorの料金プラン変更

AIフォーカス日報：Qwen3.7-Plusがグローバルインターフェースを制御、ByteDanceのBerniniが動画編集ロジックを刷新

AlibabaがQwen3.7-Plusを発表：インターフェースを理解し操作する万能エージェント

ソフトウェア開発の自動化におけるマイルストーン

ByteDanceがBerniniをオープンソース化：セマンティックプランニングによる動画生成と編集の再構築

複数の視覚的特徴の混同を解決する技術的工夫

JetBrainsがMellum2を発表：コードワークフロー専用の軽量エキスパート

純粋なテキストとコードタスクへの特化

Cursor Teamsプランのアップグレード：ヘビー開発者への福音

極端な利用量に対する新しい解決策

Codexのクォータリセットがコミュニティで話題に：毎週から毎月へ？

Q&A

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

Recommended for You

AI日報｜Kimiが2.8兆パラメータのK3モデルをリリース、Geminiエージェントが稼働、Xiaomiがロボットのデータ障壁を突破

AI日報｜Xプラットフォームの全面オープンソース化を約束、OpenAIが物理キーボード「Codex Micro」を発売、SpaceXAIがGrok Buildのソースコードを公開

AI日報：Cursorのゼロデイ脆弱性、モバイル向け27BモデルBonsai誕生、Claudeの教師専用アシスタント登場

Leaving Website