news

AI日報 | Google 広告アシスタント、Cohere 企業向けモデル、Stable Audio 3.0

May 21, 2026
Updated May 21
1 min read

毎日のAIの動き:Googleマーケティング・アシスタントと主要オープンソースモデルの最新進展

毎日、新しいテクノロジーツールが登場しています。これらの技術が一歩ずつ成熟していく様子を見るのは、非常に刺激的です。本日のAI日報では、主要テック大手の最新動向をお届けします。Google広告の新型AIエージェント、Cohereの企業向け強力オープンソースモデル、ByteDanceの軽量マルチモーダルモデル、そしてStability AIによる音楽クリエイターへの新しい贈り物について解説します。注目の4つのトピックを一緒に見ていきましょう。

広告マーケティングの強力な助っ人が登場?Google Ask Advisor

広告運用は時に非常に頭の痛い作業です。マーケティング担当者は、複数のデータ分析プラットフォームを行き来しなければならないことがよくあります。この煩わしい問題を解決するために、Googleは「Ask Advisor」をリリースしました。これは、複数の製品を横断するAIエージェントで、実際には舞台裏で「専門エージェント・チーム(team of expert agents)」を調整し、マーケティング担当者の24時間体制のコラボレーション・パートナーおよび問題解決の専門家として機能します。Google Ads、Google Analytics、Google Marketing Platformの各リソースを巧みに統合しています。

例えば、「シャンプー製品の新規顧客を探して」といった自然言語の指示を入力するだけで、このアシスタントがMerchant Centerから商品詳細を自動的に取得し、新しい広告キャンペーンを直接作成します。非常に手間が省けそうですね。ユーザーに高度なデータ分析スキルは必要ありません。Ask Advisorがどのマーケティング戦略が有効かを直接説明し、次のステップへの具体的なアドバイスを提供します。

さらに、パーソナライズされた提案を事前に提供することも可能です。これにより、チームの試行錯誤の時間を大幅に節約できます。このツールはいつ普及するのでしょうか?現在、この機能は英語アカウント向けにベータ版が公開されており、今後数ヶ月のうちにさらに多くの新機能がリリースされる予定です。

企業専用の計算機:Cohere Command A+

次に、Cohereが発表した「Command A+」についてお話しします。これは、非常に魅力的なMixture-of-Experts(MoE:混合専門家)アーキテクチャを採用したモデルです。企業のハイパフォーマンス・コンピューティング・タスク向けに設計されており、Cohereの企業向けAI統合ワークスペース「North」の進歩を支える中核となっています。

企業向けアプリケーションにおいて、プライバシー管理とハードウェア・リソースは常に最大の関心事です。Command A+はApache 2.0ライセンスで公開されています。驚くべきことに、わずか2枚のNVIDIA H100 GPUがあればスムーズに動作し、最大128Kの入力コンテキスト長と64Kの最大生成長を備えています。これにより、企業が自社でハードウェアを導入するハードルが大幅に下がりました。総パラメータ数は2180億ですが、1回の実行で使用されるアクティブ・パラメータは250億のみです。

ここで少し補足します。MoEアーキテクチャとは、大企業の中に各分野の専門コンサルタントがいるようなものです。特定の問題が発生したとき、システムは対応するコンサルタントだけを呼び出して処理を行います。さらに、MoEアーキテクチャ向けに最適化された投機的デコーディング(speculative decoding)技術を採用することで、テキストとマルチモーダルの推論生成速度をさらに1.5〜1.6倍向上させています。これにより、処理速度が大幅に向上するだけでなく、貴重な計算コストも節約できます。また、多言語対応も目覚ましく、従来の23言語から48言語へと大幅に拡張されました。新しいトークナイザー(tokenizer)により、特にアラビア語、韓国語、日本語の処理効率が向上し、生成に必要なトークン数と推論コストが大幅に削減されています。

この強力なモデルはどこでダウンロードできるのでしょうか?開発者は現在、Hugging FaceまたはModel Vaultプラットフォームから重みデータを直接取得でき、エージェントのワークフローを直接体験することも可能です。

軽量かつ強力なマルチモーダルの新星:ByteDance Lanceモデル

3つ目のトピックは、ByteDanceが発表したLanceマルチモーダルモデルです。詳細なテストリソースやアーキテクチャの説明は、Hugging FaceのLanceページでも確認できます。

マルチモーダルといえば、通常は巨大なサイズのモデルを連想しますが、Lanceはその逆を行きます。アクティブ・パラメータはわずか30億(3B)です。このサイズは非常にコンパクトですが、特筆すべきは、開発チームがスクラッチ(最初から)のトレーニングを、最大でも128枚未満のGPUで完了させたことです。極めて高いリソース効率を実現しています。それにもかかわらず、画像生成、動画理解、さらには動画編集など、複数のタスクを同時にこなすことができます。

開発チームはこのモデルを完全にゼロからトレーニングしました。ベースにはオープンソースのQwen2.5-VLを使用し、「デュアル・エキスパート・アーキテクチャ(理解用と生成用の2つの専門家)」を構築しました。すべての視覚・テキストタスクを単一のアーキテクチャの下に統合しています。これは、万能なアシスタントが絵を描き、動画を読み、文章を書くことを同時に学び、かつ互いに干渉することなく同じモデル内で連携しているようなものです。各種オープンソースのベンチマークテストでのパフォーマンスも引けを取りません。多くの開発者は「こんなに小さなモデルで本当に動画を扱えるのか?」と疑問に思うかもしれませんが、Lanceは数秒間の動画生成や、一貫性のある複数回の動画編集において満足のいく結果を出しています。

音楽クリエイターへの新しいインスピレーション:Stable Audio 3.0

最後のハイライトは、アーティストと音楽愛好家のためのものです。Stability AIは、Stable Audio 3.0を正式に公開しました。モデルシリーズの詳細は、Stable Audio 3セクションで確認できます。

このバージョンの最大の特徴は、最長6分間のオーディオ生成機能を提供していることです。このシリーズは、ニーズに合わせて4つのモデルに分かれています。2分間の効果音に特化した「3.0 Small SFX」、2分間の短い楽曲に適した「3.0 Small」、最長6分20秒の生成が可能な「3.0 Medium」、そしてAPIを通じて企業に最高音質を提供する「3.0 Large」です。音楽制作はインスピレーションの衝突に満ちたプロセスです。現在、クリエイターはLoRA技術を使用してモデルを微調整し、自分専用の音楽スタイルをシステムに学習させることができます。このモデルは新しい「セマンティック・アコースティック自己符号化器」を採用しており、生成されるトラックがより滑らかで自然になります。さらに驚くべきは、「オーディオ・インペインティング(修復)」と「アウトペインティング(拡張)」機能です。これにより、トラックの特定の部分だけを個別に差し替えたり、曲の終わりに続けて拡張したりすることができ、毎回新曲を生成し直す必要がありません。

また、3.0 Smallバージョンは、一般的なノートパソコンなどのデバイスでオフラインで直接実行できます。これは、外出先での作業が多いクリエイターにとって非常に便利です。著作権と商業化については、企業の年商が100万ドルを超えない限り、コミュニティライセンスに基づいて生成された音楽を自由に使用・商用利用できます。これは独立系ミュージシャンにとって間違いなく素晴らしい制作支援ツールとなるでしょう。

テクノロジーの発展のスピードには目を見張るものがあります。これらのツールが進化し続けることで、未来の創作や仕事のスタイルは間違いなくより面白いものになるでしょう。

Q&A

Q1:GoogleがリリースしたAsk Advisorは、主にどのような問題を解決するためのものですか?具体的にどのようにマーケターを助けますか? A: 主に、マーケティング担当者がGoogle AdsやGoogle Analyticsなどの複数のプラットフォーム間でデータ分析のために行き来しなければならないという課題を解決します。Ask Advisorは舞台裏で「専門エージェント・チーム」を調整します。ユーザーが「シャンプー製品の新規顧客を探して」といった自然言語の指示を入力するだけで、Merchant Centerから商品詳細を取得し、広告キャンペーンを自動的に作成します。また、プラットフォームを横断してデータを分析し、戦略の効果を説明してくれます。現在は英語アカウント向けにベータ版が公開されています。

Q2:なぜCohereのCommand A+は企業の自社導入に特に適していると言われているのですか?ハードウェア要件は高いですか? A: ハードウェア要件は非常に控えめです!Command A+はApache 2.0ライセンスのMoEアーキテクチャを採用したモデルです。総パラメータ数は2180億に達しますが、1回の計算で呼び出されるのは250億のアクティブ・パラメータのみであるため、最低2枚のNVIDIA H100 GPUがあればスムーズに動作します。また、最大128Kのコンテキスト長と48言語(最適化された日本語・韓国語を含む)をサポートしており、企業が高度なAIを導入する際のハードルとコストを大幅に下げることができます。

Q3:ByteDanceのLanceモデルは「軽量級」とされていますが、実際にはどのくらいのサイズですか?本当に動画生成ができるのでしょうか? A: Lanceは非常にコンパクトで、**アクティブ・パラメータはわずか30億(3B)**です。開発チームがこのモデルをゼロからトレーニングした際も、最大で128枚未満のGPUしか使用しておらず、リソース利用効率が極めて高いです。小型ながら独自の「デュアル・エキスパート・アーキテクチャ」(理解と生成のタスクを分離して干渉を防ぐ)により、画像や動画の理解だけでなく、**数秒間の高品質な動画生成(最大121フレーム対応)**や、複雑な一貫性のある動画編集も実行可能です。

Q4:Stable Audio 3.0が独立系音楽クリエイターにとって最も魅力的な点は何ですか?オフラインで使用できますか? A: 最大の魅力は、生成の長さときめ細かな編集能力にあります。3.0 MediumとLargeバージョンでは、最長6分20秒のフル楽曲を生成可能になりました。編集面では「オーディオ・インペインティング」と「アウトペインティング」をサポートしており、トラックの一部だけを差し替えたり、曲の終わりに拡張を加えたりすることができ、ゼロから作り直す必要がありません。さらに、3.0 Smallバージョンは一般的なノートパソコンで完全にオフラインで動作可能で、企業の年商が100万ドル未満であれば、コミュニティライセンスの下で生成された音楽を商用利用できます。

シェアする:
Featured Partners

© 2026 Communeify. All rights reserved.