VoxCPM：AI音声生成の新たなベンチマーク？驚異的にリアルな音声クローニングと文脈認識を備えたオープンソースモデルが衝撃デビュー

ModelBest、清華大学、OpenBMBが共同開発したオープンソースのテキスト読み上げ（TTS）モデル、VoxCPMを探る。本記事では、ゼロショット音声クローニング、文脈を認識した音声生成、高性能なリアルタイム合成という3つの核となるハイライトを深く掘り下げます。VoxCPMがわずか数秒の音声から音色、感情、さらには方言のアクセントまで完璧に再現し、AI音声技術に革命的なブレークスルーをもたらす方法をご覧ください。

AIの音声技術が急速に進歩しているにもかかわらず、生成される声にはどこか「人間味」が欠けていると感じたことはありませんか？時には平坦で単調に聞こえ、またある時には感情のない台本読み上げマシンのように聞こえます。音声の微妙な感情の抑揚や自然な間は、AIが乗り越えるのが難しい壁のように思われてきました。

しかし今、その状況は完全に変わるかもしれません。

VoxCPMというモデルが登場し、それは単なるテキスト読み上げ（TTS）ツールではありません。むしろ、「空気を読む」ことができるボーカルアーティストのようです。ModelBest、清華大学人間コンピュータ音声対話研究室（THUHCSI）、そしてOpenBMBコミュニティが共同で立ち上げたこのプロジェクトは、その驚くべきパフォーマンスでAI音声に対する私たちの想像を再定義しています。

そして何よりも素晴らしいのは？完全にオープンソースであることです。

では、VoxCPMとは一体何なのでしょうか？

簡単に言えば、VoxCPMはエンドツーエンドの音声生成モデルです。しかし、その強力さの秘密は「トークナイザーフリー」のアーキテクチャにあります。

これはどういう意味でしょうか？従来のAI音声モデルは、文を断片的なビルディングブロック（トークン）に分解し、それらを再びつなぎ合わせて音を生成しようとすると想像してみてください。この分解と再構築の過程で、多くの微妙な音響的詳細や感情的な手がかりが静かに失われてしまいます。これが、多くのAI音声が少し「偽物」っぽく聞こえたり、「途切れ途切れ」に聞こえたりする理由です。

VoxCPMは異なるアプローチをとります。強力な大規模言語モデルMiniCPM-4をベースに、拡散自己回帰モデリングなどの高度な技術を取り入れて、連続的な音声信号を直接処理します。それは、あらかじめ設定されたいくつかの色しか持たない画家ではなく、完全なパレットを持つ画家のようです。その結果、より豊かで一貫性のある音声の詳細を捉えることができ、生成された音声は信じられないほど自然に聞こえます。

これを達成するために、開発チームは中国語と英語の両方で180万時間以上のバイリンガルデータをモデルのトレーニングに費やしました。この膨大な量のデータは、VoxCPMに言語と音の間の微妙な関係を理解するための深い基盤を提供します。

VoxCPMの3つの核となるハイライト、それぞれが前のものよりも印象的

VoxCPMの力は、主に次の3つの側面に反映されています。

1. 台本を読むだけでなく、「演じる」こと：文脈を認識した音声生成

これは間違いなくVoxCPMの最も印象的な機能の1つです。音声サンプルを提供する必要はありません。テキストを入力するだけで、テキストの背後にあるトーンとスタイルを自動的に分析し、対応する音声を生成します。

これはつまり：

**物語を語るとき、**そのトーンはサスペンスと抑揚に満ちています。
**ニュースを放送するとき、**その声はプロフェッショナルで落ち着いたものになります。
**詩を朗読するとき、**リズミカルでメロディックなカデンツァを示すことができます。

VoxCPMは、テキストを「読む」だけでなく、コンテンツを真に「理解」することができます。文脈に基づいてスタイルを自動的に推測するこの能力は、生成された音声に表現力と活力を与えます。

2. コーヒーを飲む時間であなたの声をクローンする：ゼロショット音声クローニング

「音声クローニング」は近年AI分野で話題になっていますが、VoxCPMはそれをまったく新しいレベルに引き上げました。「ゼロショット」とは、ターゲット音声の短い音声参照（通常は数秒で十分）を提供するだけで、モデルがすぐにその声を模倣できることを意味します。

しかし、VoxCPMは音色だけをクローンするのではありません。より微妙な特徴もマスターできます。

感情とアクセント： 怒りの咆哮、幸せな笑い声、または特定の地域の方言（四川語、広東語、さらにはインド訛りの英語など）であっても、正確に捉えることができます。
リズムと話速： 話す速さや間を置く習慣など、これらの個人化された言語スタイルも完璧に再現できます。
録音環境： さらに魔法のようなことに、参照音声にバックグラウンドミュージックや環境ノイズが含まれている場合、VoxCPMは新しい音声を生成する際にこの「環境感」を巧みに保持し、音声をさらにリアルに聞こせます。

この機能は、単一言語クローニングとクロスリンガルクローニング（たとえば、英語の音声ファイルから中国語の音声を生成する）の両方をサポートしており、驚くべき柔軟性を示しています。

3. 高効率で即戦力：コンシューマーグレードのGPUでのリアルタイム生成

どんなに強力な機能であっても、実用的なアプリケーションでスムーズに実行できなければ、それはただの絵に描いた餅です。VoxCPMは効率の面でも非常に優れたパフォーマンスを発揮します。

公式データによると、コンシューマーグレードのNVIDIA RTX 4090グラフィックスカードでのリアルタイムファクター（RTF）は0.17と低くすることができます。これは、1秒の音声を生成するのにわずか0.17秒しかかからないことを意味します。このような高効率により、次のようなリアルタイムのフィードバックを必要とするアプリケーションシナリオに完全に対応できます。

リアルタイムのバーチャルアンカー
応答性の高いAI音声アシスタント
ゲーム内のNPCの動的な音声生成

オープンソースの力：なぜVoxCPMはそれほど重要なのでしょうか？

VoxCPMの登場は、単なる技術的なショーケースではありません。Apache-2.0オープンソースライセンスを選択したことは、この最先端技術が世界中の開発者、研究者、クリエイターに無料で提供されることを意味します。

これにより、無数の可能性が生まれます。

コンテンツクリエーターは、ビデオやポッドキャスト用の高品質なナレーションを簡単に生成したり、特定のキャラクターの声をクローンしたりできます。
開発者は、よりパーソナライズされ、感情豊かなスマートアシスタントやインタラクティブなアプリケーションを構築できます。
**教育とアクセシビリティの分野では、**必要とする人々に、より自然で心地よい音声のオーディオブックや読み上げツールを提供できます。

要約すると、トークナイザーフリーのアーキテクチャ、文脈認識機能、超リアルな音声クローニング技術、および高性能な効率により、VoxCPMはAI音声の分野で間違いなく新たなベンチマークを打ち立てました。AIが「話す」だけでなく、声で「表現」し、「コミュニケーション」できることを示しています。

この技術に興味がある場合は、ぜひその魔法を自分で体験してみてください。

公式サイトとデモ： https://openbmb.github.io/VoxCPM-demopage/
Hugging Faceモデルページ： https://huggingface.co/openbmb/VoxCPM-0.5B

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

3 …

tool

30言語対応、トークナイザー不要！オープンソース音声モデルVoxCPM2の5大機能解析

初期のナビゲーションシステムの、ぎこちなく機械的な音声を覚えている方も多いでしょう。人工知能が進化し続けるにつれ、テキスト読み上げ（TTS）技術のレベルは信じられないほどの領域に達しています。最近、オープンソースコミュニティで大きな話題となっているのが、OpenBMBチームが発表したVoxCPM2多言語音声モデルです。 20億ものパラメータという膨大な計算能力を備えたこのモデルは、機能が強力であるだけでなく、開発者やコンテンツクリエイターにとって最もエキサイティングなのは、ビジネスに非常にフレンドリーなApache 2.0ライセンスを採用している点です。完全にオープンソースであるということは、企業や個人がかつてないほどの創造の自由を享受できることを意味します。それでは、VoxCPM2の注目すべき5つの核心的なハイライトを全面的に解明していきましょう。煩雑な設定に別れを告げる：多言語混合入力でもシームレスに接続これまで多言語の音声モデルを操作する際、ユーザーは各言語のタグを手動で入力する必要がありました。これはワークフローを中断させるだけでなく、間違いも起こりやすいものでした。VoxCPM2は、先見性のある「トークナイザー不要（Tokenizer-free）」と拡散自己回帰アーキテクチャを採用することで、この問題を根本から解決しました。これはどういう意味でしょうか？簡単に言えば、ユーザーは日本語、英語、中国語などが混ざったテキストをそのままシステムに投入できるようになったということです。200万時間を超える多言語音声データベースを吸収したこのモデルは、すでに高度なスキルを習得しています。30もの言語をサポートしており、人間による言語タグの補助は一切不要です。システムが自然に判断し、極めて流暢な音声を生成します。流暢に話す以外に、何ができるのか気になるかもしれません。ここで特筆すべきは、その優れた「コンテキスト認識（文脈認識）」能力です。システムはテキストの文脈に基づいて、その場に最もふさわしい語気や感情表現を自動的に推測します。情熱的な演説であれ、穏やかな読み聞かせであれ、完璧に表現することができます。テキストだけで「専用の音声」を設計し、完璧に複製することも可能多言語の切り替えが基本スキルだとしたら、VoxCPM2の音声生成と制御における柔軟性は、まさに目を見張るものがあります。この技術は、驚くべき3つのレベルに分けられます。 1つ目は「音声デザイン（Voice Design）」です。参照用の音声ファイルを探し回る必要はありません。「若い女性、優しく甘い声」といった自然言語のテキスト説明を入力するだけで、システムが特定の性別、年齢、感情に合致した全く新しい音声をゼロから作り出します。まるで自分専用の声優がいるかのようなこの体験は、コンテンツ制作のハードルを大幅に下げます。 2つ目は「制御可能な複製（Controllable Cloning）」です。ユーザーが短い参照音声しか持っていない場合、これまでは正確に複製することが困難でした。しかし現在では、その短い音声を提供するだけで、モデルがその音色を完璧に捉えることができます。さらに、テキストプロンプトを通じて、その複製した音声の感情、話速、さらには表情の細部まで直接ガイドし、変化させることができます。 3つ目は「究極の複製（Ultimate Cloning）」です。参照音声と正確な書き起こしテキストの両方がある場合、モデルは高精度の音声継続を行うことができます。この機能は、話し手の微妙な息遣い、抑揚、感情の揺れを忠実に再現し、本物と区別がつかないほどのレベルに達します。低品質な音声を救済：ワンクリックで48kHzのスタジオ標準へアップグレード音質は音声生成ツールの良し悪しを決定する重要な指標です。VoxCPM2はこの点に非常に力を入れており、内部にAudioVAE V2超解像技術を直接統合しています。この技術の価値は、凡庸なものを驚異的なものに変える力にあります。例えば、一般的な16kHzサンプリングレートの低品質な音声ファイルしか持っていないとしましょう。従来の方法では、さまざまな外部アップスケーリングソフトで繰り返し処理する必要がありました。しかし現在では、システムがこのような低品質なオーディオを直接取り込み、瞬時に48kHzのスタジオ級の高音質へと引き上げ、出力することができます。全プロセスにおいてサードパーティ製のツールに依存する必要がないため、プロの録音設備を持たないクリエイターにとって、これはまさに朗報です。高速生成と低コストなカスタマイズ微調整効率を重視する開発者にとって、計算速度と微調整（ファインチューニング）のコストは常に重要な考慮事項です。VoxCPM2は、これら2つの指標において優れたパフォーマンスを発揮します。NVIDIA RTX 4090グラフィックスカードを搭載した環境での実測では、リアルタイムファクター（RTF）は最小で約0.13に達します。これは、音声生成の速度が再生速度よりも遥かに速いことを意味し、リアルタイムの対話が必要なストリーミングサービスや音声アシスタントへの応用に非常に適しています。多くの企業はこう尋ねるかもしれません。「独自のブランド音声モデルを構築するには、どれほど膨大なデータベースが必要か？」と。これこそがVoxCPM2のもう一つの強みです。全パラメータ微調整（Full SFT）とLoRA微調整技術の両方をサポートしています。最も魅力的なのは、わずか5分から10分の高品質な音声データを用意するだけで、訓練を完了できる点です。これにより、企業独自の音声をカスタマイズするための技術的・時間的ハードルが大幅に下がりました。テクノロジーを善用するために：厳格な倫理と安全規範技術は諸刃の剣です。これほど強力な音声複製・生成技術に直面し、開発チームは無料のオープンソースリソースを公開すると同時に、決して越えてはならない安全のレッドラインを引きました。公式の規範では、VoxCPM2を実在の人物になりすましたり、特殊詐欺を行ったり、虚偽の情報を拡散したりするために使用することを厳禁しています。また、混乱を避けるため、このAIモデルを通じて生成された音声コンテンツは、公開時に明確な表示を付け、聞き手がそれが人工知能によって合成された音声であることを明確に知るようにしなければなりません。これは技術開発者への敬意であるだけでなく、デジタル社会の信頼を維持するための重要な防衛線でもあります。この技術の魅力を直接体験したい方は、今すぐHugging Faceプラットフォーム上のVoxCPM-Demoテストスペースで実機操作が可能です。多言語切り替えの流暢さをテストしたり、独創性を発揮して音声デザイン機能を試したり、ここで直接的なフィードバックを得ることができます。このオープンソースモデルは、間違いなく将来の音声応用に無限の可能性を秘めた扉を開きました。読者からのよくある質問（Q&A） Q1：VoxCPM2は本当に完全に無料で商用利用が可能ですか？ A：はい！このモデルは非常に柔軟なApache 2.0ライセンスで公開されており、個人開発者でも企業でも、無料で商業プロジェクトに応用できます。ただし、公式チームは、本番環境に正式導入する前に、特定の応用シナリオに対して十分なテストと安全評価を行うことを推奨しています。 Q2：このモデルを動かすためのハードウェア要求は高いですか？一般的なグラフィックスカードで動きますか？ A： VoxCPM2は20億のパラメータを持っていますが、パフォーマンスの最適化が非常に優れています。このモデルを実行するには、約8GBのビデオメモリ（VRAM）が必要です。NVIDIA RTX 4090などのハイエンドグラフィックスカードを搭載している場合、標準的な生成状態でのリアルタイムファクター（RTF）は約0.30です。さらにNano-VLLM技術を組み合わせて加速させれば、約0.13という極めて高速なストリーミングパフォーマンスを実現できます。 Q3：「音声デザイン」機能を使用する際、生成された音声が期待通りでない場合はどうすればよいですか？ A：これは生成AIによく見られる現象です。「音声デザイン」やスタイル制御機能はゼロから新しい音声を作り出すため、生成されるたびに細部がわずかに異なります。公式チームは、同じテキスト説明に対して1回から3回生成を試みることを強く推奨しています。数回試すことで、感情や語気が最も完璧な成果物を選ぶことができるでしょう。 Q4：企業ブランドや自分の声でモデルを微調整したい場合、膨大なデータベースが必要ですか？ A：全く必要ありません！VoxCPM2は全パラメータ微調整（Full SFT）およびLoRA微調整技術をサポートしており、わずか5分から10分の高品質な音声データを用意するだけで、専用の音声モデルを訓練でき、カスタマイズのハードルを大幅に下げることができます。 Q5：この強力な音声モデルを使用する際、特に注意すべき技術的な制限や規範はありますか？ A：技術面では、極端に長いテキストや、極端に誇張された感情表現が必要なテキストを入力した場合、システムが不安定になることが稀にあります。また、30言語のパフォーマンスも元の訓練データの量によってわずかに異なります。倫理規範については、公式に厳格なレッドラインが引かれています。VoxCPM2を他人へのなりすまし、詐欺、不実な情報の拡散に使用することは絶対に禁止されています。同時に、社会の信頼を維持するため、このモデルを使用して生成された音声コンテンツは、公開時に明確な「AI生成」のラベルを付ける必要があります。

Apr 8, 2026 Read →

O …

tool

OmniVoice：600以上の言語に対応する最高峰のゼロショットTTSモデル

言語の壁を打ち破る！600以上の言語に対応するゼロショットTTSモデル「OmniVoice」を徹底解析 AI音声合成技術に新たなブレイクスルーが訪れました。OmniVoiceは、強力なシングルステージ拡散言語モデルアーキテクチャを備え、600以上の言語をサポートするだけでなく、無から有を生み出すボイスデザインや、**生き生きとした非言語音声制御（笑い声、ため息など）**の能力を備えています。この記事では、この最新音声モデルの技術的な核心と実測パフォーマンスに迫ります。今日のAI音声合成技術の進化には、目を見張るものがあります。わずか数秒の録音を機械に与えるだけで、驚くほど似た声を模倣することができます。しかし、既存のモデルには3つの大きな壁がありました。対応言語数が極めて少ないこと、2段階の生成プロセスでエラーが蓄積しやすいこと、そして全く新しい声をゼロから作り出すことが難しいことです。これらの長年の課題を解決するために、オープンソースコミュニティから業界を震撼させる新作「OmniVoice」が登場しました。これは、600以上の言語をサポートする巨大な多言語ゼロショット・テキスト読み上げ（TTS）モデルです。これまで克服が困難だった言語の壁を見事に乗り越えました。OmniVoiceのGitHubページや Hugging Faceプロジェクトを見れば、生成速度、音質、可制御性において新たな基準を打ち立てたことがわかります。核心技術の突破口：なぜこのモデルはこれほど強力なのか？このモデルの背後にある技術には、どのような秘密があるのでしょうか。これまで評価の高かった離散トークン非自己回帰モデルは、通常、複雑な2段階のプロセスに依存していました。これは、システムがまずテキストを意味的特徴に変換し、次にその意味的特徴を音響的特徴に変換するというものです。この手法はエラーが伝播しやすく、低ビットレートの意味的特徴によって音声の微細なディテールが失われがちでした。 OmniVoiceは、極限までシンプルかつ強力なシングルステージアーキテクチャを採用することで、この問題を突破しました。拡散言語モデルアーキテクチャ (Diffusion Language Model) 煩雑な中間ステップをスキップし、テキストをマルチコードブックの音響トークンに直接マッピングします。具体的には、OmniVoiceは Higgs-audio tokenizer を採用して、8層のコードブック (8-codebook) の音響トークンを抽出します。この賢い設計により、従来モデルの情報損失問題を完全に回避し、音声本来の純粋さを保つことができます。大型言語モデルによる初期化 (LLM Initialization) シングルステージモデルは、以前は発音が不明瞭になるという致命的な欠点がありました。研究チームは素晴らしい解決策を思いつきました。事前学習済みの大型言語モデル Qwen3-0.6B の重みを、OmniVoiceのバックボーンに直接導入したのです。これにより、AIが事前に辞書を読み終えたかのように、強力な言語ロジックを継承し、音声の明瞭度と理解力を大幅に向上させました。全コードブック・ランダムマスキング (Full-Codebook Random Masking) 従来の層ごとのマスキング手法は、トレーニング効率が低いことがよくありました。OmniVoiceは、すべてのコードブック層でランダムマスキングを行う手法を世界で初めて導入しました。この一見小さな変更が、トレーニング効率全体と最終的な生成品質に劇的な飛躍をもたらしました。 4つのハイライト機能：単なる模倣から真の音声創造へ硬派な技術面に加え、実際のアプリケーションにおけるパフォーマンスも同様に素晴らしいものです。多次元の制御能力を提供し、現実世界の様々な複雑なニーズに完璧に対応しています。超高速な音声クローニング (Voice Cloning) この機能は非常に直感的です。極めて短い参照音声と書き起こしテキストを提供するだけで、モデルは話者の音色と独特のスタイルを完璧に複製できます。書き起こしテキストが手元にない場合でも、モデルが自動的にWhisperを呼び出して認識を行うため、プロセス全体がシームレスに進行します。無から有を生み出すボイスデザイン (Voice Design) 参照音声が全くない場合はどうすればよいでしょうか？それこそがOmniVoiceの最も興味深い点です。ユーザーはテキストを通じて直接声をデザインできます。これはゲームの「キャラメイク」システムのようなものです。「女性、低音、イギリス英語アクセント」といった属性を記述したプロンプトを入力するだけで、モデルは即座にそれらの特徴に合致するユニークな音声を合成します。強力なプロンプト・デノイジング (Prompt Denoising) 現実の録音環境は、理想とは程遠いことがよくあります。一般の人が録音した参照音声には、不快な背景ノイズや部屋の反響が含まれていることが多々あります。エアコンの動作音や外の車の騒音に悩まされた経験は誰にでもあるでしょう。OmniVoiceは強力なデノイジング機能を内蔵しており、話者の音色と背景ノイズを分離することに成功しています。つまり、非常にノイズの多い音声ファイルを与えても、クリーンで忠実度の高い音声を生成できるのです。繊細な非言語制御と発音制御 (Non-Verbal & Pronunciation Control) 自然な会話には笑い声やため息が欠かせません。OmniVoiceは、文章の中に非言語記号を自由に挿入することをサポートしています。例えば、[laughter] は笑い声、[sigh] はため息、[sniff] は鼻をすする音を表します。これにより、最終的な音声出力にリアルな「人間味」が加わります。また、読み間違いやすい言葉や特殊な外国語の単語に遭遇した場合、ピンインやCMU発音辞書を使用して直接強制的に修正することができ、すべての音節を正確に発音させることが可能です。パフォーマンスと実測結果：商用基準を超える驚異的な成績実のところ、モデルの良し悪しは実測データで決まります。OmniVoiceのトレーニングデータ量は58.1万時間に達し、そのすべてがオープンソースリソースから取得されています。この膨大なデータベースにより、前例のない言語カバー率を実現し、数百もの低リソース言語が長年音声技術のサポートを受けられなかった状況を一気に解決しました。実際、トレーニングデータが10時間未満の多くの低リソース言語においても、OmniVoiceは極めて高い音声明瞭度（文字誤り率5%未満）を維持できることが研究で示されています。実際の評価パフォーマンスにおいても、非常に優れた成績を収めています。24言語をカバーする厳格な評価テストにおいて、OmniVoiceは単語誤り率と音声類似度の両方の主要指標で、業界で有名な商用システム ElevenLabs Multilingual v2 や MiniMax を打ち破りました。さらに、現在最も広範な102言語をカバーする FLEURS-Multilingual-102 ベンチマークにおいて、OmniVoiceは平均4.00%という極めて低い文字誤り率を達成しました。このパフォーマンスは、実際の人間の音声と遜色ないレベルです。さらに驚くべきは、その生成速度です。リアルタイム係数 (RTF) は0.025と低く、これは人間の実際の話し方の40倍の速さで演算できることを意味します。そうです、40倍ものスピードアップです。極めて低い遅延が求められるリアルタイム音声インタラクションの場面でも、余裕を持って対応できます。実際に試してみたい？よくある質問とガイド開発者および一般の方向けに、研究チームは非常に充実したオープンソースリソースを提供しています。開発者は pip を通じて簡単にインストールでき、Python APIを使用してシングルまたはマルチGPUでのバッチ推論を行うことができます。複雑なコードを書きたくない一般の方は、Hugging Face Spaceのインタラクティブ・インターフェースや OmniVoice公式デモサイトで、音声クローニングやデザインの魔法をすぐに体験できます。

Apr 3, 2026 Read →

美 …

tool

美団が LongCat-AudioDiT をオープンソース化：波形空間でのテキスト読み上げ技術の限界を突破

従来のスペクトログラムを排除！美団が 35 億パラメータの LongCat-AudioDiT をオープンソース化、波形空間音声生成技術を徹底解析音声合成技術に画期的な進展がありました。美団の LongCat チームは、波形潜在空間で直接動作し、従来のアーキテクチャにおける誤差の累積という課題を完全に解決した、新しい非自己回帰型テキスト読み上げ（TTS）モデル「LongCat-AudioDiT」を正式にリリースしました。本記事では、そのコア技術、独自の最適化手法である適応型投影ガイダンス（APG）、そして開発者に非常に優しいオープンソースリソースについて徹底的に解説します。機械に本物の人間とほとんど区別がつかないような声を合成させることは、これまで非常に困難なエンジニアリングの課題でした。従来の音声合成システムは、入力テキストから音響特徴量へ、さらにその特徴量から音声波形へと、多段階の変換プロセスを経るのが一般的でした。このプロセスは煩雑であるだけでなく、変換の過程で貴重な音声のディテールが失われやすいという欠点がありました。美団（Meituan）の LongCat チームが最新のオープンソースプロジェクトで取り組んだのは、まさにこの課題です。彼らがリリースした LongCat-AudioDiT は、拡散アーキテクチャに基づいた非自己回帰型（NAR）テキスト読み上げ（TTS）モデルです。登場と同時に、驚異的なゼロショット音声クローン能力により、世界中の開発者コミュニティから大きな注目を集めました。正直なところ、その音声再現度は驚くべきレベルに達しています。極めて難易度の高い Seed テストセットにおいて、35 億パラメータを備えた「LongCat-AudioDiT-3.5B」バージョンは、これまでトップ指標とされていた Seed-TTS を上回る成果を上げました。特筆すべきは、複雑な多段階のトレーニングパイプラインを完全に排除し、膨大で手間のかかる高品質な手動アノテーションデータに頼ることなく、極めて簡素化されたワンストップアーキテクチャだけでこの驚異的な成果を達成した点にあります。それでは、この技術の裏側にある工夫をわかりやすく解析していきましょう。メルスペクトログラムとの別れ？波形空間で直接動作する魔力従来の音声拡散モデルは、一つの大きな課題を抱えていました。多くのモデル（有名な F5-TTS など）は、生成プロセスの中間特徴量として「メルスペクトログラム」に大きく依存しています。これは、予測されたスペクトログラムデータを実際の波形に再変換するために、別途「ボコーダー」を備える必要があることを意味します。このプロセスは一見問題なさそうに聞こえますが、実は大きなリスクを孕んでいます。多段階のデータ変換は「誤差の累積」現象を引き起こしやすいのです。一度コピーした紙をさらにコピーするようなもので、複製のたびに本来の鮮明さが失われていきます。音声の分野では、これは高周波の細部が失われ、全体的な音質が低下することを意味します。 LongCat-AudioDiT は、非常にスマートな解決策を提示しました。それは、従来のツールであるメルスペクトログラムを直接排除することです。アーキテクチャ全体は、波形変分自己符号化器（Wav-VAE）と拡散トランスフォーマー（DiT）という 2 つのコアコンポーネントのみで構成されています。トレーニング段階では、元の音声を直接連続的な潜在表現に圧縮します。推論段階では、これらの潜在変数を直接波形にデコードします。これにより処理フローが大幅に簡素化され、音声本来の繊細な質感がそのまま維持されます。推論プロセスの 2 大最適化：音割れと歪みからの救済アーキテクチャの簡素化に加え、LongCat チームは拡散モデルの推論アルゴリズムにも大きな力を注ぎました。彼らは生成プロセスに潜んでいた 2 つの長年の課題を特定し、洗練された解決策を提供しました。 1 つ目の課題は「トレーニングと推論の不一致」です。音声クローンのために音声プロンプトが与えられた際、推論段階におけるプロンプト領域の予測は、計算ステップが進むにつれて本来の軌道から徐々に逸脱していく傾向がありました。時間が経つにつれ、合成された音声は不自然なものになってしまいます。これを修正するために、チームは「強制上書き戦略」を採用しました。各推論ステップにおいて、プロンプト領域の数値を強制的に真のノイズ潜在変数に置き換えるのです。この小さな変更が、モデルの計算軌道を安定させることに成功しました。 2 つ目の革新は、従来の分類器フリーガイダンス（CFG）の置き換えです。CFG は生成品質の向上に顕著な効果がありますが、ガイダンススケールを少し大きくするだけで、音声に「過飽和」なノイズや不快な歪みが生じることが多々ありました。この干渉を解決するために、彼らは「適応型投影ガイダンス（APG）」技術を導入しました。APG はガイダンス信号を賢く分解し、歪みの原因となりやすい平行成分を抑制します。この技術により、生成された音声の自然さが大幅に向上し、全体的な聴覚体験がよりスムーズで心地よいものになりました。意外な実験結果：優れたエンコーダが必ずしも優れた出力をもたらすとは限らない？多くのエンジニアにとって、直感的には「圧縮が精緻であればあるほど、最終的な生成品質も向上する」と考えがちです。しかし、LongCat チームがアブレーション実験（構成要素の削除実験）を行ったところ、極めて反直感的で興味深い現象が発見されました。実験データによると、Wav-VAE の再構成忠実度が向上し、潜在空間の次元が大幅に引き上げられた場合、下流の TTS モデルの生成品質は向上するどころか、逆に低下してしまったのです。過大すぎる潜在次元は、拡散モデルに過度な学習負担を強いるようです。これは非常に重要な示唆です。単一コンポーネントの限界を盲目的に追求することが、必ずしもシステム全体の利益につながるわけではないことを示しています。繰り返しのテストの結果、チームは最終的に完璧な「スイートスポット」を見つけ出しました。潜在空間を 64 次元に設定し、フレームレートを 11.72 Hz と組み合わせたのです。この組み合わせが、演算効率と音質の間の最適なバランスを達成しました。また、多言語テキストの処理においても独創的な工夫が見られます。中国語と英語のバイリンガルをスムーズにサポートするため、チームはテキストエンコーダとして UMT5 を採用しました。興味深いことに、最終層の隠れ状態（hidden state）のみを使用すると、低層にある音声の綴りの詳細が著しく失われ、合成音声の発音の明瞭度が大幅に低下することがわかりました。そこで彼らは、元の単語埋め込み（word embedding）の値と最終層の隠れ状態を巧妙に合算しました。この手法により低層の音声特徴が補完され、発音が極めて明瞭になりました。優れた評価データと開発者に優しいオープンソースリソース技術的な詳細を数多く説明してきましたが、実際のモデルのパフォーマンスはどうなのでしょうか。答えは「非常に優れている」です。LongCat-AudioDiT-3.5B バージョンは、Seed-ZH（中国語）テストセットにおいて話者類似度 0.818 を達成し、Seed-Hard テストセットでも 0.797 という優れたスコアを記録しました。これは多くのクローズドソースの商用モデルを凌駕するだけでなく、オープンソースコミュニティに新たな基準を打ち立てました。

Mar 31, 2026 Read →