従来のスペクトログラムを排除!美団が 35 億パラメータの LongCat-AudioDiT をオープンソース化、波形空間音声生成技術を徹底解析
音声合成技術に画期的な進展がありました。美団の LongCat チームは、波形潜在空間で直接動作し、従来のアーキテクチャにおける誤差の累積という課題を完全に解決した、新しい非自己回帰型テキスト読み上げ(TTS)モデル「LongCat-AudioDiT」を正式にリリースしました。本記事では、そのコア技術、独自の最適化手法である適応型投影ガイダンス(APG)、そして開発者に非常に優しいオープンソースリソースについて徹底的に解説します。
機械に本物の人間とほとんど区別がつかないような声を合成させることは、これまで非常に困難なエンジニアリングの課題でした。従来の音声合成システムは、入力テキストから音響特徴量へ、さらにその特徴量から音声波形へと、多段階の変換プロセスを経るのが一般的でした。このプロセスは煩雑であるだけでなく、変換の過程で貴重な音声のディテールが失われやすいという欠点がありました。
美団(Meituan)の LongCat チームが最新のオープンソースプロジェクトで取り組んだのは、まさにこの課題です。彼らがリリースした LongCat-AudioDiT は、拡散アーキテクチャに基づいた非自己回帰型(NAR)テキスト読み上げ(TTS)モデルです。登場と同時に、驚異的なゼロショット音声クローン能力により、世界中の開発者コミュニティから大きな注目を集めました。
正直なところ、その音声再現度は驚くべきレベルに達しています。極めて難易度の高い Seed テストセットにおいて、35 億パラメータを備えた「LongCat-AudioDiT-3.5B」バージョンは、これまでトップ指標とされていた Seed-TTS を上回る成果を上げました。特筆すべきは、複雑な多段階のトレーニングパイプラインを完全に排除し、膨大で手間のかかる高品質な手動アノテーションデータに頼ることなく、極めて簡素化されたワンストップアーキテクチャだけでこの驚異的な成果を達成した点にあります。
それでは、この技術の裏側にある工夫をわかりやすく解析していきましょう。
メルスペクトログラムとの別れ?波形空間で直接動作する魔力
従来の音声拡散モデルは、一つの大きな課題を抱えていました。多くのモデル(有名な F5-TTS など)は、生成プロセスの中間特徴量として「メルスペクトログラム」に大きく依存しています。これは、予測されたスペクトログラムデータを実際の波形に再変換するために、別途「ボコーダー」を備える必要があることを意味します。
このプロセスは一見問題なさそうに聞こえますが、実は大きなリスクを孕んでいます。多段階のデータ変換は「誤差の累積」現象を引き起こしやすいのです。一度コピーした紙をさらにコピーするようなもので、複製のたびに本来の鮮明さが失われていきます。音声の分野では、これは高周波の細部が失われ、全体的な音質が低下することを意味します。
LongCat-AudioDiT は、非常にスマートな解決策を提示しました。それは、従来のツールであるメルスペクトログラムを直接排除することです。
アーキテクチャ全体は、波形変分自己符号化器(Wav-VAE)と拡散トランスフォーマー(DiT)という 2 つのコアコンポーネントのみで構成されています。トレーニング段階では、元の音声を直接連続的な潜在表現に圧縮します。推論段階では、これらの潜在変数を直接波形にデコードします。これにより処理フローが大幅に簡素化され、音声本来の繊細な質感がそのまま維持されます。
推論プロセスの 2 大最適化:音割れと歪みからの救済
アーキテクチャの簡素化に加え、LongCat チームは拡散モデルの推論アルゴリズムにも大きな力を注ぎました。彼らは生成プロセスに潜んでいた 2 つの長年の課題を特定し、洗練された解決策を提供しました。
1 つ目の課題は「トレーニングと推論の不一致」です。音声クローンのために音声プロンプトが与えられた際、推論段階におけるプロンプト領域の予測は、計算ステップが進むにつれて本来の軌道から徐々に逸脱していく傾向がありました。時間が経つにつれ、合成された音声は不自然なものになってしまいます。これを修正するために、チームは「強制上書き戦略」を採用しました。各推論ステップにおいて、プロンプト領域の数値を強制的に真のノイズ潜在変数に置き換えるのです。この小さな変更が、モデルの計算軌道を安定させることに成功しました。
2 つ目の革新は、従来の分類器フリーガイダンス(CFG)の置き換えです。CFG は生成品質の向上に顕著な効果がありますが、ガイダンススケールを少し大きくするだけで、音声に「過飽和」なノイズや不快な歪みが生じることが多々ありました。
この干渉を解決するために、彼らは「適応型投影ガイダンス(APG)」技術を導入しました。APG はガイダンス信号を賢く分解し、歪みの原因となりやすい平行成分を抑制します。この技術により、生成された音声の自然さが大幅に向上し、全体的な聴覚体験がよりスムーズで心地よいものになりました。
意外な実験結果:優れたエンコーダが必ずしも優れた出力をもたらすとは限らない?
多くのエンジニアにとって、直感的には「圧縮が精緻であればあるほど、最終的な生成品質も向上する」と考えがちです。しかし、LongCat チームがアブレーション実験(構成要素の削除実験)を行ったところ、極めて反直感的で興味深い現象が発見されました。
実験データによると、Wav-VAE の再構成忠実度が向上し、潜在空間の次元が大幅に引き上げられた場合、下流の TTS モデルの生成品質は向上するどころか、逆に低下してしまったのです。過大すぎる潜在次元は、拡散モデルに過度な学習負担を強いるようです。これは非常に重要な示唆です。単一コンポーネントの限界を盲目的に追求することが、必ずしもシステム全体の利益につながるわけではないことを示しています。
繰り返しのテストの結果、チームは最終的に完璧な「スイートスポット」を見つけ出しました。潜在空間を 64 次元に設定し、フレームレートを 11.72 Hz と組み合わせたのです。この組み合わせが、演算効率と音質の間の最適なバランスを達成しました。
また、多言語テキストの処理においても独創的な工夫が見られます。中国語と英語のバイリンガルをスムーズにサポートするため、チームはテキストエンコーダとして UMT5 を採用しました。興味深いことに、最終層の隠れ状態(hidden state)のみを使用すると、低層にある音声の綴りの詳細が著しく失われ、合成音声の発音の明瞭度が大幅に低下することがわかりました。そこで彼らは、元の単語埋め込み(word embedding)の値と最終層の隠れ状態を巧妙に合算しました。この手法により低層の音声特徴が補完され、発音が極めて明瞭になりました。
優れた評価データと開発者に優しいオープンソースリソース
技術的な詳細を数多く説明してきましたが、実際のモデルのパフォーマンスはどうなのでしょうか。
答えは「非常に優れている」です。LongCat-AudioDiT-3.5B バージョンは、Seed-ZH(中国語)テストセットにおいて話者類似度 0.818 を達成し、Seed-Hard テストセットでも 0.797 という優れたスコアを記録しました。これは多くのクローズドソースの商用モデルを凌駕するだけでなく、オープンソースコミュニティに新たな基準を打ち立てました。
世界の開発者コミュニティにとって最も喜ばしいニュースは、リソースの全面的な公開です。美団チームはコードとモデルの重みを完全に公開しており、そこには軽量アプリケーションに適した 1B バージョンと、究極の品質を追求した 3.5B バージョンが含まれています。さらに素晴らしいことに、すべてのリソースは非常に寛容な MIT ライセンスで提供されており、誰でも自由に利用・変更が可能です。
必要な重みは、LongCat-AudioDiT HuggingFace ページから直接ダウンロードできます。完全なアーキテクチャを確認したい場合は、LongCat-AudioDiT GitHub プロジェクトページにも非常に詳細な説明とスクリプトが用意されています。
自身の環境で素早く実装したい場合、公式が提供している Python API インターフェースは非常に直感的です。わずか数行のコードで、モデルを簡単にロードして音声合成を開始できます。
from audiodit import AudioDiTModel
# 1B モデルをロードし、メモリ節約のために fp16 推論を有効にする
model = AudioDiTModel.from_pretrained("meituan-longcat/LongCat-AudioDiT-1B").to("cuda")
model.vae.to_half()
# 続けてテキストとプロンプト音声を渡せば、音声生成タスクを開始できます
開発者からよくある技術的な質問 (FAQ)
より早く使いこなせるよう、コミュニティで関心の高い技術的な疑問を、論文の内容に基づき整理しました。
Q: 多言語処理の際、なぜ広く普及している ByT5 をテキストエンコーダとして使用しなかったのですか? A: ByT5 は対応言語が非常に多い一方で、バイトレベルのトークン化方式を採用しています。これにより、中国語などの言語ではシーケンスの長さが異常に膨大になり、演算速度を低下させるだけでなく、トレーニング時のアライメント(対応付け)を困難にします。UMT5 はサブワードトークン化を使用しており、シーケンス長が比較的合理的で、このアーキテクチャの実用的なニーズに完璧に合致しています。
Q: 一般的なコンシューマー向けグラフィックボードでこのモデルを動かせますか? A: 全く問題ありません。それが、公式が同時に 2 つのバージョンをリリースした理由でもあります。ハードウェアリソースが限られている場合は、1B パラメータバージョンを優先し、半精度(fp16)演算を組み合わせることで、最新のコンシューマー向け GPU の多くでスムーズに推論を実行できます。商用レベルの完璧な音質を追求したい場合に、サーバーリソースを投入して 3.5B バージョンを動かすことを検討してください。
Q: モデルで使用されている REPA モジュールは、最終的な音質に直接貢献しますか? A: 公式の実験観察によると、REPA (Representation Alignment) モジュールは生成される音質を直接向上させるものではありません。しかし、トレーニング初期の収束速度を大幅に早めるという、極めて重要な役割を果たしています。これは、自身で微調整(ファインチューニング)を行ったり、ゼロからトレーニングしたりしたい開発者にとって、計算コストと時間を大幅に節約できることを意味します。
まとめと次なる技術的探究
LongCat-AudioDiT の登場は、波形レベルの潜在モデリングが、従来の中間特徴量よりも広い発展の可能性を秘めていることを力強く証明しました。最も純粋なアーキテクチャを用いることで、音声合成分野を長年悩ませてきた複雑さの問題を解決したのです。
公式 X(旧 Twitter)プラットフォームでの発表を通じて、このチームの将来の野心を垣間見ることができます。彼らは、タイムラインの対応関係に依存しない強化学習(音声用 RLHF)技術を導入し、音声生成の自然さの限界をさらに押し上げる計画を立てています。同時に、リアルタイムアプリケーションの膨大なニーズに応えるため、知識蒸留による推論速度の大幅な高速化も、今後の開発ロードマップに組み込まれています。
未来の音声生成技術がどのような驚きをもたらしてくれるのか、期待して待ちましょう。


