美團開源 LongCat-AudioDiT：突破極限的波形空間文字轉語音技術解析

拋棄傳統頻譜！美團開源 35 億參數 LongCat-AudioDiT，透徹解析波形空間語音生成技術

語音合成技術迎來突破性進展。美團 LongCat 團隊正式推出全新非自迴歸文字轉語音模型 LongCat-AudioDiT，直接在波形潛在空間運作，徹底解決傳統架構的錯誤累積痛點。本文將為開發者全面剖析其核心技術、自適應投影引導 (APG) 的獨家優化，以及極度友善的開源資源。

你知道嗎？要讓機器合成出幾乎和真人一模一樣的聲音，過去總是一件讓人感到棘手的工程挑戰。傳統的語音合成系統通常需要經過層層轉換手續，從輸入文字到聲學特徵，再費盡心力從特徵轉回聲音波形。這不僅整體流程十分繁瑣，還常常在轉換過程中無形流失掉極其珍貴的聲音細節。

這正是美團 LongCat 團隊最新開源專案想要攻克的難關。他們推出了 LongCat-AudioDiT，這是一個基於擴散架構的非自迴歸 (NAR) 文字轉語音 (TTS) 模型。它一出場便憑藉著驚人的零樣本語音複製能力，迅速吸引了全球開發者社群的目光。

老實說，它展現出的聲音還原度確實讓人十分驚豔。在極具挑戰性的 Seed 測試集中，包含 35 億參數的 LongCat-AudioDiT-3.5B 版本，成功超越了先前被視為頂尖指標的 Seed-TTS。最難得的是，它完全屏棄了複雜的多階段訓練管道，也沒有使用大量耗時耗力的人工標註高品質資料。研發團隊單純依靠一個極度簡化的一站式架構，就完美達成了這項驚人成就。

接下來，就讓我們直白地解析這項技術背後的精妙之處。

告別梅爾頻譜？來看看直接在波形空間運作的魔力

傳統語音擴散模型往往面臨一個難以擺脫的痛點。多數模型（例如知名的 F5-TTS）都極度依賴「梅爾頻譜圖」作為生成過程的中間特徵。這代表系統必須配備一個額外的聲碼器，才能將預測出的頻譜數據重新轉換回真實波形。

這個過程聽起來可能沒什麼大不了，但其實暗藏危機。多階段的數據轉換非常容易產生「錯誤累積」現象。你可以想像成拿著一張影印過的紙再拿去影印，每一次複製都會不可避免地流失掉原本的清晰度。在語音領域，這就意味著高頻細節的丟失與整體音質的衰退。

LongCat-AudioDiT 提出了一個極其俐落的解法。他們選擇直接拋棄梅爾頻譜這項傳統工具。

整個架構只保留了兩個核心元件。第一個是波形變分自編碼器 (Wav-VAE)，第二個則是擴散 Transformer (DiT)。模型在訓練階段，會直接將原始音訊壓縮成連續的潛在表示法。等到進入推理階段時，再直接把這些潛在變數解碼成波形。這大幅簡化了處理流程，同時原汁原味地保留了聲音原有的細膩質地。

推理過程的兩大神級優化，拯救破音與失真

除了架構上的精簡，LongCat 團隊在擴散模型的推理演算法上也下了很大功夫。他們揪出了兩個長期潛伏在生成過程中的隱患，並給出了非常優雅的解決方案。

第一個痛點是「訓練與推理不匹配」的問題。當我們給定一段音訊提示來進行語音複製時，擴散模型在推理階段對於提示區域的預測，往往會隨著計算步驟的增加而逐漸偏離真實軌跡。時間一長，合成出來的聲音就會變得不自然。為了修正這個盲點，團隊採取了一種強制覆蓋策略。他們在每一個推理步驟中，都會把提示區域的數值強制替換回真實的噪聲潛在變數。這個小小的改動，成功穩定了模型的運算軌道。

第二個創新則是替換掉傳統的無分類器引導 (CFG)。不可否認，CFG 在提升生成品質上有著顯著效果。但只要稍微放大引導比例，聲音常常會出現「過度飽和」的雜音與惱人失真。

為了解決這項干擾，他們引入了自適應投影引導 (APG) 技術。APG 能夠聰明地拆解引導訊號，並針對容易造成失真的平行分量進行抑制。這項技術大幅提升了生成語音的自然度，讓整體的聽覺體驗變得更加平滑順耳。

跌破眼鏡的實驗結果，更好的編碼器不一定等於更好的輸出？

對許多工程師來說，直覺總是告訴我們「壓縮得越精緻，最終生成的品質就越好」。然而，LongCat 團隊在進行消融實驗時，卻發現了一個極度反直覺的有趣現象。

實驗數據顯示，當 Wav-VAE 的重建保真度越高，也就是潛在空間的維度被大幅拉高時，下游 TTS 模型的生成品質居然不增反降。過於龐大的潛在維度，似乎給擴散模型帶來了難以承受的學習負擔。這點非常關鍵。這說明了盲目追求單一元件的極限，並不一定能為整體系統帶來好處。

經過反覆測試，團隊最終找到了一個完美的「甜蜜點」。他們將潛在空間設定為 64 維度，並搭配 11.72 Hz 的幀率。這個組合成功在運算效率與聲音品質之間取得了最佳平衡。

在處理多語言文本時，他們也展現了獨到的巧思。為了順暢支援中英文雙語，團隊選用了 UMT5 作為文本編碼器。有趣的是，他們發現如果只單純使用最後一層的隱藏狀態，會嚴重流失底層的語音拼寫細節，導致合成語音的咬字清晰度大幅下降。因此，他們巧妙地將原始詞嵌入數值與最後一層隱藏狀態進行加總。這個做法有效補足了底層語音特徵，讓發音變得清晰無比。

亮眼評測數據與對開發者極度友善的開源資源

講述了這麼多技術細節，這套模型的實際表現究竟如何？

答案是非常出色。LongCat-AudioDiT-3.5B 版本在 Seed-ZH (中文) 測試集中的說話人相似度達到了 0.818，而在 Seed-Hard 測試集中也拿下了 0.797 的優異成績。這不僅超越了眾多閉源商業模型，更為開源社群樹立了全新的標準。

對於全球的開發者社群而言，最令人振奮的消息莫過於資源的全面開放。美團團隊將程式碼與模型權重完全公開，其中包含了適合輕量級應用的 1B 版本，以及追求極致品質的 3.5B 版本。更棒的是，所有資源皆採用極度友善的 MIT 授權條款，任何人都能自由使用與修改。

你可以直接前往 LongCat-AudioDiT HuggingFace 頁面下載所需權重。如果想一窺完整架構，LongCat-AudioDiT GitHub 專案頁面也提供了極為詳細的說明與指令碼。

若你想在自己的環境中快速實作，官方提供的 Python API 介面非常直覺。只需短短幾行程式碼，就能輕鬆載入模型並開始合成聲音：

from audiodit import AudioDiTModel

# 載入 1B 模型，並開啟 fp16 推理以節省顯示記憶體
model = AudioDiTModel.from_pretrained("meituan-longcat/LongCat-AudioDiT-1B").to("cuda")
model.vae.to_half() 

# 接下來便能傳入文本與提示音訊，開始你的語音生成任務

開發者常問的技術細節解答 (FAQ)

為了讓大家更快上手，這裡整理了幾個社群討論度極高的技術疑問，並結合論文內容為各位解答。

問：處理多語言時，為什麼不直接使用廣受歡迎的 ByT5 作為文本編碼器？ 答：雖然 ByT5 支援的語言種類繁多，但它採用了位元組級別的標記方式。這會導致中文等語言的序列長度變得異常龐大，不僅拖累運算速度，還會造成訓練對齊上的困難。UMT5 使用子詞標記，序列長度相對合理許多，完美契合了這個架構的實際需求。

問：一般消費級顯示卡跑得動這個模型嗎？ 答：完全沒有問題。這也是官方同時釋出兩個版本的原因。如果硬體資源有限，建議優先使用 1B 參數版本，搭配半精度 (fp16) 運算，便能在多數現代消費級 GPU 上順暢執行推理。若想追求商業級的完美音質，再考慮動用伺服器資源來運行 3.5B 版本。

問：模型中使用的 REPA 模組，對最終的聲音品質有直接幫助嗎？ 答：根據官方的實驗觀察，REPA (Representation Alignment) 模組並不會直接提升生成的音質。但它扮演著另一個極度關鍵的角色，那就是大幅加快訓練初期的收斂速度。這對想要自行微調或從頭訓練的開發者來說，能省下極為可觀的運算成本與時間。

總結與下一步的技術探索

LongCat-AudioDiT 的出現，強而有力地證明了波形級別的潛在建模，確實比傳統的中介特徵擁有更廣闊的發展潛力。它用最純粹的架構，解決了長久以來困擾語音合成領域的複雜度問題。

透過這份官方 X 平台發布公告，我們可以窺見這支團隊未來的野心。他們正計畫導入不依賴時間軸對應的強化學習 (RLHF for audio) 技術，來進一步推升語音生成的自然度上限。同時，為了滿足即時應用的龐大需求，透過知識蒸餾來大幅加快推理速度，也已經被列入了接下來的開發藍圖中。

未來的語音生成技術還會帶來什麼樣的驚喜？讓我們拭目以待。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

O …

tool

OmniVoice：支援 600+ 語言的頂尖零樣本 TTS 模型

打破語言界線！全面解析支援超過 600 種語言的零樣本 TTS 模型 OmniVoice AI 語音合成技術有了全新突破。OmniVoice 挾帶強大的單階段擴散語言模型架構，不僅支援超過六百種語言，還具備無中生有的聲音設計與**生動的非語言聲音控制（如笑聲、嘆氣等）**能力。這篇文章將帶大家一探這款全新語音模型的技術核心與實測表現。你知道嗎？目前的 AI 語音合成技術確實很迷人。只要給機器幾秒鐘的錄音，它就能模仿出極其相似的嗓音。問題就在這裡，現有的模型往往卡在三個難關，包含支援的語言數量少得可憐，兩階段生成的過程容易累積錯誤，而且很難憑空創造出全新的聲音。為了解決這些長久以來的痛點，開源社群帶來了一個震撼業界的新作品 OmniVoice。這是一個支援超過 600 種語言的巨型多語系零樣本文字轉語音模型。它成功跨越了過去難以克服的語言壁壘。大家只要前往 OmniVoice 的 GitHub 頁面或是 Hugging Face 專案就能發現，它在生成速度、音質與可控性上都立下了全新標準。核心技術突破：為何這款模型如此強大？這款模型背後的技術究竟有何奧秘？這裡來解釋一下。過去評價極高的離散標記非自迴歸模型，通常依賴一套複雜的兩階段流程。意思是系統會先將文字轉換為語義特徵，接著再把語義轉換為聲學特徵。這樣的做法非常容易造成錯誤不斷傳遞，低位元率的語義特徵也會讓聲音的微小細節跟著流失。 OmniVoice 採用了極簡卻極致強大的單階段架構來突圍。擴散語言模型架構 (Diffusion Language Model) 它跳過了繁瑣的中間步驟，直接將文字對應到多碼本的聲學標記上。具體來說，OmniVoice 採用了 Higgs-audio tokenizer 來萃取 8 個碼本 (8-codebook) 的聲學標記。這個聰明的設計徹底避開了傳統模型的資訊流失問題，讓聲音保留了最原始的純粹感。大型語言模型初始化 (LLM Initialization) 單階段模型過去常遇到發音不夠清晰的致命傷。研究團隊想到了一個絕妙的解法，也就是將預訓練的大型語言模型 Qwen3-0.6B 權重，直接導入 OmniVoice 的骨幹中。就像是讓 AI 提早讀完字典一樣，它直接繼承了強大的語言邏輯，大幅提升了語音的清晰度與理解力。全碼本隨機遮罩 (Full-Codebook Random Masking) 傳統的逐層遮罩方法經常導致訓練效率低落。OmniVoice 首創在所有碼本層進行隨機遮罩。這看似微小的改變，卻讓整體訓練效率和最終生成的品質都得到顯著的躍升。四大亮點功能：從單純的模仿走向真正的聲音創造除了硬核技術，這款模型在實際應用上的表現也同樣令人驚豔。它提供了多維度的控制能力，完美對應了真實世界的各種複雜需求。極速的聲音複製 (Voice Cloning) 這項功能相當直覺。只需要提供一段極短的參考音檔與逐字稿，模型就能完美複製說話者的音色與獨特風格。就算手邊剛好沒有逐字稿也沒關係，模型會自動呼叫 Whisper 進行辨識，整個過程一氣呵成。無中生有的聲音設計 (Voice Design) 如果完全沒有參考音檔呢？這正是 OmniVoice 最有趣的地方。使用者可以直接透過文字來設計聲音，這就像是玩遊戲時的「捏臉」系統。只要輸入描述屬性的提示詞，例如「女性、低音、英國腔」，模型立刻就能合成出完全符合這些特徵的獨特嗓音。強大的提示詞降噪 (Prompt Denoising) 現實生活中的錄音環境往往很不理想。一般人錄製的參考音檔經常伴隨著惱人的背景噪音或空間迴音。大家平常錄音時應該都有遇過冷氣運轉聲或是窗外車流聲干擾的經驗。OmniVoice 內建了強大的降噪能力，能把說話者的音色與背景噪音成功拆解開來。這意味著，即使丟給它一段極度吵雜的音檔，它依然能為大家生成乾淨、高保真的語音。

Apr 3, 2026 Read →

M …

tool

Mistral Voxtral TTS 深度解析：4B 輕量語音模型、超低延遲與跨語言聲音複製

Mistral AI 推出輕量級文字轉語音模型 Voxtral TTS：自然度與低延遲的完整解析語音人工智慧的發展一直備受矚目。過去的語音助理聽起來總是有些生硬。現在情況有了有趣的轉變。Mistral AI 正式發布了首款文字轉語音模型 Voxtral TTS。這款模型只有 4B 的輕量級參數規模。雖然體積小巧，它在多語種生成的自然度與成本效益上卻表現得相當優異。老實說，要讓機器開口說話並不難，難的是讓它聽起來像個真正的人。對於想要擁有專屬語音人工智慧技術的企業或開發團隊來說，Voxtral 提供了一個前所未有的強大工具。連諷刺語氣都聽得懂：充滿豐富情感與個性的語音表達傳統的語音合成往往只是單純地把文字轉換成聲音。Voxtral TTS 選擇了一條截然不同的路。這款模型具備非常出色的語境理解能力。當文本中帶有幽默或是諷刺意味時，它會自動調整語氣。它能根據上下文判斷該使用開心的、中性的還是帶有情緒的聲線來朗讀。更令人印象深刻的是它的細節捕捉能力。它能夠精準模仿說話者特有的停頓與節奏。語調的起伏也處理得極為自然。這種高度人性化的表現，讓生成的語音充滿了真實感。只要三秒鐘：令人驚豔的跨語言聲音複製魔法大家可能會好奇，複製一個人的聲音需要準備多少龐大的資料？答案是短短的三秒鐘。只需提供一小段參考音訊，Voxtral TTS 就能迅速適應全新的聲音特徵。目前這款模型支援九種主流語言。這包含了英語、法語、德語、西班牙語、荷蘭語、葡萄牙語、義大利語、印地語以及阿拉伯語。它甚至涵蓋了多種不同的方言。這裡有一個非常有趣的應用場景。其實有一個很有趣的現象，人類的大腦對於口音非常敏感，稍微不自然的發音就會讓人出戲。假設輸入一段法語人聲作為提示，接著要求模型朗讀英文文本。生成的語音會自然地帶有法國口音的英語。這項功能對於打造串聯式語音翻譯系統來說，無疑是一個極大的亮點。想要親自體驗這種神奇的效果，可以直接前往官方的 Mistral Studio 測試場 (Playground)、Le Chat，或是 Mistral AI 的 Hugging Face 測試空間試玩看看。反應時間只需眨眼瞬間：專為串流打造的極低延遲對於即時語音助理而言，反應速度決定了使用者體驗的好壞。Voxtral TTS 是一款輕量級模型。這聽起來似乎意味著功能有限。然而事實恰好相反，它的表現超越了許多體積龐大的系統。在處理典型的 10 秒長度與 500 字元輸入時，它的首字元音訊延遲時間僅需 70 毫秒。這個數字相當驚人。這意味著系統幾乎可以在瞬間給出回應。根據人類聽覺盲測評估結果顯示，它的自然度成功超越了競爭對手 ElevenLabs v2.5 Flash。同時它在整體聲音品質上也達到了與 ElevenLabs v3 齊平的水準。模型在追求極低延遲的同時，完全沒有犧牲掉聲音的細緻度。揭開引擎蓋：輕巧卻強大的模型架構這背後的技術原理其實非常迷人。Voxtral TTS 是建立在 Ministral 3B 的基礎之上。它採用了自迴歸與流匹配架構。整個系統包含了一個 3.4B 參數的 Transformer 解碼器骨幹。旁邊還搭配了一個 390M 參數的流匹配聲學 Transformer。 Mistral 內部團隊還特別開發了一個 300M 的神經音訊編解碼器。這樣的精巧設計確保了企業在維持高品質生成的同時，還能有效控制整體的運算成本。

Mar 27, 2026 Read →

告 …

tool

告別死板 AI 語音：Fish Audio S2 開源模型完整解析與實測指南

探索 Fish Audio S2 如何透過自然語言標籤實現精細的情緒控制，並以百毫秒級的超低延遲重新定義文本轉語音技術，帶給開發者與創作者前所未有的創作自由。老實說，大家過去在聽有聲書或語音導覽時，肯定都遇過那種聽起來像機器人般生硬的聲音。早期文本轉語音技術雖然堪用，但總是少了一點人情味。不過，最近的技術演進確實令人驚豔。Fish Audio 正式開源了 S2 模型，這無疑為語音生成領域注入了一股全新活力。這套系統背後有超過 1000 萬小時的音訊資料撐腰。它不僅僅是發布一個模型權重，更是一個包含微調程式碼與生產級推理引擎的完整生態。說到這裡，大家可能會好奇它到底有什麼不同，以及能為日常開發或創作帶來哪些實際幫助。讓我們一步步拆解這套模型的獨特之處。讓 AI 真的聽懂情緒：這套行內控制有何魔力？過去的語音模型多半只能套用固定的情緒預設值，用起來總覺得綁手綁腳。這時候，大家最常問的一個問題是：系統究竟支援哪些音訊標籤？答案可能會讓人有點驚訝。S2 根本不依賴那些固定寫死的預定義標籤。相反地，它接受自由格式的自然語言描述。使用者可以直接在句子中間插入指令，這被稱為精細化行內控制。想像一下這個畫面：只要在腳本中輸入 [whisper in small voice]（小聲耳語）或是 [professional broadcast tone]（專業播音腔），系統就會立刻調整語氣。這就像是給 AI 遞了一張導演的字條，讓它在詞彙級別進行開放式的情感表達。你可以看看下面這段虛擬的劇本對話範例，感受一下它的彈性： <speaker:0> [excited] 這真的是太神奇了！ <speaker:1> [laugh] 沒錯，你可以複製任何聲音。 <speaker:2>[whisper in small voice] 你覺得它聽起來像真人嗎？看到這裡，另一個常見的疑問自然浮現：多發言人對話生成是如何運作的？其實非常直觀。就像上面的範例一樣，只要透過標籤指定發言人，系統允許在單次生成中處理多個說話者。這種無縫切換的特性，讓製作 Podcast、遊戲配音或多人有聲書變得輕而易舉。揭開技術面紗：雙自回歸架構怎麼解決延遲？雖然操作起來很直觀，但 S2 骨子裡卻有著非常扎實的工程底子。核心技術在於其獨特的雙自回歸（Dual-AR）架構。這聽起來有點學術，讓我們換個方式解釋。這套架構包含兩個主要部分。首先是負責「慢速」運行的 Slow AR，擁有 40 億參數，它的工作是沿著時間軸預測主要的語意。接下來是 Fast AR，僅有 4 億參數，負責在每個時間步生成剩餘的殘差，重建出精細的聲學細節。大家可能會認為，放了這麼多參數，處理速度一定會被嚴重拖垮。事實恰恰相反。這種非對稱的設計，巧妙地在保持音訊保真度的同時，確保了極高的推理效率。此外，開發團隊解決了一個長期困擾語音系統的結構性痛點。通常，預訓練資料與後續訓練目標之間會出現分布不一致的問題。S2 的作法非常聰明，他們將資料清洗階段用來過濾和評分的模型，直接拿來當作語音強化學習階段的獎勵模型。這種一魚兩吃的策略，從根本上消除了分布差異，讓最終產出的聲音更加自然貼切。實戰跑分與百毫秒級的流式傳輸講了這麼多技術細節，這套系統在實際應用上的表現究竟如何？數據會說話。在音訊圖靈測試中，S2 的後驗均值達到 0.515，大幅超越了 Seed-TTS 的 0.417 與 MiniMax-Speech 的 0.387。在綜合評估上，它甚至達到了 81.88% 的勝率。這樣的成績確實讓許多閉源系統感到壓力。

Mar 11, 2026 Read →