tool

美團開源 LongCat-AudioDiT:突破極限的波形空間文字轉語音技術解析

March 31, 2026
Updated Mar 31
1 min read

拋棄傳統頻譜!美團開源 35 億參數 LongCat-AudioDiT,透徹解析波形空間語音生成技術

語音合成技術迎來突破性進展。美團 LongCat 團隊正式推出全新非自迴歸文字轉語音模型 LongCat-AudioDiT,直接在波形潛在空間運作,徹底解決傳統架構的錯誤累積痛點。本文將為開發者全面剖析其核心技術、自適應投影引導 (APG) 的獨家優化,以及極度友善的開源資源。

你知道嗎?要讓機器合成出幾乎和真人一模一樣的聲音,過去總是一件讓人感到棘手的工程挑戰。傳統的語音合成系統通常需要經過層層轉換手續,從輸入文字到聲學特徵,再費盡心力從特徵轉回聲音波形。這不僅整體流程十分繁瑣,還常常在轉換過程中無形流失掉極其珍貴的聲音細節。

這正是美團 LongCat 團隊最新開源專案想要攻克的難關。他們推出了 LongCat-AudioDiT,這是一個基於擴散架構的非自迴歸 (NAR) 文字轉語音 (TTS) 模型。它一出場便憑藉著驚人的零樣本語音複製能力,迅速吸引了全球開發者社群的目光。

老實說,它展現出的聲音還原度確實讓人十分驚豔。在極具挑戰性的 Seed 測試集中,包含 35 億參數的 LongCat-AudioDiT-3.5B 版本,成功超越了先前被視為頂尖指標的 Seed-TTS。最難得的是,它完全屏棄了複雜的多階段訓練管道,也沒有使用大量耗時耗力的人工標註高品質資料。研發團隊單純依靠一個極度簡化的一站式架構,就完美達成了這項驚人成就。

接下來,就讓我們直白地解析這項技術背後的精妙之處。

告別梅爾頻譜?來看看直接在波形空間運作的魔力

傳統語音擴散模型往往面臨一個難以擺脫的痛點。多數模型(例如知名的 F5-TTS)都極度依賴「梅爾頻譜圖」作為生成過程的中間特徵。這代表系統必須配備一個額外的聲碼器,才能將預測出的頻譜數據重新轉換回真實波形。

這個過程聽起來可能沒什麼大不了,但其實暗藏危機。多階段的數據轉換非常容易產生「錯誤累積」現象。你可以想像成拿著一張影印過的紙再拿去影印,每一次複製都會不可避免地流失掉原本的清晰度。在語音領域,這就意味著高頻細節的丟失與整體音質的衰退。

LongCat-AudioDiT 提出了一個極其俐落的解法。他們選擇直接拋棄梅爾頻譜這項傳統工具。

整個架構只保留了兩個核心元件。第一個是波形變分自編碼器 (Wav-VAE),第二個則是擴散 Transformer (DiT)。模型在訓練階段,會直接將原始音訊壓縮成連續的潛在表示法。等到進入推理階段時,再直接把這些潛在變數解碼成波形。這大幅簡化了處理流程,同時原汁原味地保留了聲音原有的細膩質地。

推理過程的兩大神級優化,拯救破音與失真

除了架構上的精簡,LongCat 團隊在擴散模型的推理演算法上也下了很大功夫。他們揪出了兩個長期潛伏在生成過程中的隱患,並給出了非常優雅的解決方案。

第一個痛點是「訓練與推理不匹配」的問題。當我們給定一段音訊提示來進行語音複製時,擴散模型在推理階段對於提示區域的預測,往往會隨著計算步驟的增加而逐漸偏離真實軌跡。時間一長,合成出來的聲音就會變得不自然。為了修正這個盲點,團隊採取了一種強制覆蓋策略。他們在每一個推理步驟中,都會把提示區域的數值強制替換回真實的噪聲潛在變數。這個小小的改動,成功穩定了模型的運算軌道。

第二個創新則是替換掉傳統的無分類器引導 (CFG)。不可否認,CFG 在提升生成品質上有著顯著效果。但只要稍微放大引導比例,聲音常常會出現「過度飽和」的雜音與惱人失真。

為了解決這項干擾,他們引入了自適應投影引導 (APG) 技術。APG 能夠聰明地拆解引導訊號,並針對容易造成失真的平行分量進行抑制。這項技術大幅提升了生成語音的自然度,讓整體的聽覺體驗變得更加平滑順耳。

跌破眼鏡的實驗結果,更好的編碼器不一定等於更好的輸出?

對許多工程師來說,直覺總是告訴我們「壓縮得越精緻,最終生成的品質就越好」。然而,LongCat 團隊在進行消融實驗時,卻發現了一個極度反直覺的有趣現象。

實驗數據顯示,當 Wav-VAE 的重建保真度越高,也就是潛在空間的維度被大幅拉高時,下游 TTS 模型的生成品質居然不增反降。過於龐大的潛在維度,似乎給擴散模型帶來了難以承受的學習負擔。這點非常關鍵。這說明了盲目追求單一元件的極限,並不一定能為整體系統帶來好處。

經過反覆測試,團隊最終找到了一個完美的「甜蜜點」。他們將潛在空間設定為 64 維度,並搭配 11.72 Hz 的幀率。這個組合成功在運算效率與聲音品質之間取得了最佳平衡。

在處理多語言文本時,他們也展現了獨到的巧思。為了順暢支援中英文雙語,團隊選用了 UMT5 作為文本編碼器。有趣的是,他們發現如果只單純使用最後一層的隱藏狀態,會嚴重流失底層的語音拼寫細節,導致合成語音的咬字清晰度大幅下降。因此,他們巧妙地將原始詞嵌入數值與最後一層隱藏狀態進行加總。這個做法有效補足了底層語音特徵,讓發音變得清晰無比。

亮眼評測數據與對開發者極度友善的開源資源

講述了這麼多技術細節,這套模型的實際表現究竟如何?

答案是非常出色。LongCat-AudioDiT-3.5B 版本在 Seed-ZH (中文) 測試集中的說話人相似度達到了 0.818,而在 Seed-Hard 測試集中也拿下了 0.797 的優異成績。這不僅超越了眾多閉源商業模型,更為開源社群樹立了全新的標準。

對於全球的開發者社群而言,最令人振奮的消息莫過於資源的全面開放。美團團隊將程式碼與模型權重完全公開,其中包含了適合輕量級應用的 1B 版本,以及追求極致品質的 3.5B 版本。更棒的是,所有資源皆採用極度友善的 MIT 授權條款,任何人都能自由使用與修改。

你可以直接前往 LongCat-AudioDiT HuggingFace 頁面 下載所需權重。如果想一窺完整架構,LongCat-AudioDiT GitHub 專案頁面 也提供了極為詳細的說明與指令碼。

若你想在自己的環境中快速實作,官方提供的 Python API 介面非常直覺。只需短短幾行程式碼,就能輕鬆載入模型並開始合成聲音:

from audiodit import AudioDiTModel

# 載入 1B 模型,並開啟 fp16 推理以節省顯示記憶體
model = AudioDiTModel.from_pretrained("meituan-longcat/LongCat-AudioDiT-1B").to("cuda")
model.vae.to_half() 

# 接下來便能傳入文本與提示音訊,開始你的語音生成任務

開發者常問的技術細節解答 (FAQ)

為了讓大家更快上手,這裡整理了幾個社群討論度極高的技術疑問,並結合論文內容為各位解答。

問:處理多語言時,為什麼不直接使用廣受歡迎的 ByT5 作為文本編碼器? 答:雖然 ByT5 支援的語言種類繁多,但它採用了位元組級別的標記方式。這會導致中文等語言的序列長度變得異常龐大,不僅拖累運算速度,還會造成訓練對齊上的困難。UMT5 使用子詞標記,序列長度相對合理許多,完美契合了這個架構的實際需求。

問:一般消費級顯示卡跑得動這個模型嗎? 答:完全沒有問題。這也是官方同時釋出兩個版本的原因。如果硬體資源有限,建議優先使用 1B 參數版本,搭配半精度 (fp16) 運算,便能在多數現代消費級 GPU 上順暢執行推理。若想追求商業級的完美音質,再考慮動用伺服器資源來運行 3.5B 版本。

問:模型中使用的 REPA 模組,對最終的聲音品質有直接幫助嗎? 答:根據官方的實驗觀察,REPA (Representation Alignment) 模組並不會直接提升生成的音質。但它扮演著另一個極度關鍵的角色,那就是大幅加快訓練初期的收斂速度。這對想要自行微調或從頭訓練的開發者來說,能省下極為可觀的運算成本與時間。

總結與下一步的技術探索

LongCat-AudioDiT 的出現,強而有力地證明了波形級別的潛在建模,確實比傳統的中介特徵擁有更廣闊的發展潛力。它用最純粹的架構,解決了長久以來困擾語音合成領域的複雜度問題。

透過這份官方 X 平台發布公告,我們可以窺見這支團隊未來的野心。他們正計畫導入不依賴時間軸對應的強化學習 (RLHF for audio) 技術,來進一步推升語音生成的自然度上限。同時,為了滿足即時應用的龐大需求,透過知識蒸餾來大幅加快推理速度,也已經被列入了接下來的開發藍圖中。

未來的語音生成技術還會帶來什麼樣的驚喜?讓我們拭目以待。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.