tool

dots.tts 完整解析:拋棄離散 Token 的新一代開源 TTS 語音合成模型

June 29, 2026
Updated Jun 29
1 min read

拋棄離散 Token 解析開源語音合成新星 dots.tts 的全連續架構與實用技巧

許多人可能會好奇,語音合成技術發展至今,是否已經遇到瓶頸?老實說,開源社群最近出現了一個極具話題性的新面孔,也就是由小紅書(RedNote)推出的 dots.tts。這款模型擁有高達 20 億(2B)參數,並且採用了完全連續(Fully Continuous)的架構設計。這聽起來可能有些抽象,但簡單來說,它完全捨棄了過去常見的離散 Token,讓聲音的生成變得前所未有的滑順自然。

對於想要親自體驗這項技術的開發者,可以直接參考 dots.tts 官方展示頁面,或是前往 dots.tts GitHub 專案 獲取原始碼。這項專案基於 Apache-2.0 協議開源,這意味著它對商業授權非常友善。

接下來,就讓我們一探究竟,看看這個引發熱烈討論的系統到底藏著什麼秘密。

為什麼放棄離散 Token?揭開全流程架構的秘密

傳統的語音合成系統,多半會採用音訊離散化(Quantization)技術。這就像是把一張高畫質的漸層圖片,強制轉換成只有幾種顏色的 8-bit 像素圖。這個過程無可避免地會流失掉許多細節。

dots.tts 的出現,正是為了解決這個痛點。它採用了一種從文本直接生成連續音訊潛變量的全流程設計。整個運作機制建立在幾個關鍵組件的緊密結合之上:

首先是負責處理音訊的 AudioVAE。這是一個以 48kHz 運作的模組,專門把單聲道波形壓縮成連續潛變量,確保最終輸出的聲音保留極高的逼真度與細節。接著是語言模型骨幹(Backbone),它初始化自 Qwen2.5-1.5B-Base。特別的是,這個語言模型不處理傳統的音素(Phoneme),而是直接讀取 BPE 文本,藉此生成對應的隱藏狀態。

那麼,要怎麼把文字跟音訊連接起來呢?這裡就得依靠因果語義編碼器(Causal Semantic Encoder)。它會剝離掉聲音中變動性太高、過於瑣碎的聲學細節,讓語言模型能更專注理解整段話的意思與連貫性。最後,再交由自迴歸流匹配頭(AR Flow-matching Head)在連續空間中進行逐塊(Patch-by-patch)的預測與去噪。

這種連續建模的方式,徹底避開了量化失真的問題。這確實是一個相當聰明的作法。

評測數據說話:這款模型的實力究竟如何?

客觀的測試數據往往最能反映真實能力。在 Seed-TTS-Eval 綜合評測中,這款系統在零樣本(Zero-shot)語音克隆的表現相當亮眼。

與其他規模相近的模型相比,例如 1.5B 參數的 CosyVoice 3 或是 1.7B 的 Qwen3-TTS,dots.tts 在中文測試集的錯誤率(WER)降到了 0.94%,而平均說話者相似度(SIM)則高達 79.2。這不僅超越了同級別的開源模型,在多語言測試中同樣維持著極高的穩定性。

更讓人驚豔的是它在 Emergent-TTS-Eval 評測中的表現力。當面對語法複雜度極高的語句時,它取得了 65.7% 的高分,甚至超越了部分知名的閉源商用系統。同時,在情感表達(Emotions)的項目上,它也拿下了 72.7% 的成績。這意味著生成的語音不再是冷冰冰的機器聲,它能夠捕捉到語氣中的起伏與情緒。

三大模型版本總覽:新手該選哪一個?

面對官方提供的三種不同權重版本,開發者經常會感到困惑。究竟該如何挑選最適合自己的模型呢?其實分類非常明確。

常有人問,如果只想得到最強的語音克隆效果,到底該選哪一個?答案毫無懸念,官方最強烈推薦的是 dots.tts-soar。這個版本經過了自我修正對齊(SCA)的處理,聲音還原度與穩定性都是最高的。

如果是為了進行學術研究或是架構驗證,可以選擇基礎預訓練版本 dots.tts-base。

那如果設備算力有限,或是極度要求生成速度呢?這時候就可以挑選基於 MeanFlow 知識蒸餾的 dots.tts-mf 學生模型。這個版本預設只需要 4 步就能完成採樣,運行起來非常輕巧且迅速。

實戰演練:避開常見陷阱的操作建議

掌握了理論,接下來的實作環節同樣充滿學問。要讓系統發揮出最佳潛力,有一些操作上的細節絕對不能忽略。

在進行零樣本克隆時,系統提供兩種主要的模式。第一種是「續讀模式(Continuation Mode)」,這是獲取最高相似度的首選。只要提供一段參考音訊,並輸入這段音訊對應的精確文字,模型就能完美接續著原本的語氣繼續說話。第二種則是「純向量模式(X-vector-only Mode)」,這種模式只需要提供參考音訊,模型就會自動提取說話人的音色特徵來生成新的內容。

在準備提示音訊(Prompt Audio)時,長度最好控制在 10 秒左右就好。很多人以為音訊越長越好,這其實是個誤解。過長的音訊反而可能干擾生成過程。此外,必須確保音質清晰無背景噪音。

另一個大家常遇到的困擾是,為什麼模型有時候會唸錯多音字?遇到這種情況,千萬不要去改動底層程式碼。最簡單有效的解決方式,就是直接在輸入的文本中把那個字替換成帶有音調的拼音。例如把「好」寫成「hào」。請特別注意,不要加上數字來標音(像 hao4 是無效的),必須使用標準的聲調符號。

如果對生成的語氣或節奏不滿意,只要透過更換指令中的 --seed 數值,模型就會給出截然不同的抑揚頓挫。多試幾次,總能找到最順耳的版本。

活躍的社群支援與不可忽視的限制

一個開源專案能否長遠發展,社群的活躍度扮演著關鍵角色。目前,社群已經為這款模型開發了專屬的 Apple Silicon 最佳化版本(包含 dots-tts-mlx 與 mlx-swift-dots-tts),讓 iOS 與 macOS 使用者也能輕鬆部署。喜歡圖形化介面的創作者,也可以找到對應的 ComfyUI 擴充節點。

當然,任何技術都有其限制。因為底層依賴 BPE 文本模型,在處理資料量較少的長尾語言(例如阿拉伯語、印地語或是越南語)時,雖然聲音的相似度不受影響,但文字錯誤率的確會偏高。此外,它的訓練資料全數集中在語音上,目前並不具備生成歌聲或是特殊音效的能力。

最後,伴隨著強大克隆能力而來的,是不可迴避的安全與倫理責任。這項技術生成的聲音極度逼真,開發者在使用時務必加上 AI 生成標記與浮水印,絕不可將其用於任何未經同意的偽造或詐騙行為。

dots.tts 確實為語音生成領域帶來了全新的思考方向。透過捨棄離散 Token,它成功保留了音訊的豐富細節,展現了極高的相似度與情感表現,也讓人對未來的語音互動應用充滿期待。

問與答

Q1:什麼是 dots.tts?它最大的特色是什麼? A1:dots.tts 是一個擁有 20 億(2B)參數的全連續、端到端自迴歸(AR)文字轉語音系統。它最大的創新在於整個流程完全不使用「離散 Token」。其架構底層結合了因果語義編碼器、基於 Qwen2.5 的大型語言模型(LLM),以及自迴歸流匹配(Flow-matching)聲學頭,並搭配 48kHz 的 AudioVAE 來確保極高的音訊還原度。

Q2:官方釋出了三個不同版本的模型(base, soar, mf),我該怎麼選? A2

  • dots.tts-base:基礎的預訓練版本。
  • dots.tts-soar:經過自我修正對齊(SCA)處理的版本。官方最推薦,擁有最強的語音克隆(Voice Cloning)與情感表現能力。
  • dots.tts-mf:基於 MeanFlow 知識蒸餾技術的學生模型。如果你非常在意推理速度與算力消耗,建議選擇此版本,預設只需要 4 步採樣即可完成生成。

Q3:進行語音克隆時,提示音頻(Prompt Audio)要多長比較好? A3:建議將提示音頻的長度控制在 10 秒左右。音頻太長並不會帶來更好的結果,反而可能浪費算力。此外,必須確保音頻的「文字稿(Prompt Text)」與實際說出的內容完全一致,否則會影響生成穩定度,甚至導致字詞層級的錯誤。

Q4:如果模型唸錯多音字,該如何解決? A4:你可以直接在輸入文本中,將該中文字替換為「帶有聲調符號的拼音」來強制校正發音。例如,想要強制將「好」發音為四聲,應寫作 hào。請特別注意,系統只支援正規的聲調符號(如 hǎo, hào),不支援數字標音(例如輸入 hao4 是無效的)。

Q5:如果對生成的語音節奏或音質不滿意怎麼辦? A5:你可以嘗試更換指令中的 --seed(隨機種子)數值。不同的種子會產生截然不同的節奏與語調,多試幾次通常就能找到最適合的版本。若覺得音質還不夠理想,可以調高 --num-steps 來增加採樣步數,藉由增加運算量來換取更乾淨、表現力更好的音質。

Q6:dots.tts 支援多語言和低延遲串流嗎? A6:支援。在處理多語言或中英夾雜時,可以使用 --language auto_detect 讓系統自動偵測,或是強制指定特定語言(如 EN, ZH)。此外,系統架構支援低延遲的串流生成(Streaming),能夠逐塊輸出音訊,非常適合與對話式語言模型結合應用。

Q7:dots.tts 有什麼技術限制或需要注意的倫理風險嗎? A7

  • 技術限制:雖然音色克隆能力極強,但在處理資料量較少的長尾語言(如阿拉伯語、印地語、越南語等)時,文字錯誤率(WER)會偏高。另外,目前的訓練資料以語音為主,尚無法生成唱歌或特殊的聲音特效。
  • 倫理風險:由於其零樣本(Zero-shot)語音克隆極度逼真,官方強烈要求使用時必須明確標示為「AI 生成」,並且嚴禁將其用於未經同意的偽造、詐騙或散佈假訊息。專案採用 Apache-2.0 協議開源,適合研究與合法授權的商業部署。
分享至:
Featured Partners

© 2026 Communeify. All rights reserved.