KittenTTS:25MB 的 AI 語音模型?還開源免費,手機都能跑!

Kitten ML 團隊繼推出 25MB 的 Nano 預覽版後,再度震撼發布 Kitten TTS Mini!這款 170MB 的開源文字轉語音模型,同樣內建 8 種生動聲音,並延續了在手機、樹莓派上流暢運行的超低門檻。見證這場輕量級 AI 語音的進化。


在人工智慧技術飛速發展的今天,當我們談到高品質的「文字轉語音」(TTS)模型時,腦中浮現的往往是龐大的檔案、對高階硬體(特別是 GPU)的依賴,以及可能伴隨而來的昂貴授權費。但如果,有一個模型能打破所有這些規則呢?

最近,一個名為 Kitten ML 的團隊就在技術圈投下了一顆震撼彈。他們先是釋出了一款名為 KittenTTS Nano 的預覽版,以其不到 25MB 的超小體積震驚了社群。而現在,他們乘勝追擊,正式推出了更強大、更完整的版本——KittenTTS Mini,再次在 GitHub 上引起了開發者們的熱烈討論。

為什麼這個系列如此特別?因為它小得不可思議,而且完全免費。

一場驚人的進化:從 Nano 到 Mini

要理解 KittenTTS 的魅力,我們得從它的兩個版本看起。這不僅是一個模型的更新,更是一次清晰的技術進化。

KittenTTS Nano (kitten-tts-nano-0.1)

這是 Kitten ML 團隊投下的第一顆震撼彈。作為一個「預覽版」,Nano 版本的模型參數僅有約 1500 萬個(15M),整體檔案大小甚至不到 25MB!你可以在 Hugging Face 上找到它。

這是一個什麼概念?大概就是幾張高畫質照片的大小。它向世界證明了,一個極度輕量化的模型也能發出清晰、自然的聲音。

KittenTTS Mini (kitten-tts-mini-0.1)

Nano 成功驗證概念後,團隊推出了更成熟的 Mini 版本。這個模型的參數擴展到了約 8000 萬個(80M),檔案大小也相應增長至 170MB 左右。你可以在 Hugging Face 找到這個新版本。

雖然體積變大了,但相較於動輒數 GB 的主流 TTS 模型,170MB 依然是個極其輕巧的數字。而這增加的體積,換來的是更豐富的語音細節和更佳的整體表現。

小體積,大能量:KittenTTS Mini 的核心優勢

那麼,升級後的 KittenTTS Mini 究竟有哪些令人驚喜的優勢呢?

八種生動活潑的聲音

Mini 版本繼承並優化了內建的八種英文語音(四女四男)。這些聲音並非單調的機器朗讀,而是帶有相當不錯的表現力與情感。對於一個如此迷你的模型來說,能達到這種程度的生動性,實在是令人印象深刻。

令人難以置信的輕量化

這依然是 KittenTTS 系列最吸引人的特點。即使是 170MB 的 Mini 版本,對硬體資源的消耗也極低。這意味著開發者可以輕鬆將其整合到各種應用中,而無需擔心伺服器成本。

真的在哪都能跑!

忘了那些僅僅是「無需 GPU」的口號吧——KittenTTS 的運行門檻低到了一個全新的境界。無論是 Nano 還是 Mini,它們都不只可以在普通的 CPU 上運行,甚至能在像樹莓派(Raspberry Pi)這樣的微型電腦,甚至是手機上順暢地生成語音。

對於許多預算有限的開發者、學生或業餘愛好者來說,這無疑是個天大的好消息。你不再需要昂貴的硬體設備,就能在自己的專案中整合高品質的語音功能。

開源萬歲!完全免費使用

是的,你沒看錯。KittenTTS 系列是完全開源的。這代表任何人都可以免費下載、使用,甚至修改它的原始碼,無論是個人專案還是商業應用。這種開放的態度,無疑會極大地推動社群的發展和模型的普及。

魔法背後的秘密:它是如何做到的?

KittenTTS 能夠在如此小的體積下維持優異的表現,其技術核心似乎採用了 G2P(Grapheme-to-Phoneme) 的路徑。這聽起來可能有點複雜,但原理其實相當直觀。

  • Grapheme (字素): 指的是我們書寫的文字單位,例如英文字母 ‘c’。
  • Phoneme (音素): 指的是語言中最小的聲音單位,例如 ‘c’ 在 “cat” 中發 /k/ 的音。

G2P 的作用,就是在生成語音之前,先將輸入的文字(字素)轉換成一套標準的音標(音素)。這樣一來,模型就能更準確地知道每個單字該如何發音,從而生成更自然、更清晰的語氣,這也是它能在小體積下維持不錯品質的關鍵之一。

未來藍圖:KittenTTS 的下一步是什麼?

Kitten ML 團隊也大方地公布了他們更新後的開發藍圖:

  • 發布預覽版模型 (Nano) (已完成)
  • 發布完整訓練模型 (Mini) (已完成)
  • 釋出行動裝置 SDK
  • 推出網頁版服務

從這個藍圖可以看出,團隊的目標非常明確:讓 KittenTTS 變得更加強大且易於使用。未來的行動裝置 SDK 和網頁版,將會讓更多不具備程式背景的使用者也能輕鬆體驗。此外,官方也提到,未來的版本預計會支援多國語言,這更讓人充滿期待。

總結:為什麼你該關注 KittenTTS?

KittenTTS 的出現,不僅僅是多了一個新的 TTS 工具。它從 NanoMini 的進化,生動地證明了在 AI 領域,高效能與輕量化並非不可兼得。

它的小體積、跨平台能力、出色的表現力,以及最重要的開源精神,共同構成了一個極具吸引力的選擇。無論你是一位正在尋找語音解決方案的開發者,一位對 AI 技術充滿好奇的學生,或只是一個單純的科技愛好者,KittenTTS 都值得你投入關注。

讓我們一起期待它未來的發展,以及它將為 AI 語音技術帶來什麼樣的變革吧!

分享至:

© 2025 Communeify. All rights reserved.