KaniTTS-370M 模型登場：讓你的 AI 對話體驗，快到不可思議

發佈於: 2025-10-02 • 更新於: 2025-10-02 • 1 分鐘閱讀

探索全新的 KaniTTS-370M 文字轉語音模型，它不僅速度飛快，音質更是無可挑剔。這篇文章將帶您了解其多語言支援、高效能表現以及背後的技術架構，看看它如何為即時對話 AI 應用帶來革新。

內文：

你有沒有想過，未來的 AI 助理，它的聲音聽起來會是什麼樣子？是像電影裡的冰冷機器人，還是像真人一樣溫暖、自然？最近，一款名為 KaniTTS-370M 的文字轉語音（Text-to-Speech, TTS）模型似乎給了我們一個相當驚豔的答案。

這款模型專為即時對話 AI 應用而生，目標非常明確：在消費級硬體上，實現閃電般的速度和媲美真人的音質。聽起來很不錯，對吧？

這次更新，多了些什麼新花樣？

開發團隊顯然沒有停下腳步，這次的 KaniTTS-370M 版本帶來了幾個令人興奮的亮點。

首先，也是最重要的一點，就是更全面的多語言支援。除了原本流利的英文，現在它還能說德語、韓語、中文、阿拉伯語和西班牙語。這意味著開發者可以輕鬆地將應用程式擴展到全球市場，而不用擔心語言隔閡。更棒的是，這些語言的韻律和自然度都經過了改良，聽起來不再是生硬的「翻譯腔」。

此外，對於英語使用者來說，這次也新增了更多樣的英文語音選項，讓你能找到最適合你應用場景的聲音。

速度與品質的秘密武器：聊聊背後的技術

你可能會好奇，KaniTTS 是如何做到既快又好的？這一切都歸功於它聰明的兩階段架構。

想像一下這是一個高效率的聲音工廠。第一階段，由一個名為 LiquidAI LFM2-370M 的大型語言模型（LLM）作為「大腦」，負責快速理解文字內容，並將其轉換成一種壓縮的「聲音指令」（token）。

第二階段，再由 NVIDIA 的 NanoCodec 這個高效的「聲音合成器」接手，根據這些指令，迅速地將波形合成出來。整個過程行雲流水，幾乎沒有延遲。這也是為什麼它能在短短 0.9 秒內生成長達 15 秒的音訊，而且還是在一張 NVIDIA RTX 5080 顯示卡上辦到的。

效能表現如何？數據會說話

空口無憑，我們來看看一些具體的數據。

反應速度： 在 RTX 5080 上，生成 15 秒的音訊，延遲大約在 1 秒左右。這對於需要即時反應的對話 AI 來說，簡直是夢幻般的表現。
硬體需求： 令人驚訝的是，它對硬體的要求相當親民，只需要 2GB 的 GPU 顯示卡記憶體。這代表你不需要頂級的伺服器也能順暢運行。
音質評分： 在代表聲音自然度的 MOS（平均意見分數）測試中，它拿到了 4.3/5 的高分。同時，代表準確度的詞錯誤率（WER）也低於 5%。

而這些優異表現的背後，是 massive 的訓練數據支援——模型在超過 8 萬小時的多元資料集（包含 LibriTTS、Common Voice 等）上進行訓練，確保了其聲音的豐富性和準確性。

這東西能用在哪？

KaniTTS-370M 的應用場景非常廣泛。無論你是開發：

對話式 AI：像是智慧客服、虛擬助理。
邊緣運算裝置：需要離線運作的智慧家居或穿戴裝置。
無障礙輔助工具：為視障人士提供流暢的螢幕閱讀功能。
學術研究：探索語音合成的前沿技術。

這個模型都能成為你強而有力的工具。

完全開源，歡迎大家一起來玩

最棒的是，KaniTTS-370M 採用 Apache 2.0 授權，這代表它是完全開源的，任何人都可以自由下載、修改和應用。開發團隊鼓勵大家動手實驗，挖掘出更多的可能性。

如果你已經迫不及待想試試看了，可以透過以下連結找到所有資源：

程式碼倉庫 (Repo): https://github.com/nineninesix-ai/kani-tts
模型下載 (Model): https://huggingface.co/nineninesix/kani-tts-370m
線上體驗 (Space): https://huggingface.co/spaces/nineninesix/KaniTTS
官方網站: https://www.nineninesix.ai/n/kani-tts

總而言之，KaniTTS-370M 不僅僅是一個技術展示，它更像是一個實用、高效且易於接觸的工具，為創造更自然、更即時的語音互動體驗，打開了一扇新的大門。

分享至:

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Qwen3-TTS-Flash 實力分析：數據看懂它在 AI 語音競賽中的優勢

阿里雲 Qwen3-TTS-Flash 表現如何？本文將透過一份關鍵的性能測試數據，客觀分析其與 GPT-4o、Seed-TTS 等頂尖模型的性能差異，特別是 …

September 23, 2025

小米殺手級應用登場：MiMo-Audio 模型，讓 AI 音訊生成像「說話」一樣簡單

小米最新開源的 MiMo-Audio 模型徹底改變了 AI 音訊領域的遊戲規則。它憑藉強大的「少樣本學習」能力，無需繁瑣的微調，僅需幾個範例就能生成、轉換和編 …

September 23, 2025

Chatterbox Multilingual：顛覆聽覺體驗的開源語音 AI，23 種語言即刻上手

探索 Resemble AI 推出的開源 TTS（文字轉語音）模型 Chatterbox Multilingual。瞭解它如何透過即時語音複製、 …

September 5, 2025

GPT-4o Audio 的最強對手？階躍星辰開源 Step-Audio 2 mini，性能數據全面公開！

AI 語音模型的世界又迎來一位重量級選手！由階躍星辰（StepFun）推出的最新開源端對端語音大模型 Step-Audio 2 mini，不僅在多項國際評測中 …

September 2, 2025

微軟 Copilot Labs 推出秘密武器：Audio Expressions 讓文字開口說話，還能有喜怒哀樂！

探索微軟 Copilot Labs 最新的實驗性工具 Audio Expressions！了解如何免費將文字轉換為富有情感和風格的語音，非常適合內容創作者、教 …

September 2, 2025

微軟 AI 重磅出擊：兩款自研模型 MAI-Voice-1 與 MAI-1-preview 驚豔亮相

微軟 AI (MAI) 揭示了其最新研發的兩款強大模型：超高效的語音生成模型 MAI-Voice-1 和大型基礎模型 MAI-1-preview。這不僅是技術 …

August 29, 2025

內文：

這次更新，多了些什麼新花樣？

速度與品質的秘密武器：聊聊背後的技術

效能表現如何？數據會說話

這東西能用在哪？

完全開源，歡迎大家一起來玩

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

Related Posts

Qwen3-TTS-Flash 實力分析：數據看懂它在 AI 語音競賽中的優勢

小米殺手級應用登場：MiMo-Audio 模型，讓 AI 音訊生成像「說話」一樣簡單

Chatterbox Multilingual：顛覆聽覺體驗的開源語音 AI，23 種語言即刻上手

GPT-4o Audio 的最強對手？階躍星辰開源 Step-Audio 2 mini，性能數據全面公開！

微軟 Copilot Labs 推出秘密武器：Audio Expressions 讓文字開口說話，還能有喜怒哀樂！

微軟 AI 重磅出擊：兩款自研模型 MAI-Voice-1 與 MAI-1-preview 驚豔亮相