Kyutai STT：比 Whisper 更快？法國 AI 新星挑戰即時語音辨識極限

發佈於: 2025-06-23 • 更新於: 2025-06-23 • 1 分鐘閱讀

認識 Kyutai STT，這款來自法國的開源語音轉文字模型，不僅在速度和準確性上挑戰 OpenAI 的 Whisper，更帶來了專為即時互動而生的創新架構。無論是開發者、研究員還是 AI 愛好者，這篇文章將帶你深入了解它的獨到之處。

你可能心想：「又一個語音辨識模型？市面上的選擇還不夠多嗎？」

老實說，我一開始也是這麼想的。但在深入了解來自法國 AI 研究室 Kyutai 的最新開源力作——Kyutai STT (Speech-to-Text) 後，我發現它真的有點東西。這不只是另一個語音轉文字工具，它專為「即時互動」而生，在延遲和準確性之間取得了驚人的平衡。

Kyutai 一口氣推出了兩個模型：

kyutai/stt-2.6b-en：一個專注於英語、追求極致準確性的大型模型。
kyutai/stt-1b-en_fr：一個輕量級的英法雙語模型，延遲極低，還內建了秘密武器。

最重要的是，這一切都是開源的！你可以直接在 GitHub 上找到程式碼。不過，有個小小的遺憾，就像你說的，目前還不支援中文。但別急著走開，它的技術亮點絕對值得一看。

不只是快，還要準：Kyutai STT 強在哪？

在語音辨識的世界裡，我們常常要在「速度」和「準確度」之間做選擇。傳統模型，像是大家熟知的 OpenAI Whisper，通常需要接收完整的音檔後才能開始處理，這對於需要即時回應的應用（例如語音助理、線上會議即時字幕）來說，延遲感會很明顯。

Kyutai STT 則採用了「串流模式 (streaming model)」，意思就是它能邊聽邊轉譯，幾乎同步完成。

你可能會問，這樣即時處理，準確度會不會打折扣？

看看下面這張圖。這是 Kyutai STT 2.6B 模型和 Whisper Large v3 在多個英語語音資料集上的「詞錯誤率 (Word Error Rate, WER)」比較。記住，這個數字越低越好。

沒錯，在多數情況下，Kyutai STT 的表現甚至優於需要完整音檔的 Whisper Large v3。它不僅能輸出帶有標點符號的通順文字，還提供精確到「每個單詞的時間戳記」，這對於後續的影音剪輯或資料分析來說，簡直是天大的福音。

它「聽得懂」你何時說完話：神奇的語義語音活動偵測

這大概是 Kyutai STT 最讓我驚豔的功能之一，特別是內建在輕量級模型中的「語義語音活動偵測 (Semantic Voice Activity Detector, VAD)」。

這是什麼概念？

傳統的 VAD 只能判斷「有沒有聲音」，但無法理解你是不是「講完了」。這就像跟一個反應慢半拍的人聊天，你明明講完了，他卻還在等，或是你只是稍微停頓思考一下，他就急著插話。

Kyutai 的 Semantic VAD 更聰明，它不只聽聲音，還會根據你說話的內容和語調，去預測你「講完一句話的機率」。

這對於像 Unmute 這類的語音聊天應用至關重要。AI 能夠更自然地在你語畢時接話，而不是在尷尬的停頓中手足無措。這讓「人機對話」的體驗，瞬間提升了一個檔次。

低延遲與高吞吐量：為真實世界而生的效能怪獸

效能是 Kyutai STT 的另一個主場。

超低延遲：輕量級的 stt-1b-en_fr 模型，從你說出一個詞到轉譯完成，延遲只有 500 毫秒。在 Unmute 應用中，他們甚至用了一個叫做「flush trick」的小技巧，進一步縮短了回應時間。
驚人高吞"吐"量：這才是它真正可怕的地方。得益於創新的架構，Kyutai STT 在一台 NVIDIA H100 GPU 上，可以同時處理 400 條即時語音串流。

相比之下，另一個試圖將 Whisper 改造成串流模式的專案 Whisper-Streaming，雖然技術上很厲害，但它不支援批次處理，導致吞吐量遠遠落後。這意味著，如果你要建立一個需要服務大量用戶的即時語音服務，Kyutai STT 在成本和效率上具有壓倒性優勢。

背後的黑科技：延遲串流模型 (Delayed Streams Modeling)

說了這麼多優點，你一定很好奇，Kyutai 究竟是怎麼做到的？答案就在於他們稱之為「延遲串流模型 (Delayed Streams Modeling)」的核心技術。這項技術最早由他們在另一個模型 Moshi 中開創。

讓我用一個簡單的比喻來解釋：

傳統模型 (如 Whisper)：像個筆譯員。你必須先把整篇文章交給他，他看完後，再逐字逐句翻譯出來。
Kyutai STT 模型：像個頂尖的同步口譯員。他跟演講者幾乎同步，只稍微延遲一兩個詞的時間，就能流暢地翻譯出來。

在技術上，Kyutai STT 不再是「先音訊、後文字」的線性關係，而是將「音訊串流」和「文字串流」視為並行的兩條軌道。模型會稍微延遲文字軌道的輸出，讓自己有零點幾秒的「預讀」時間來理解上下文，從而確保了即時性與準確性。

更有趣的是，這個架構是對稱的。如果我們反過來，固定文字串流，去預測延遲的音訊串流，它就變成了一個文字轉語音 (TTS) 模型！這種設計上的優雅與高效，實在令人佩服。

想自己動手玩？PyTorch、Rust、MLX 任你選

Kyutai 非常貼心地為不同需求的開發者提供了多種實現方式：

PyTorch：如果你是研究人員或想做些實驗，用 Python 的 PyTorch 版本最方便。
Rust：如果你要部署到正式的生產環境，追求極致的穩定性和效能，官方推薦使用 Rust 伺服器。他們在 Unmute 中就是這麼用的。
MLX：如果你是蘋果生態系的愛好者，想在 iPhone 或 Mac 上利用 Apple Silicon 的硬體加速進行本地端運算，那麼 MLX 版本就是你的首選。

結論：Kyutai STT 的未來，值得期待

總結來說，Kyutai STT 不僅僅是一個新的開源工具，它更代表了即時語音辨識技術的一個重要方向：高效、準確、且真正為互動而生。

它憑藉著創新的「延遲串流模型」架構，成功解決了長久以來困擾開發者的延遲、吞吐量和準確度的三角難題。雖然目前尚未支援中文是個小小的遺憾，但考量到其優異的架構和開源社群的潛力，我們有理由相信，未來支援更多語言只是時間問題。

對於所有關注語音技術的開發者和企業來說，Kyutai STT 無疑是一個值得密切關注的明日之星。

分享至:

DMflow.chat

DMflow.chat: 您的智能對話夥伴，提升客戶互動體驗。

Learn More