tool

MOSS-Transcribe-Diarize 發布:這款多模態 AI 終於聽懂了多人吵架與方言梗?

January 9, 2026
Updated Jan 9
1 min read

OpenMOSS 團隊於 2026 年初重磅發布 MOSS-Transcribe-Diarize,這是一款端到端的多模態大型語言模型。它不僅能精準進行語音轉錄,還解決了長久以來「多人重疊對話」與「情緒語音」識別的難題。本文將帶您深入了解這項技術如何超越 GPT-4o 與 Gemini,並實際應用於複雜的語音場景中。

(此文章為保留文章,待日後會再次更新)


大家是否有過這樣的經驗?在回顧視訊會議錄影或整理訪談錄音時,一旦兩三個人同時說話,字幕軟體就會開始「胡言亂語」,產出一堆不知所云的文字。甚至當講者帶點方言或情緒激動時,AI 往往只能舉白旗投降。

這種情況或許即將成為歷史。

就在 2026 年的第一天,來自 MOSI.AI 的 OpenMOSS 團隊發布了一項名為 MOSS-Transcribe-Diarize 的新模型。這不僅僅是又一個語音識別工具,它採用了全新的多模態架構,號稱能像人類一樣,在嘈雜的環境中聽懂誰在說話、說了什麼,甚至連語氣中的情緒都能精準捕捉。

這項技術究竟有何獨特之處?讓我們來仔細瞧瞧。

什麼是 MOSS-Transcribe-Diarize?

簡單來說,這是一個「端到端」(End-to-End)的多模態模型,專門設計用來處理複雜的語音轉錄任務。

過去的語音處理系統,往往需要把「聽寫」和「認人」(說話者分離,Speaker Diarization)分成兩個步驟來做。這就像是先找一個人負責把聽到的字寫下來,再找另一個人去猜這句話是誰說的。這種分工方式很容易出錯,特別是當對話節奏很快的時候。

MOSS-Transcribe-Diarize 選擇了一條不同的路。它採用了統一的 音訊-文本多模態架構 (Unified Audio-Text Multimodal Architecture)。想像一下,這個模型直接將多人的聲音訊號投射到一個預訓練的大型語言模型(LLM)的特徵空間中。這意味著,它在理解聲音的同時,也在進行語意分析、說話者歸屬判斷以及時間戳記的預測。

所有這些工作都在一個單一的框架內完成,這讓它在處理複雜對話時的穩定性大幅提升。您可以前往 官方 HuggingFace Demo 親自體驗它的能力。

解決「雞同鴨講」:多人重疊對話的突破

在真實世界的對話中,人們很少會乖乖地輪流發言。插話、搶話、背景雜音是常態。對於傳統模型來說,這簡直是噩夢。

MOSS-Transcribe-Diarize 最令人印象深刻的能力,在於它能處理 高度重疊的多人對話 (Highly Overlapping Multi-speaker Dialogue)

在官方展示的《華強買瓜》片段中,兩位角色之間的對話節奏極快,且有明顯的聲音重疊。該模型不僅準確地將語音轉錄為文字,還精確地標記了每一句話的時間段(例如 00:01.08-00:02.96)以及對應的說話者標籤(如 [S01], [S02])。這種能力對於生成會議紀要、通話分析或是長影片的內容處理來說,無疑是個巨大的福音。

情緒與方言:聽懂話語背後的「溫度」

語言不僅僅是文字的組合,語氣、語調以及地方俚語往往承載了更多訊息。

這款模型在捕捉 高動態情緒語音 (High-dynamic Emotional Speech) 方面表現相當出色。無論是激烈的爭吵(如《小時代》中的吵架片段)、大聲嘶吼還是哭泣,它都能準確地進行語音分段。這在過去是許多語音識別系統的盲區,因為情緒激動時的發音特徵往往會嚴重變形。

此外,它對於 方言口音與非正式俚語 (Regional Accents and Informal Slang) 的識別也展現了強大的魯棒性。這意味著,即使講者說的不是標準的廣播腔,或者夾雜了網路用語,模型依然能準確理解並轉錄。

想了解更多技術細節的朋友,可以參考他們發布在 Arxiv 上的論文

挑戰極限語速:從「樹懶」到「快嘴」

人類說話的速度差異極大。有時候我們會像機關槍一樣連珠炮發,有時候又會像《動物方城市》裡的樹懶「快俠」(Flash)一樣慢條斯理。

MOSS-Transcribe-Diarize 展示了其處理 極端語速變化 (Extreme Speech Rate Variations) 的能力。在測試中,它成功轉錄了樹懶那種極其緩慢、幾乎停頓的語句,同時也能跟上快速的語輪轉換(Turn-taking)。這顯示該模型不僅僅是在「聽音辨字」,而是真正理解了對話的流動邏輯。

性能對決:超越 GPT-4o 與 Gemini?

大家最關心的問題肯定是:它跟市面上的頂級模型相比如何?

根據 MOSI.AI 公布的數據圖表,在字元錯誤率(CER, Character Error Rate)和串接排列字元錯誤率(cpCER, Concatenated Permutation Character Error Rate)這兩項關鍵指標上,MOSS-Transcribe-Diarize 的表現均優於 Doubao、ElevenLabs、GPT-4o 以及 Gemini 2.5 Pro 和 Gemini 3 Pro。

特別是在處理多人混雜對話的 cpCER 指標上,MOSS 的錯誤率顯著低於其他競品,這直接證明了其在複雜場景下的優勢。這項數據對於需要高精準度轉錄的專業用戶來說,具有極高的參考價值。更多詳細數據可以在 MOSI 官方網站 查看。


常見問題解答 (FAQ)

為了幫助大家更快速地了解這項新技術,我們整理了幾個最常見的問題:

Q1:MOSS-Transcribe-Diarize 主要解決什麼問題?

它主要解決了傳統語音識別模型在面對「多人同時說話」、「背景吵雜」、「帶有強烈情緒或口音」時,無法準確區分說話者和轉錄內容的問題。它能同時輸出精確的文字、說話者標籤(誰說的)以及時間戳記。

Q2:這個模型可以免費用於商業用途嗎?

目前的資訊顯示該模型由 MOSI.AI (OpenMOSS Team) 發布。具體的授權條款建議直接參閱其 官方網站 或 GitHub 頁面上的說明,以確認是否允許商用及相關限制。

Q3:它支援哪些語言?

從官方展示的 Demo 來看,該模型已經能夠流暢處理 中文(包含方言)、英文 以及 日文。考量到其基於大型語言模型(LLM)的架構,未來擴展到更多語系的可能性非常高。

Q4:我可以在哪裡試用這個模型?

OpenMOSS 團隊已經在 HuggingFace 上提供了線上的 Demo 供大眾體驗。您可以點擊 這裡 進行試用,上傳自己的音檔或使用預設範例來測試其效果。


這項技術的出現,標誌著 AI 在語音理解領域又跨出了一大步。它不再只是冷冰冰地將聲音轉成文字,而是開始嘗試理解對話的情境與脈絡。對於開發者、創作者乃至於一般使用者來說,這都將帶來工作效率的顯著提升。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.