Meta AI 發表了革命性的 Omnilingual ASR 技術,支援超過 1600 種語言的語音辨識,特別是那些資源稀少的語言。這項開源技術不僅打破了技術瓶頸,更希望透過社群力量,真正弭平數位世界中的語言隔閡。
你曾想過嗎?世界上有超過 7,000 種語言,但在網路上,我們主要使用的卻只有那麼幾種。這意味著,數十億人的母語在數位世界中幾乎是「隱形」的。這不僅是溝通的障礙,更是一道深刻的數位鴻溝。
不過,這一切可能很快就要改變了。Meta 的基礎 AI 研究團隊 (FAIR) 最近投下了一枚震撼彈,推出了一套名為 Omnilingual ASR 的全新自動語音辨識 (Automatic Speech Recognition) 模型。這不是一次小小的更新,而是一次巨大的飛躍——它讓 AI 能夠理解和轉錄超過 1,600 種語言的語音,其中甚至包含了 500 種從未被 AI 成功轉錄過的低資源語言。
不只是「更多」語言,而是一種全新的思維
過去的語音辨識系統有個很頭痛的問題:它們非常依賴大量的標註資料。這就像教一個孩子說話,你得不斷地告訴他「這個詞是這個意思」。對於英語、中文這種網路資源豐富的語言來說,這不是問題。但對於那些使用者較少、數位資料匱乏的「長尾語言」來說,這幾乎是一項不可能的任務。
Omnilingual ASR 巧妙地繞開了這個障礙。它採用了兩種創新的架構設計:
- 擴展核心模型: 團隊將先前的
wav2vec 2.0語音編碼器首次擴展到 70 億個參數,使其能從未經處理的語音中,提煉出極其豐富且跨語言的語義資訊。 - 借鏡大型語言模型 (LLM) 的智慧: 團隊打造了兩種解碼器,其中一種借鑒了 LLM 中常見的 Transformer 解碼器。這種被稱為 LLM-ASR 的方法,徹底改變了 ASR 的性能,尤其是在處理那些訓練資料稀少的語言時。
結果如何?這套 7B-LLM-ASR 系統在超過 1,600 種語言中都達到了頂尖水準,其中 78% 的語言字元錯誤率 (CER) 低於 10%。坦白說,這數據相當驚人。
帶上你的語言:AI 如何實現社群驅動?
Omnilingual ASR 最讓人興奮的一點,或許是它徹底改變了新增語言的方式。
以前,要讓一個 ASR 系統支援新語言,需要專家進行複雜且耗時的「微調 (fine-tuning)」,這對大多數社群來說門檻太高了。但 Omnilingual ASR 引入了類似於 LLM 的「情境中學習 (in-context learning)」能力。
這是什麼意思呢?簡單來說,一個不被支援的語言使用者,現在只需要提供極少量的語音和對應的文字範本,就能讓模型快速學會並產出可用的轉錄品質。你不需要龐大的資料庫、不需要高階的運算設備,更不需要成為 AI 專家。
這讓 AI 技術從實驗室走向了真實世界,變成了一個可以由社群共同參與和擴展的框架。相較於其他模型,Omnilingual ASR 在語言覆蓋的廣度上,實現了數十倍的增長。
不只是一個模型,而是一整套開源工具箱
Meta 這次不僅僅是發表一篇論文,而是大方地提供了一整套工具,希望能賦予全球的研究人員、開發者和語言倡議者力量。
這次釋出的資源包括:
- 一系列模型: 從適合低功耗設備的 3 億參數輕量級版本,到提供頂級精度的 70 億參數強大模型,應有盡有。
- Omnilingual wav2vec 2.0 基礎模型: 這是一個通用的語音基礎模型,可以用於 ASR 之外的其他語音相關任務。
- Omnilingual ASR 語料庫: 這是一個獨一無二的資料集,收錄了 350 種資源匱乏語言的轉錄語音。
- 友善的開源授權: 所有模型都在
Apache 2.0授權下發布,資料則採用CC-BY授權。所有工具都基於 FAIR 的開源框架fairseq2和 PyTorch 生態系統,讓開發者能輕鬆上手。
想親自體驗嗎?你可以試試看他們的 語言探索展示 或直接下載模型來玩玩。
全球合作的力量
這項宏大的計畫並非 Meta 閉門造車的成果。為了觸及那些在數位世界中幾乎沒有足跡的語言,Meta 與世界各地的在地組織合作,招募並補償母語使用者來錄製語音。
此外,透過「語言技術合作夥伴計畫」,Meta 匯集了來自 Mozilla 基金會的 Common Voice、Lanfrica/NaijaVoices 等組織的語言學家、研究人員和社群成員。這些合作夥伴的深度參與,為 Omnilingual ASR 注入了寶貴的語言知識和文化理解,確保技術能真正滿足在地需求。
這對未來意味著什麼?
Omnilingual ASR 的出現,不僅僅是技術上的突破,它更像是一把鑰匙,打開了通往更包容、更平等的數位世界的大門。
當 AI 能夠聽懂並轉錄幾乎所有人的語言時,意味著:
- 溝通無障礙: 跨越語言的即時交流不再是科幻情節。
- 文化得以傳承: 瀕危語言可以被記錄、分析和保存。
- 資訊更加普及: 全世界的人都能平等地獲取數位世界的知識和服務。
這項工作是 Meta 協助建立更緊密世界願景的一部分。讓高品質的語音轉文字系統普及到那些最被忽視的語言社群,是縮小數位鴻溝、打破語言藩籬的關鍵一步。
說到底,科技的最終目的,不就是為了讓每個人的聲音,都能被清楚地聽見嗎?


