Meta AI 发表了革命性的 Omnilingual ASR 技术,支持超过 1600 种语言的语音辨识,特别是那些资源稀少的语言。这项开源技术不仅打破了技术瓶颈,更希望透过社群力量,真正弭平数字世界中的语言隔阂。
你曾想过吗?世界上有超过 7,000 种语言,但在网络上,我们主要使用的却只有那么几种。这意味着,数十亿人的母语在数字世界中几乎是「隐形」的。这不仅是沟通的障碍,更是一道深刻的数字鸿沟。
不过,这一切可能很快就要改变了。 Meta 的基础 AI 研究团队 (FAIR) 最近投下了一枚震撼弹,推出了一套名为 Omnilingual ASR 的全新自动语音辨识 (Automatic Speech Recognition) 模型。这不是一次小小的更新,而是一次巨大的飞跃——它让 AI 能够理解和转录超过 1,600 种语言的语音,其中甚至包含了 500 种从未被 AI 成功转录过的低资源语言。
不只是「更多」语言,而是一种全新的思维
过去的语音辨识系统有个很头痛的问题:它们非常依赖大量的标注数据。这就像教一个孩子说话,你得不断地告诉他「这个词是这个意思」。对于英语、中文这种网络资源丰富的语言来说,这不是问题。但对于那些使用者较少、数字数据匮乏的「长尾语言」来说,这几乎是一项不可能的任务。
Omnilingual ASR 巧妙地绕开了这个障碍。它采用了两种创新的架构设计:
- 扩展核心模型: 团队将先前的
wav2vec 2.0语音编码器首次扩展到 70 亿个参数,使其能从未经处理的语音中,提炼出极其丰富且跨语言的语义信息。 - 借镜大型语言模型 (LLM) 的智慧: 团队打造了两种解码器,其中一种借鉴了 LLM 中常见的 Transformer 解码器。这种被称为 LLM-ASR 的方法,彻底改变了 ASR 的性能,尤其是在处理那些训练数据稀少的语言时。
结果如何?这套 7B-LLM-ASR 系统在超过 1,600 种语言中都达到了顶尖水平,其中 78% 的语言字符错误率 (CER) 低于 10%。坦白说,这数据相当惊人。
带上你的语言:AI 如何实现社群驱动?
Omnilingual ASR 最让人兴奋的一点,或许是它彻底改变了新增语言的方式。
以前,要让一个 ASR 系统支持新语言,需要专家进行复杂且耗时的「微调 (fine-tuning)」,这对大多数社群来说门槛太高了。但 Omnilingual ASR 引入了类似于 LLM 的「情境中学习 (in-context learning)」能力。
这是什么意思呢?简单来说,一个不被支持的语言使用者,现在只需要提供极少量的语音和对应的文字范本,就能让模型快速学会并产出可用的转录质量。你不需要庞大的数据库、不需要高阶的运算设备,更不需要成为 AI 专家。
这让 AI 技术从实验室走向了真实世界,变成了一个可以由社群共同参与和扩展的框架。相较于其他模型,Omnilingual ASR 在语言覆盖的广度上,实现了数十倍的增长。
不只是一个模型,而是一整套开源工具箱
Meta 这次不仅仅是发表一篇论文,而是大方地提供了一整套工具,希望能赋予全球的研究人员、开发者和语言倡议者力量。
这次释出的资源包括:
- 一系列模型: 从适合低功耗设备的 3 亿参数轻量级版本,到提供顶级精度的 70 亿参数强大模型,应有尽有。
- Omnilingual wav2vec 2.0 基础模型: 这是一个通用的语音基础模型,可以用于 ASR 之外的其他语音相关任务。
- Omnilingual ASR 语料库: 这是一个独一无二的数据集,收录了 350 种资源匮乏语言的转录语音。
- 友善的开源授权: 所有模型都在
Apache 2.0授权下发布,数据则采用CC-BY授权。所有工具都基于 FAIR 的开源框架fairseq2和 PyTorch 生态系统,让开发者能轻松上手。
想亲自体验吗?你可以试试看他们的 语言探索展示 或直接下载模型来玩玩。
全球合作的力量
这项宏大的计划并非 Meta 闭门造车的结果。为了触及那些在数字世界中几乎没有足迹的语言,Meta 与世界各地的在地组织合作,招募并补偿母语使用者来录制语音。
此外,透过「语言技术合作伙伴计划」,Meta 汇集了来自 Mozilla 基金会的 Common Voice、Lanfrica/NaijaVoices 等组织的语言学家、研究人员和社群成员。这些合作伙伴的深度参与,为 Omnilingual ASR 注入了宝贵的语言知识和文化理解,确保技术能真正满足在地需求。
这对未来意味着什么?
Omnilingual ASR 的出现,不仅仅仅是技术上的突破,它更像是一把钥匙,打开了通往更包容、更平等的数字世界的大门。
当 AI 能够听懂并转录几乎所有人的语言时,意味着:
- 沟通无障碍: 跨越语言的即时交流不再是科幻情节。
- 文化得以传承: 濒危语言可以被记录、分析和保存。
- 信息更加普及: 全世界的人都能平等地获取数字世界的知识和服务。
这项工作是 Meta 协助建立更紧密世界愿景的一部分。让高质量的语音转文字系统普及到那些最被忽视的语言社群,是缩小数字鸿沟、打破语言藩篱的关键一步。
说到底,科技的最终目的,不就是为了让每个人的声音,都能被清楚地听见吗?


