打破全球语言壁垒:Meta推出支持1600种语言的语音识别系统并开源
创始人
2025-11-11 17:45:23
0

IT之家 11 月 11 日消息,Meta 基础人工智能研究(FAIR)团队推出了“全语种自动语音识别系统”(Omnilingual ASR),该系统可支持 1600 多种语言的语音转写,大幅拓展了当前语音识别技术的语言覆盖范围。

此前,大多数语音识别工具都专注于几百种资源丰富的语言,这些语言有大量的转录音频。而全球现存 7000 余种语言中,绝大多数因缺乏训练数据而几乎无法获得人工智能支持。Omnilingual ASR 的推出旨在弥合这一鸿沟。

据 Meta 介绍,在其支持的 1600 种语言中,有 500 种系首次被任何 AI 系统所覆盖。FAIR 团队将该系统视为迈向“通用语音转写系统”的重要一步,有望助力打破全球语言壁垒,促进跨语言沟通与信息可及性。

据IT之家了解,系统识别精度与训练数据量密切相关。根据 Meta 公布的数据,Omnilingual ASR 在测试的 1600 种语言中,对其中 78% 的语言实现了低于 10% 的字符错误率(CER);对于至少拥有 10 小时训练音频的语言,达此精度标准的比例提升至 95%;即便对于音频时长不足 10 小时的“低资源语言”,仍有 36% 实现了低于 10% CER 的表现。

为推动后续研究与实际应用落地,Meta 同步发布了“全语种 ASR 语料库”(Omnilingual ASR Corpus)—— 一个包含 350 种代表性不足语言的、大规模转录语音数据集。该语料库采用知识共享署名许可协议(CC-BY)开放获取,旨在支持开发者与研究人员针对特定本地语言需求,构建或适配定制化的语音识别模型。

Omnilingual ASR 的一项关键创新在于其“自带语言”(Bring Your Own Language)功能,该功能依托上下文学习(in-context learning)机制实现。受大型语言模型技术启发,用户仅需提供少量配对的语音与文本样本,系统即可直接从中学习,无需重新训练或依赖高算力资源,就能添加新的语言。

Meta 指出,理论上该方法可将 Omnilingual ASR 的语言支持能力扩展至 5400 余种,远超当前行业标准。尽管对极低资源语言的识别质量尚不及完全训练的水平,但该技术已首次为众多此前完全缺乏语音识别能力的语言社区提供了切实可行的解决方案。

Meta 以 Apache 2.0 开源许可协议发布 Omnilingual ASR 全部模型,允许研究人员与开发者自由使用、修改及商用;配套数据集则采用 CC-BY 协议开放。Omnilingual ASR 模型家族涵盖从适用于低功耗设备的轻量级 3 亿参数版本,到追求“顶尖精度”的 70 亿参数版本,满足不同应用场景需求。所有模型均基于 FAIR 自主研发的 PyTorch 框架 fairseq2 构建。

相关内容

最新资讯

野猪闯入吉林市城区在街道奔跑,... 新京报记者 赵露 制作 高晨曦 11月10日,多位网民反映多头野猪进入吉林省吉林市城区。画面显示,野...
中国方案寻踪迹 英国“钢铁教授... 湖北日报全媒记者 张歆 通讯员 程毓11月11日,英国皇家工程院院士、科学院院士,剑桥大学教授亨利·...
教育家精神万里行|王永贵:用思... 王永贵,江苏省南京师范大学马克思主义学院教授,2024年全国模范教师。 自1990年参加工作,王永贵...
激怒山姆用户的,不止AI商品图 文 |刺猬公社,作者 | 陈梅希,编辑 | 园长 距良品铺子“花生长在树上”事件刚过去不到三个月,...
端侧AI市场的优等生:从全志A... 今年过去两季的国产AI处理器市场分析文章里,电子工程专辑都特别提到过在视觉SoC芯片范畴内,全志科技...
进一步为中小学教师减负 (来源:廊坊日报) 转自:廊坊日报 新华社北京11月10日电(记者 王鹏)记者11月10日从教育部获...
老河口:智慧导税新体验 办税缴... 荆楚网(湖北日报网)讯(通讯员 王悦 龙慧)“以前来办税,遇上高峰期得排好久队,现在通过智慧导税台,...
演绎青春故事 聚焦乡村振兴 湖... 湖北日报讯(记者农新瑜、通讯员沈轩文)11月8日,电视剧《乌蒙深处》首播发布会在北京举行。由中央电视...
点亮学生心中的中文之光 (来源:光明日报) 转自:光明日报 2025年6月,格鲁吉亚第比利斯自由大学孔子学院举办2025年...