Meta公司周一(5月22日)推出了一个开源AI语言模型——大规模多语言语音(Massively Multilingual Speech, MMS)模型,可以识别和产生1000多种语言的语音——比目前可用的模型增加了10倍。研究人员表示,他们的模型可以转换1000多种语言,但能识别4000多种语言。
Meta公司在新闻稿中写道,“今天,我们公开分享我们的模型和代码,以便研究界的其他人可以在我们的工作基础上继续发展。通过这项工作,我们希望为保护全世界令人惊叹的语言多样性做出一点贡献。”
语音识别和文本到语音模型通常需要对模型进行数千小时的音频训练,并附带语音转录标签。这些标签对机器学习至关重要,它使算法能够更准确地分类和理解数据。
如此一来,收集数千种语言的音频数据是Meta面临的第一个挑战,而现有最大的语音数据集最多涵盖100种语言。
对于那些在工业化国家没有被广泛使用的语言,其中的许多语言在未来几十年甚至存在消失的风险。
Meta使用了一种非常规的方法来收集音频数据:利用翻译完成的宗教文本的录音。
该公司表示,“为了克服这个问题,我们转向了宗教文本,如圣经,这些文本已被翻译成多种不同的语言,这些译本也已被用于广泛的语言研究中。”
这些宗教文本的各语言译本也有专业人士进行阅读并录音。作为MMS项目的一部分,Meta创建了一个超过1100种语言的“《新约》阅读数据集”,平均每种语言有32小时的数据。
此外,Meta还指出,考虑到其他宗教类读物的未标记录音,我们将可提供的语言数量增加到4000多种。
扫一扫
在手机上阅读