meta公布新型语音识别功能软件，可识别128种语言

赵家茹近日，Meta正式发布了—套新型的自监模式-XLS-R，用于各种语音任务。

作为Meta创建的历史上最大的模型，XLS-R包含超过20亿个参数，其性能远高于其他类似型号。

值得注意的是，Meta通过单一模型实现对多种语言的广泛语音理解能力，微调了XLS-R，从而获得了语音识别，语音翻译和语言识别等功能软件。

在这里，它是Meta最近发布的Al语言处理模型。

其特点是可以识别128种语言并实现语音识别，语言识别和语音翻译功能。

与市场上常见的语音翻译应用相比，此速度和转译性能实际上是中矩且对口语清晰度有要求。

根据Meta，该技术基于ofc2Vec 2.0的预训练模型。它可以将语音拆成25毫秒的基本单元来分析，并使用上下文转换语音内容以提高识别准确性。

在官方博客中，Meta表示其目标是用单一模型识别全球7，000多种语言以改进算法转化算法。

元宇宙离我们仍然有一段距离，但是作为Meta虚拟世界的基础建设之一的XLS-R等技术可能在其他领域中发挥作用。

也许不久之后，我们可以看到越来越多的应用程序支持更多语言的语音翻译功能。

他说:对话是人与人互动的自然方法，而语音技术可以使我们能够与设备和虚拟系统进行交互，从而使虚拟体验与物理世界更加融合在一起。

可以识别的语言类型也是其他模式的两倍以上。

经过37种语言鉴定后，发现XLS-R的表现优于以前的计划;微调后，XLS-R可以在英语和21种其他语言之间实时进行语音互译。

与较小的型号相比，大规模模式的效果更好，因为参数越多意味着包含更多语言的数据，训练效果就更充分了。

Wav2Vec 2.0类似于MUT，通过预测音频模块部分的语音单元进行培训。

鉴定仪负责评估预测的音素序列是否真实。

此外，官方还提供不同参数的语音识别模型以及15种语言和英语之间的互译模式供用户下载软件。