赵家茹近日,Meta正式发布了—套新型的自监模式-XLS-R,用于各种语音任务。

作为Meta创建的历史上最大的模型,XLS-R包含超过20亿个参数,其性能远高于其他类似型号。

值得注意的是,Meta通过单一模型实现对多种语言的广泛语音理解能力,微调了XLS-R,从而获得了语音识别,语音翻译和语言识别等功能软件

在这里,它是Meta最近发布的Al语言处理模型。

其特点是可以识别128种语言并实现语音识别,语言识别和语音翻译功能。

与市场上常见的语音翻译应用相比,此速度和转译性能实际上是中矩且对口语清晰度有要求。

根据Meta,该技术基于ofc2Vec 2.0的预训练模型。它可以将语音拆成25毫秒的基本单元来分析,并使用上下文转换语音内容以提高识别准确性。

在官方博客中,Meta表示其目标是用单一模型识别全球7,000多种语言以改进算法转化算法。

元宇宙离我们仍然有一段距离,但是作为Meta虚拟世界的基础建设之一的XLS-R等技术可能在其他领域中发挥作用。

也许不久之后,我们可以看到越来越多的应用程序支持更多语言的语音翻译功能

他说:对话是人与人互动的自然方法,而语音技术可以使我们能够与设备和虚拟系统进行交互,从而使虚拟体验与物理世界更加融合在一起。

可以识别的语言类型也是其他模式的两倍以上。

经过37种语言鉴定后,发现XLS-R的表现优于以前的计划;微调后,XLS-R可以在英语和21种其他语言之间实时进行语音互译。

与较小的型号相比,大规模模式的效果更好,因为参数越多意味着包含更多语言的数据,训练效果就更充分了。

Wav2Vec 2.0类似于MUT,通过预测音频模块部分的语音单元进行培训。

鉴定仪负责评估预测的音素序列是否真实。

此外,官方还提供不同参数的语音识别模型以及15种语言和英语之间的互译模式供用户下载软件