赵家茹近日,Meta正式发布了—套新型的自监模式-XLS-R,用于各种语音任务。
作为Meta创建的历史上最大的模型,XLS-R包含超过20亿个参数,其性能远高于其他类似型号。
值得注意的是,Meta通过单一模型实现对多种语言的广泛语音理解能力,微调了XLS-R,从而获得了语音识别,语音翻译和语言识别等功能软件。
在这里,它是Meta最近发布的Al语言处理模型。
其特点是可以识别128种语言并实现语音识别,语言识别和语音翻译功能。
与市场上常见的语音翻译应用相比,此速度和转译性能实际上是中矩且对口语清晰度有要求。
根据Meta,该技术基于ofc2Vec 2.0的预训练模型。它可以将语音拆成25毫秒的基本单元来分析,并使用上下文转换语音内容以提高识别准确性。
在官方博客中,Meta表示其目标是用单一模型识别全球7,000多种语言以改进算法转化算法。
元宇宙离我们仍然有一段距离,但是作为Meta虚拟世界的基础建设之一的XLS-R等技术可能在其他领域中发挥作用。
也许不久之后,我们可以看到越来越多的应用程序支持更多语言的语音翻译功能。
他说:对话是人与人互动的自然方法,而语音技术可以使我们能够与设备和虚拟系统进行交互,从而使虚拟体验与物理世界更加融合在一起。
可以识别的语言类型也是其他模式的两倍以上。
经过37种语言鉴定后,发现XLS-R的表现优于以前的计划;微调后,XLS-R可以在英语和21种其他语言之间实时进行语音互译。
与较小的型号相比,大规模模式的效果更好,因为参数越多意味着包含更多语言的数据,训练效果就更充分了。
Wav2Vec 2.0类似于MUT,通过预测音频模块部分的语音单元进行培训。
鉴定仪负责评估预测的音素序列是否真实。
此外,官方还提供不同参数的语音识别模型以及15种语言和英语之间的互译模式供用户下载软件。