英伟达(Nvidia)今天宣布,它已经训练出世界上最大的语言模型,这是这家GPU制造商旨在推进对话人工智能的一系列更新中的最新一个。
为了实现这一壮举,Nvidia利用了模型并行性,将一个神经网络分解成若干块,并使用一种技术来创建太大而无法容纳单个GPU内存的模型。该模型使用了83亿个参数,比BERT大24倍,比OpenAI的GPT-2大5倍。
Nvidia还宣布了双向编码器表示(BERT)的最快训练和推理时间,这是一种流行的模型,在2018年由谷歌开源时是最先进的。
Nvidia能够使用优化的PyTorch软件和超过1000个gpu的DGX-SuperPOD来训练BERT,耗时53分钟。
Nvidia应用深度学习副总裁Bryan Catarazano在与记者和分析师的对话中表示:“如果没有这种技术,可能需要数周时间来训练这些大型语言模型。”
Nvidia还声称,它已经实现了最快的BERT推理时间,在特斯拉T4 GPU和TensorRT 5.1上运行,为数据中心推理进行了优化,下降到2.2毫秒。卡塔拉萨诺说,当使用cpu时,伯特推理的时间可达40毫秒,而现在许多人工智能对话操作的时间可达10毫秒。
gpu也为微软的Bing带来了收益,后者使用Nvidia硬件将延迟时间缩短了一半。
今天介绍的每一项改进都是为了强调Nvidia的GPU在语言理解方面的性能提升。上述每一个壮举的代码今天都是开源的,以帮助人工智能从业者和研究人员探索大型语言模型的创建或使用gpu进行速度训练或推理。
除了单词错误率的大幅下降外,延迟的减少也是提高流行人工智能助手(如亚马逊的Alexa、谷歌Assistant和百度的Duer)采用率的主要因素。
几乎没有延迟的交流将导致机器与人之间的对话,这种对话更像是人与人之间的对话,通常以思维的速度进行。
就像今年为微软的Cortana、Alexa和谷歌Assistant引入的多回合对话功能一样,与助手的实时交流也让交互变得更加自然。
会话人工智能系统的发展水平在很大程度上围绕着谷歌基于转换的语言模型在2017年和BERT在2018年的发展。
从那以后,BERT就被微软的MT-DNN、谷歌的XLNet和百度的ERNIE超越了,它们都建立在BERT的基础上。Facebook在7月份推出了同样源自BERT的RoBERTa。罗伯塔目前在GLUE基准排行榜上名列前茅,在9个语言任务中有4个是最好的。每个模型在粘合任务上的表现都优于人类基线。