谷歌大脑和卡内基梅隆大学(Carnegie Mellon University)的一组研究人员本周介绍了XLNet,这是一种人工智能模型,能够在20项NLP任务中胜过谷歌的前沿BERT,并在18项基准测试任务中获得最先进的结果。BERT(来自Transform的双向编码器表示)是谷歌的语言表示模型,用于NLP模型的无监督预训练,于去年秋天首次引入。
XLNet在几个任务中实现了最先进的性能,包括7个GLUE语言理解任务、3个阅读理解任务(比如SQuAD)和7个文本分类任务(包括处理Yelp和IMDB数据集)。与BERT相比,使用XLNet进行文本分类的错误率显著降低了16%。2018年秋,谷歌开放了BERT的源代码。
XLNet利用了最佳的自回归和自编码方法,这些方法用于无监督的预训练,在arXiv周三发表的一篇论文中详细介绍了各种技术。
“XLNet是一种广义的自回归前训练方法,它通过最大化因子分解顺序所有排列的期望可能性来实现双向上下文学习,并且[……]克服了BERT的局限性,这得益于它的自回归公式,”论文写道。
这个模型的名字来源于Transformer-XL,这是一个自回归模型,今年1月由同一组研究人员发布。XLNet采用Transformer-XL的片段递归机制前训练方法和相关编码方案。该模型还借鉴了NADE,后者是由来自谷歌DeepMind、Twitter和学术界的研究人员创建的,用于其排列语言建模方法。
XLNet是最近出现的性能优于BERT的NLP模型。微软人工智能研究人员在5月份引入了多任务深度神经网络(MT-DNN)。该模型以BERT为基础,但在大量理解GLUE语言的基准性能任务上取得了较好的性能。