Java教程

NLP-预训练模型-2019:T5【Text-to-Text 预训练模型超大规模探索】

本文主要是介绍NLP-预训练模型-2019:T5【Text-to-Text 预训练模型超大规模探索】,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

《原始论文:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》

2019年10月,Google 在《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》这篇论文中提出了一个最新的预训练模型 T5(Text-To-Text Transfer Transformer),其参数量达到了 110 亿,完爆 Bert Large 模型,且在多项 NLP 任务中达到 SOTA 性能。有人说,这是一种将探索迁移学习能力边界的模型。

当然,最大的冲击还是财大气粗,bigger and bigger,但翻完它长达 34 页的论文,发现其中的分析无疑是诚意满满(都是钱)。类似这样的大型实验探索论文也有一些,首先提出一个通用框架,接着进行了各种比对实验,获得一套建议参数,最后得到一个很强的 baseline。而我们之后做这方面实验就能参考它的一套参数。

对于 T5 这篇论文,Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer,无疑也是类似的论文。它的意义不在烧了多少钱,也不在屠了多少榜(砸钱就能砸出来),其中 idea 创新也不大,它最重要作用是给整个 NLP 预训练模型领域提供了一个通用框架,把所有任务都转化成一种形式,正如论文里所说的

introducing a unified framework that converts every language problem into a text-to-text format.

之后未来做 NLP 实验时,可能就不再是自己怎么调一些模型了,而是无论什么任务,直接拿来一个超大预训练模型,然后主要工作就变成了怎么把任务转换成合适的文本输入输出,于是我们就成了带引号的”数据科学家“。而且可以用于多种任务,而模型对这些任务的区分只是根据你构建的输入输出形式,其实这让我想起 Jeff Dean 在某次谈话中谈到的谷歌未来方向,想做一个超级模型,什么任务都能直接处理,而它内部可以是稀疏的,或者可以局部 Distill,来对单独任务进行处理。




参考资料:
T5,一个探索迁移学习边界的模型
T5 模型:NLP Text-to-Text 预训练模型超大规模探索
Google预训练语言模型T5

这篇关于NLP-预训练模型-2019:T5【Text-to-Text 预训练模型超大规模探索】的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!