谷歌优秀 NLP 预训练模型开源

发布时间：2021-02-26 15:11:42 所属栏目：外闻来源：互联网

导读：来，语言预训练模型的最新进展使得自然语言处理也取得了重大进展，其中不乏一些最先进的模型，例如：BERT，RoBERTa，XLNet，ALBERT 和 T5 等。这些方法虽然在设计上有所不同，但在利用特定的 NLP 任务（例如：情感分析和问题解答等）进行微调时，有着相同思

来，语言预训练模型的最新进展使得自然语言处理也取得了重大进展，其中不乏一些最先进的模型，例如：BERT，RoBERTa，XLNet，ALBERT 和 T5 等。

这些方法虽然在设计上有所不同，但在利用特定的 NLP 任务（例如：情感分析和问题解答等）进行微调时，有着相同思路，即：利用大量未标记的文本，来构建语言理解的通用模型。

因此，现有的预训练方法通常分为两类：语言模型（LM），例如：GPT。该类方法按照从左到右的顺序处理输入文本，然后在给定先前上下文的情况下，预测下一个单词。

另一个则是掩码语言模型（MLM），例如：BERT，RoBERTa 和 ALBERT。这类模型它们分别预测输入中已被屏蔽的少量单词内容。MLM 相比 LM 而言，具有双向预测的优势，因为它可以看到要预测的单词左侧和右侧的文本。

但 MLM 模型预测也有缺点，这些模型的预测仅限于输入标记的某个很小的子集（被掩盖部分的 15%），从而减少了他们从每个句子中获得信息的量，增加了计算成本

替换令牌来自生成器的神经网络。生成器的目标是训练掩码语言模型，即给定输入序列后，按照一定的比例（通常 15%）将输入中的词替换成掩码；然后通过网络得到向量表示；之后再采用 softmax 层，来预测输入序列中掩盖位置的词。

尽管生成器的结构类似于 GAN，但由于难以将该方法应用于文本任务，因此得到的训练目标函数为掩盖词的最大似然。

之后，生成器和判别器共享相同的输入词嵌入。判别器的目标是判断输入序列每个位置的词是否被生成器替换，如果与原始输入序列对应位置的词不相同，就判别为已替换。

（编辑：信阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!