BERT相关——(3)BERT模型

引言

BERT是一种基于微调的多层双向Transformer编码器,但实际上BERT只包括了Transformer的Encoder结构

BERT

BERT模型结构

BERT输入与原始Transformer类似(input embedding和position encoding结合),然后进入由多个Encoder堆叠而成的Encoder堆栈;最后进行输出。

BERT有两个版本的BERT模型,在两个版本中前馈大小都设置为4层:

  1. BERT BASE:L=12,H=768,A=12,Total Parameters=110M
  2. BERT LARGE:L=24,H=1024,A=16,Total Parameters=340M

其中层数(即Transformer blocks块)表示为L,隐藏大小表示为H,自注意力的数量为A。

BERT设计了两种方式来更好地学习Contextualized Word Embedding。

Masked Language Model(MLM 语言模型)

Encoder中的Self Attention 层,每个 token 会把大部分注意力集中到自己身上,这样将容易预测到每个 token,模型学不到有用的信息。

找到合适的任务来训练一个 Transformer 的 Encoder 是一个复杂的问题,BERT 在语言建模任务中,使用早期文献中的"masked language model"概念(在这里被称为完形填空),巧妙地屏蔽了输入中 15% 的单词,并让模型预测这些屏蔽位置的单词。以此解决这个问题。

除了屏蔽输入中 15% 的单词外, BERT 还混合使用了其他的一些技巧,例如,有时它会随机地用一个词替换另一个词,然后让模型预测这个位置原来的实际单词。

Next Sentence Prediction

很多句子级别的任务如自动问答(QA)和自然语言推理(NLI)都需要理解两个句子之间的关系

因此为了让 BERT 更好地处理多个句子之间的关系,预训练过程还包括一个额外的任务:给出两个句子(A 和 B),判断 B 是否是 A 后面的相邻句子。

Next Sentence Prediction任务随机将数据划分为等大小的两部分,一部分数据中的两个语句对是上下文连续的,另一部分数据中的两个语句对是上下文不连续的。然后让Transformer模型来识别这些语句对中,哪些语句对是连续的,哪些对子不连续

positional encoding

最后训练好的BERT模型两个权重矩阵:token encodingspositional encodings,也就是说positional encodings是随着网络一起训练的。positional encoding参考之前写的博客:Transformer相关——(4)Poisition encoding

BERT Layer

与ELMO相同,BERT也有很多层,那每一层到底都学到了什么呢?

BERT的每一层做的像是NLP各个任务的pipeline,且层由浅入深其代表的NLP任务越来越复杂。

举例来说,如上图BERT有24层,所以每个词汇有24个vector,把这些vector乘上对应的权重参数加权求和得到最终词汇的embedding。

上图右侧就是把BERT的每一层的权重参数提取出来,深蓝色的方块就是权重参数。可以看到对于POS词性标注任务,第10-12层的权重参数更大,表示这几层对于POS来说是更重要的。而困难一些的NLP任务可以看到后面几层的权重参数更大,这也就体现了BERT对于语言模型的理解能力,由浅入深,由简至难。

参考文献

5. BERT算法原理解析

课程向:深度学习与人类语言处理 ——李宏毅,2020 (P18)