网站制作厦门,使用代理服务器后看什么网站,商城建站系统多少钱,免费个人简历模板网站参考视频#xff1a; BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili 背景
BERT算是NLP里程碑式工作#xff01;让语言模型预训练出圈#xff01;
使用预训练模型做特征表示的时候一般有两类策略#xff1a;
1. 基于特征 feature based #xff08;Elmo#xff09;…参考视频 BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili 背景
BERT算是NLP里程碑式工作让语言模型预训练出圈
使用预训练模型做特征表示的时候一般有两类策略
1. 基于特征 feature based Elmo把学到的特征和输入一起放进去做一个很好的特征表达
2. 基于微调 fine-tuning GPT
但是都用的是单向语言模型↑ 预测模型所以限制了语言架构比如说只能从左往右读 Masked Language Model
为了接触限制BERT用的是一个带掩码的语言模型MLMMasked Language Model随机选字元盖住预测盖住的字
看多模态模型的时候有提到过↑ next sentence prediction
在原文中随机取两个句子让模型判断句子是否相邻
贡献
1. 说明双向信息的重要性 2.假设有比较好的预训练模型就不用对特定任务做特定的模型改动了
主要就是把前人的结果拓展到深的双向的模型架构上
相关工作
1. Unsupervised Feature-based Approches
2. Unsupervised Fine-tuning ApproachesGPT
3. 在有标号的数据上进行迁移学习 Transfer Learning from Supervised Data) 方法
模型 本篇工作调整了LTransformer模块的个数H隐藏层的个数以及A自注意力头的个数
BERT BaseL12, H768, A12
BERT LargeL24, H1024, A16
如何把超参数换算成可学习参数的大小
可学习参数主要来自嵌入层以及Transformer Block
嵌入层
输入字典的大小
↓
Transformer Block(自注意力MLP
自注意力头个数A x 64
Transformer Block 的可学习参数是H^2 *4 (自注意力)
MLP H^2 *8
此处合起来Transformer的参数是H^2 *12*L
↓
输出隐藏单元的个数H
总参数36K * H L*H*12110M 输入和输出
输入
序列sequence既可以是句子也可是句子对
切词方法 WordPiece节省参数
序列的第一个词永远是序列[CLS]因为bert希望它最后输出代表整个序列的一个信息
把两个句子合在一起的时候需要区分两个句子
1把每个句子后面放上特殊的词[SEP]
2) 学一个嵌入层 对每个词元进入BERT的向量表示是词元本身的embedding加句子embedding加position embedding 缺点
与GPTImproving Language Understanding by Generative Pre-Training比BERT用的是编码器GPT用的是解码器。BERT做机器翻译、文本的摘要生成类的任务不好做。 写的不算全后面看到后面补。