微网站建设方向,网店营销推广策略,如何建立网站赚钱,广州网站建设兼职#x1f468;#x1f393;作者简介#xff1a;一位即将上大四#xff0c;正专攻机器学习的保研er #x1f30c;上期文章#xff1a;机器学习深度学习——NLP实战#xff08;自然语言推断——注意力机制实现#xff09; #x1f4da;订阅专栏#xff1a;机… 作者简介一位即将上大四正专攻机器学习的保研er 上期文章机器学习深度学习——NLP实战自然语言推断——注意力机制实现 订阅专栏机器学习深度学习 希望文章对你们有所帮助 在上一节使用了注意力机制来实现自然语言推断模型后面会给出更好的实现方式也就是利用微调BERT来进行实现而自然语言推断模型是针对序列级的模型在这里先分别针对序列级和词元级的问题讲解如何应用微调BERT。 针对序列级和词元级应用微调BERT 引入序列级任务单文本分类文本对分类或回归 词元级任务文本标注问答 小结 引入
在之前我们分别为自然语言处理的应用设计了几个模型包括基于RNN、CNN、注意力和多层感知机。这些模型在有空间或时间限制的情况下是有帮助的但是为每个自然语言处理任务精心设计一个特定的模型实际上是不可行的。在之前已经讲解过了BERT的预训练模型该模型可以对广泛的自然语言处理任务进行最少的架构更改。一方面在提出时BERT改进了各种自然语言处理任务的技术水平。另一方面原始BERT模型的两个版本分别带有1.1亿和3.4亿个参数。因此当有足够计算资源时我们可以考虑为下游自然语言处理应用微调BERT。 下面我们将自然语言处理应用的子集概括为序列级和词元级。在序列层次上介绍了在单文本分类任务和文本对分类或回归任务中如何将文本输入的BERT表示转换为输出标签。在词元级别我们将简要介绍新应用如文本标注和问答并说明BERT如何表示它们的输入并转换为输出标签。在微调期间不同应用之间的BERT所需的“最小架构更改”是额外的全连接层。在下游应用的监督学习期间额外层的参数是从零开始学习的而预训练BERT模型中的所有参数都是微调的。
序列级任务
单文本分类
单文本分类将单个文本序列作为输入并输出其分类结果之前的情感分析就是单文本分类问题。 BERT的输入序列明确表示了是单个文本还是文本对其中特殊分类标记“cls”用于序列分类而特殊分类标记“sep”标记单个文本的结束或分隔成对文本。如上图所示在单文本分类应用中特殊分类标记“cls”的BERT表示对整个输入文本序列的信息进行编码。作为输入单个文本的表示它将被送入到由全连接稠密层组成的小多层感知机中以输出所有离散标签值的分布。
文本对分类或回归
上一节中的自然语言推断就是文本对分类问题除此之外还有语义文本相似度问题以一对文本作为输入但输出连续值数据集中句子对的相似度得分时0无语义重叠到5语义等价的分数区间。我们的目标就是预测这些分数。 与单文本分类相比文本对分类的微调BERT在输入表示上有所不同。对于文本对回归任务如语义文本相似性可以应用细微的更改例如输出连续的标签值和使用均方损失回归问题中很常见。
词元级任务
文本标注
文本标注中每个词元都被分配了一个标签。在文本标注任务中词性标注为每个单词分配词性标记例如形容词和限定词。 与单文本分类相比文本标注的输入文本的每个词元的BERT表示被送到相同的额外全连接层中以输出词元的标签例如词性标签。
问答
作为另一个词元级应用问答反映阅读理解能力。例如斯坦福问答数据集SQuAD v1.1的目标是在给定问题和段落的情况下预测段落中文本片段的开始和结束。 为了微调BERT进行问答在BERT的输入中将问题和文章分别作为第一个和第二个文本序列。 为了预测文本片段开始的位置相同的额外的全连接层将把来自位置的任何词元的BERT表示转换成标量分数si。文章中所有词元的分数还通过softmax转换成概率分布从而为文章中的每个词元位置i分配作为文本片段开始的概率pi。预测文本片段的结束与上面相同只是其额外的全连接层中的参数与用于预测开始位置的参数无关。 当预测结束时位置i的词元由相同的全连接层变换成标量分数ei。 对于问答监督学习的训练目标就像最大化真实值的开始和结束位置的对数似然一样简单。当预测片段时我们可以计算从位置i到位置j的有效片段的分数siei并输出分数最高的跨度。
小结
1、对于序列级和词元级自然语言处理应用BERT只需要最小的架构改变额外的全连接层如单个文本分类例如情感分析和测试语言可接受性、文本对分类或回归例如自然语言推断和语义文本相似性、文本标记例如词性标记和问答。 2、在下游应用的监督学习期间额外层的参数是从零开始学习的而预训练BERT模型中的所有参数都是微调的。