有哪些程序网站,网站建设丿金手指谷哥14,烟台网站网站建设,2022年十大流行语文 | 刘聪NLP源 | NLP工作站写在前面大家好#xff0c;我是刘聪NLP。今天给大家带来一篇IJCAI2022浙大和阿里联合出品的采用对比学习的字典描述知识增强的预训练语言模型-DictBERT#xff0c;全名为《Dictionary Description Knowledge Enhanced Language Model Pre-training… 文 | 刘聪NLP源 | NLP工作站写在前面大家好我是刘聪NLP。今天给大家带来一篇IJCAI2022浙大和阿里联合出品的采用对比学习的字典描述知识增强的预训练语言模型-DictBERT全名为《Dictionary Description Knowledge Enhanced Language Model Pre-training via Contrastive Learning》paper地址https://arxiv.org/pdf/2208.00635.pdf又鸽了许久其实最近看到一些有趣的论文大多以知乎想法的形式发了感兴趣可以去看看其实码字还是很不易的~介绍预训练语言模型PLMs目前在各种自然语言处理任务中均取得了优异的效果并且部分研究学者将外部知识知识图谱融入预训练语言模型中后获取了更加优异的效果但具体场景下的知识图谱信息往往是不容易获取的因此我们提出一种新方法DictBert将字典描述信息作为外部知识增强预训练语言模型相较于知识图谱的信息增强字典描述更容易获取。在预训练阶段提出来两种新的预训练任务来训练DictBert模型通过掩码语言模型任务和对比学习任务将字典知识注入到DictBert模型中其中掩码语言模型任务为字典中词条预测任务Dictionary Entry Prediction对比学习任务为字典中词条描述判断任务Entry Description Discrimination。在微调阶段我们将DictBert模型作为可插拔的外部知识库对输入序列中所包含字典中的词条信息作为外部隐含知识内容注入到输入中并通过注意机制来增强输入的表示最终提升模型表征效果。模型字典描述知识字典是一种常见的资源它列出了某一种语言所包含的字/词并通过解释性描述对其进行含义的阐述常常也会指定它们的发音、来源、用法、同义词、反义词等如下表所示我们主要利用四种信息进行模型的预训练包括词条、描述、同义词和反义词。在词条预测任务中利用字典的词条及其描述进行知识学习在词条描述判断任务中利用同义词和反义词来进行对比学习从而学习到知识表征。预训练任务预训练任务主要包含字典中词条预测任务和字典中词条描述判断任务如下图所示。词条预测任务实际上是一个掩码语言模型任务给定词条和它对于的描述然后将词条的内容使用特殊字符[MASK]进行替换最终将其[MASK]内容进行还原。注意当词条包含多个token时需要将其全部掩掉。词条描述判断任务实际上是一个对比学习任务而对比学习就是以拉近相似数据推开不相似数据为目标有效地学习数据表征。如下表所示对于词条“forest”正例样本为同义词“woodland”负例样本为反义词“desert”。对比学习中分别对原始词条描述、正例样本描述和负例样本描述进行模型编码获取、和获取对比学习损失402 Payment Required最终模型预训练的损失为其中为0.4为0.6。微调任务在微调过程中将DictBert模型作为可插拔的外部知识库如下图所示首先识别出输入序列中所包含字典中的词条信息然后通过DictBert模型获取外部信息表征再通过三种不同的方式进行外部知识的注入最终将其综合表征进行下游具体的任务。并且由于可以事先离线对一个字典中所有词条进行外部信息表征获取因此在真实落地场景时并不会增加太多的额外耗时。知识注入的方式包含三种Pooled Output Concatenation即将所有词条的信息表征进行求和然后与原始模型的进行拼接最终进行下游任务Extra-hop Attention即将所有词条的信息表征对进行attition操作获取分布注意力后加权求和的外部信息表征然后与原始模型的进行拼接最终进行下游任务Layer-wise Extra-hop Attention即将所有词条的信息表征对每一层的进行attition操作获取每一层分布注意力后加权求和的外部信息表征然后对其所有层进行mean-pooling操作然后与原始模型的进行拼接最终进行下游任务结果如下表所示采用剑桥字典进行预训练后的DictBert模型在CoNLL2003、TACRED、CommonsenseQA、OpenBookQA和GLUE上均有提高。其中Concat表示Pooled Output Concatenation方式EHA表示Extra-hop AttentionLWA表示Layer-wise Extra-hop AttentionK表示仅采用词条进行信息表征KV表示采用词条和描述进行信息表征。总结挺有意思的一篇论文吧相较于知识图谱来说字典确实较容易获取并在不同领域中也比较好通过爬虫的形式进行词条和描述的获取并且由于字典的表征可以进行离线生成所以对线上模型的耗时并不明显主要在attention上。后台回复关键词【入群】加入卖萌屋NLP、CV、搜推广与求职讨论群