当前位置：首页 > news >正文

网站被k查询wordpress 首页打不开

news 2026/1/13 18:53:39

网站被k查询,wordpress 首页打不开,网站建设详细合同范本,网站活动打造文 | 渊蒙如寐思睿等尽管基于BERT的模型在NLP诸多下游任务中取得了成功#xff0c;直接从BERT导出的句向量表示往往被约束在一个很小的区域内#xff0c;表现出很高的相似度#xff0c;因而难以直接用于文本语义匹配。为解决BERT原生句子表示这种“坍缩”现象#xff0c;… 文 | 渊蒙如寐思睿等尽管基于BERT的模型在NLP诸多下游任务中取得了成功直接从BERT导出的句向量表示往往被约束在一个很小的区域内表现出很高的相似度因而难以直接用于文本语义匹配。为解决BERT原生句子表示这种“坍缩”现象美团NLP中心知识图谱团队提出了基于对比学习的句子表示迁移方法——ConSERT通过在目标领域的无监督语料上Fine-tune使模型生成的句子表示与下游任务的数据分布更加适配。在句子语义匹配STS任务的实验结果显示同等设置下ConSERT相比此前的SOTA大幅提升了8%并且在少样本场景下仍表现出较强的性能提升。1. 背景2. 研究现状和相关工作2.1 句子表征学习2.2 对比学习3. 模型介绍3.1 问题定义3.2 基于对比学习的句子表示迁移框架3.3 用于文本领域的数据增强方法探索3.4 进一步融合监督信号4. 实验分析4.1 无监督实验4.2 有监督实验4.3 不同的数据增强方法分析4.4 少样本设置下的实验分析4.5 Temperature超参的实验分析4.6 Batch size超参的实验分析5. 总结论文题目:ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer论文链接:https://arxiv.org/abs/2105.11741GitHub:https://github.com/yym6472/ConSERT1. 背景句向量表示学习在自然语言处理NLP领域占据重要地位许多NLP任务的成功离不开训练优质的句子表示向量。特别是在文本语义匹配Semantic Textual Similarity、文本向量检索Dense Text Retrieval等任务上模型通过计算两个句子编码后的Embedding在表示空间的相似度来衡量这两个句子语义上的相关程度从而决定其匹配分数。尽管基于BERT的模型在诸多NLP任务上取得了不错的性能通过有监督的Fine-tune但其自身导出的句向量不经过Fine-tune对所有词向量求平均质量较低甚至比不上Glove的结果因而难以反映出两个句子的语义相似度[1][2][3][4]。我们在研究的过程中进一步分析了BERT导出的句向量所具有的特性证实了以下两点BERT对所有的句子都倾向于编码到一个较小的空间区域内这使得大多数的句子对都具有较高的相似度分数即使是那些语义上完全无关的句子对如图1a所示。我们将此称为BERT句子表示的“坍缩Collapse”现象。▲图1 左BERT表示空间的坍缩问题横坐标是人工标注的相似度分数纵坐标是模型预测的余弦相似度右经过我们的方法Fine-tune之后BERT句向量表示的坍缩和句子中的高频词有关。具体来说当通过平均词向量的方式计算句向量时那些高频词的词向量将会主导句向量使之难以体现其原本的语义。当计算句向量时去除若干高频词时坍缩现象可以在一定程度上得到缓解如图2蓝色曲线所示。▲图2 计算句向量时移除Top-K高频词后的性能变化BERT导出的句向量难以直接用于下游的语义匹配任务而用于Fine-tune的监督语料又是昂贵的。因此我们希望寻找一种自监督的方法只需要收集少量来自于下游任务无标注的文本用于Fine-tune就能解决BERT句向量的“坍缩”问题同时让其表征更适用于下游任务。在本文中我们使用了对比学习Contrastive Learning来达到上述目的。对比学习是目前被广泛应用的自监督任务之一其核心思想为人类是通过“对比”来辨别对象的因此相似的事物在编码后的表示空间中应当相近不同的事物则应当相距尽可能远。通过对同一样本施加不同的数据增强方法我们能够得到一系列“自相似”的文本对作为正例同时将同一个Batch内的其他文本作为负例以此为监督信号去规范BERT的表示空间。在实验中我们发现对比学习能够出色地消解高频词对句子语义表示的干扰如图2橙色曲线所示。在经过对比学习训练之后模型生成的句子表示将不再由高频词主导体现在移除前几个高频词后性能没有出现非常明显的变化。这是因为对比学习“辨别自身”的学习目标能够天然地识别并抑制这类高频特征从而避免语义相差较大的句子表示过于相近即坍缩现象。在对比学习中我们进一步分析了不同的数据增强方法在其中的影响同时验证了我们的方法在少样本情况下的性能表现。实验结果显示即使是在非常有限的数据量情况下如1000条无标注样本我们的方法仍然表现出很强的鲁棒性能够十分有效地解决BERT表示空间的坍缩问题提升在下游语义匹配任务上的指标。2. 研究现状和相关工作2.1 句子表征学习句子表征学习是一个很经典的任务分为以下三个阶段有监督的句子表征学习方法早期的工作[5]发现自然语言推理Natural Language InferenceNLI任务对语义匹配任务有较大的帮助他们使用BiLSTM编码器融合了两个NLI的数据集SNLI和MNLI进行训练。Universal Sentence Encoder[6]USE使用了基于Transformer的架构并使用SNLI对无监督训练进行增强。SBERT[1]进一步使用了一个共享的预训练的BERT编码器对两个句子进行编码在NLI数据集上进行训练Fine-tune。自监督的Sentence-level预训练有监督数据标注成本高研究者们开始寻找无监督的训练方式。BERT提出了NSP的任务可以算作是一种自监督的句子级预训练目标。尽管之后的工作指出NSP相比于MLM其实没有太大帮助。Cross-Thought[7]、CMLM[8] 是两种思想类似的预训练目标他们把一段文章切成多个短句然后通过相邻句子的编码去恢复当前句子中被Mask的Token。相比于MLM额外添加了上下文其他句子的编码对Token恢复的帮助因此更适合句子级别的训练。SLM[9]通过将原本连贯的若干个短句打乱顺序通过改变Position Id实现然后通过预测正确的句子顺序进行自监督预训练。无监督的句子表示迁移预训练模型现已被普遍使用然而BERT的NSP任务得到的表示表现更不好大多数同学也没有资源去进行自监督预训练因此将预训练模型的表示迁移到任务才是更有效的方式。BERT-flow[2]CMU字节AI Lab的工作通过在BERT之上学习一个可逆的Flow变换可以将BERT表示空间映射到规范化的标准高斯空间然后在高斯空间进行相似度匹配。BERT-whitening[10]苏剑林和我们同期的工作。他们提出对BERT表征进行白化操作均值变为0协方差变为单位矩阵就能在STS上达到媲美BERT-flow的效果。SimCSE[11]在我们2月份投稿ACL后看到陈丹琦组在2021年4月份公开的工作。他们同样使用基于对比学习的训练框架使用Dropout的数据增强方法在维基百科语料上Fine-tune BERT。2.2 对比学习对比学习是CV领域从2019年末开始兴起的预训练方法同时最近也被广泛应用到了NLP任务中我们简要介绍两个领域下的进展计算机视觉CV领域的对比学习2019年年末2020年年初Facebook提出MoCo[14]谷歌提出SimCLR[15]自此对比学习开始在无监督图像表示预训练领域大放光彩。SimCLR提出了一种简单的对比学习框架通过对同一个图像进行增强得到两个不同版本随后通过ResNet对图像编码再使用一个映射层将其映射到对比学习空间使用NT-Xent损失进行预训练。本文的框架也主要受到SimCLR的启发。NLP领域的对比学习用于文本表示学习随着对比学习在CV无监督图像表示预训练任务上大获成功许多工作也试图将对比学习引入到NLP的语言模型预训练中。下面是一些代表性的工作及其总结3. 模型介绍3.1 问题定义给定一个类似BERT的预训练语言模型以及从目标领域数据分布中收集的无标签文本语料库我们希望通过构建自监督任务在上对进行Fine-tune使得Fine-tune后的模型能够在目标任务文本语义匹配上表现最好。3.2 基于对比学习的句子表示迁移框架▲图3 ConSERT的基本框架如图3所示我们受到SimCLR的启发对BERT编码器进行了改进提出ConSERT主要包含三个部分一个数据增强模块详见后文作用于Embedding层为同一个句子生成两个不同的增强版本View。一个共享的BERT编码器为输入的句子生成句向量。一个对比损失层用于在一个Batch的样本中计算对比损失其思想是最大化同一个样本不同增强版本句向量的相似度同时使得不同样本的句向量相互远离。训练时先从数据集中采样一个Batch的文本设Batch size为。通过数据增强模块每一个样本都通过两种预设的数据增强方法生成两个版本得到总共条样本。这条样本均会通过共享的BERT编码器进行编码然后通过一个平均池化层得到个句向量。我们采用和SimCLR一致的NT-Xent损失对模型进行Fine-tune这里的函数为余弦相似度函数表示对应的句向量表示temperature是一个超参数实验中取0.1。该损失从直观上理解是让Batch内的每个样本都找到其对应的另一个增强版本而Batch内的其他个样本将充当负样本。优化的结果就是让同一个样本的两个增强版本在表示空间中具有尽可能大的一致性同时和其他的Batch内负样本相距尽可能远。3.3 用于文本领域的数据增强方法探索▲图4 四种高效的数据增强方法Adversarial Attack、Token Shuffling、Cutoff、Dropout均作用于Embedding层图像领域可以方便地对样本进行变换如旋转、翻转、裁剪、去色、模糊等等从而得到对应的增强版本。然而由于语言天然的复杂性很难找到高效的、同时又保留语义不变的数据增强方法。一些显式生成增强样本的方法包括回译利用机器翻译模型将文本翻译到另一个语言再翻译回来。CBERT [12][13] 将文本的部分词替换成[MASK]然后利用BERT去恢复对应的词生成增强句子。意译Paraphrase利用训练好的Paraphrase生成模型生成同义句。然而这些方法一方面不一定能保证语义一致另一方面每一次数据增强都需要做一次模型Inference开销会很大。鉴于此我们考虑了在Embedding层隐式生成增强样本的方法如图4所示对抗攻击Adversarial Attack这一方法通过梯度反传生成对抗扰动将该扰动加到原本的Embedding矩阵上就能得到增强后的样本。由于生成对抗扰动需要梯度反传因此这一数据增强方法仅适用于有监督训练的场景。打乱词序Token Shuffling这一方法扰乱输入样本的词序。由于Transformer结构没有“位置”的概念模型对Token位置的感知全靠Embedding中的Position Ids得到。因此在实现上我们只需要将Position Ids进行Shuffle即可。裁剪Cutoff又可以进一步分为两种Token Cutoff随机选取Token将对应Token的Embedding整行置为零。Feature Cutoff随机选取Embedding的Feature将选取的Feature维度整列置为零。DropoutEmbedding中的每一个元素都以一定概率置为零与Cutoff不同的是该方法并没有按行或者按列的约束。这四种方法均可以方便地通过对Embedding矩阵或是BERT的Position Encoding进行修改得到因此相比显式生成增强文本的方法更为高效。3.4 进一步融合监督信号除了无监督训练以外我们还提出了几种进一步融合监督信号的策略联合训练joint有监督的损失和无监督的损失通过加权联合训练模型。先有监督再无监督sup-unsup先使用有监督损失训练模型再使用无监督的方法进行表示迁移。联合训练再无监督joint-unsup先使用联合损失训练模型再使用无监督的方法进行表示迁移。4. 实验分析我们主要在文本语义匹配Semantic Textual SimilaritySTS任务上进行了实验包括七个数据集STS12、STS13、STS14、STS15、STS16、STSb、SICK-R。其中STS12-16为SemEval2012 2016评测比赛放出的数据集STSb为STS benchmark来自于SemEval2017评测赛SICK-R 表示 SICK-Relatedness是SICKSentences Involving ComPositional Knowledge数据集中的一个子任务目标是推断两个句子时间的语义相关性即Relatedness。这些数据集中的样本均包含两个短文本text1和text2以及人工标注的位于05之间的分数代表text1和text2语义上的匹配程度5表示最匹配即“两句话表达的是同一个语义”0表示最不匹配即“两句话表达的语义完全不相关”。下面给出了两条样本作为示例在测试时我们根据此前的工作[1][2]选择了斯皮尔曼相关系数Spearman correlation作为评测指标它将用于衡量两组值模型预测的余弦相似度和人工标注的语义相似度之间的相关性结果将位于[-1, 1]之间仅当两组值完全正相关时取到1。对于每个数据集我们将其测试样本全部融合计算该指标并且报告了七个数据集的平均结果。考虑到简洁性会在表格中报告乘以100倍的结果。4.1 无监督实验▲图5 无监督设置下的实验结果在无监督实验中我们直接基于预训练的BERT在无标注的STS数据上进行Fine-tune。结果显示我们的方法在完全一致的设置下大幅度超过之前的SOTA—BERT-flow达到了8%的相对性能提升。4.2 有监督实验▲图6 有监督设置下的实验结果在有监督实验中我们额外使用了来自SNLI和MNLI的训练数据使用上面提到的融合额外监督信号的三种方法进行了实验。实验结果显示我们的方法在“仅使用NLI有标注数据”和“使用NLI有标注数据 STS无标注数据”的两种实验设置下均超过了基线。在三种融合监督信号的实验设置中我们发现_joint-unsup_方法取得了最好的效果。4.3 不同的数据增强方法分析▲图7 不同数据增强组合方法的性能我们对不同的数据增强组合方法进行了消融分析结果如图7所示。我们发现Token Shuffle和Feature Cutoff的组合取得了最优性能72.74。此外就单种数据增强方法而言Token Shuffle Token Cutoff Feature Cutoff ≈ Dropout None。4.4 少样本设置下的实验分析我们进一步分析了数据量无标注文本的数目对效果的影响结果如图8所示。结果显示我们的方法仅需较少的样本就能近似达到全数据量的效果同时在样本量很少的情况下如100条文本的情况下仍相比于Baseline表现出不错的性能提升。▲图8 ConSERT在小样本情况下的性能4.5 Temperature超参的实验分析在实验中我们发现对比学习损失函数中的温度超参数对于结果有很大影响。从图9的分析实验中可以看到当值在0.08到0.12之间时会得到最优结果。这个现象再次证明了BERT表示的塌缩问题因为在句子表示都很接近的情况下过大会使句子间相似度更平滑编码器很难学到知识。而如果过小任务就太过简单所以需要调整到一个合适的范围内。▲图9 不同超参数下的性能4.6 Batch size超参的实验分析在图像领域的对比学习中Batch size会对结果有很大影响因此我们也对比了不同Batch size下模型的表现。从图10可以看到两者基本是成正比的但提升很有限。▲图10 不同Batch size下的性能5. 总结在此工作中我们分析了BERT句向量表示空间坍缩的原因并提出了一种基于对比学习的句子表示迁移框架ConSERT。ConSERT在无监督Fine-tune和进一步融合监督信号的实验中均表现出了不错的性能同时当收集到的样本数较少时仍能有不错的性能提升表现出较强的鲁棒性。同时在美团的业务场景下有大量不同领域的短文本相关性计算需求目前ConSERT已经在知识图谱构建、KBQA、搜索召回等业务场景使用。未来将会在美团更多业务上进行探索落地。目前相关代码已经在 GitHub上开源 (https://github.com/yym6472/ConSERT)欢迎大家使用。后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1].Reimers, Nils, and Iryna Gurevych. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019.[2].Li, Bohan, et al. On the Sentence Embeddings from Pre-trained Language Models. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.[3].Gao, Jun, et al. Representation Degeneration Problem in Training Natural Language Generation Models. International Conference on Learning Representations. 2018.[4].Wang, Lingxiao, et al. Improving Neural Language Generation with Spectrum Control. International Conference on Learning Representations. 2019.[5].Conneau, Alexis, et al. Supervised Learning of Universal Sentence Representations from Natural Language Inference Data. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017.[6].Cer, Daniel, et al. Universal Sentence Encoder for English. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2018.[7].Wang, Shuohang, et al. Cross-Thought for Sentence Encoder Pre-training. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.[8].Yang, Ziyi, et al. Universal Sentence Representation Learning with Conditional Masked Language Model. arXiv preprint arXiv:2012.14388 (2020).[9]. Lee, Haejun, et al. SLM: Learning a Discourse Language Representation with Sentence Unshuffling. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.[10]. Su, Jianlin, et al. Whitening sentence representations for better semantics and faster retrieval. arXiv preprint arXiv:2103.15316 (2021).[11].Gao, Tianyu, Xingcheng Yao, and Danqi Chen. SimCSE: Simple Contrastive Learning of Sentence Embeddings. arXiv preprint arXiv:2104.08821 (2021).[12].Wu, Xing, et al. Conditional bert contextual augmentation. International Conference on Computational Science. Springer, Cham, 2019.[13].Zhou, Wangchunshu, et al. BERT-based lexical substitution. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.[14]. He, Kaiming, et al. Momentum contrast for unsupervised visual representation learning. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.[15].Chen, Ting, et al. A simple framework for contrastive learning of visual representations. International conference on machine learning. PMLR, 2020.[16].Zhang, Yan, et al. An Unsupervised Sentence Embedding Method by Mutual Information Maximization. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.[17]. Fang, Hongchao, et al. Cert: Contrastive self-supervised learning for language understanding. arXiv preprint arXiv:2005.12766 (2020).[18].Carlsson, Fredrik, et al. Semantic re-tuning with contrastive tension. International Conference on Learning Representations. 2021.[19]. Giorgi, John M., et al. Declutr: Deep contrastive learning for unsupervised textual representations. arXiv preprint arXiv:2006.03659 (2020).[20]. Wu, Zhuofeng, et al. CLEAR: Contrastive Learning for Sentence Representation. arXiv preprint arXiv:2012.15466(2020).

查看全文

http://www.yutouwan.com/news/450353/