当前位置: 首页 > news >正文

有哪些做动图的网站wordpress数据库里面改端口

有哪些做动图的网站,wordpress数据库里面改端口,软件营销之群排名优化教程,软件中心文 | 香侬科技编 | 兔子酱背景预训练#xff08;Pre-training#xff09;模型自BERT问世以来就一发不可收拾#xff0c;目前已经在自然语言理解和生成两个方面取得了突破性成就。但是#xff0c;作为它的一个“兄弟”#xff0c;自训练#xff08;Self-training#xff… 文 | 香侬科技编 | 兔子酱背景预训练Pre-training模型自BERT问世以来就一发不可收拾目前已经在自然语言理解和生成两个方面取得了突破性成就。但是作为它的一个“兄弟”自训练Self-training 却很少在自然语言处理中露脸。本文探究了预训练之上的自训练方法从大规模语料中先抽取领域内数据再用一个Teacher模型生成伪监督数据用于训练Student模型这样就能大幅提升单纯基于预训练模型的效果。自训练的有效性在一定程度上表明了它与预训练是互补的二者结合能带来全新表现。论文标题Self-training Improves Pre-training for Natural Language Understanding下载链接https://arxiv.org/abs/2010.02194Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【1029】 下载论文PDF~自训练与预训练预训练Pre-training从广义上来讲是指先在较大规模的数据上对模型训练一波然后再在具体的下游任务数据中微调。大多数情况下预训练的含义都比较狭窄在大规模无标注语料上用自监督的方式训练模型。这里的自监督方法一般指的是语言模型。除了预训练之外我们还经常在图像领域看到它的一个兄弟自训练Self-training 。自训练是说有一个Teacher模型和一个Student模型首先在标注数据上训练然后用它对大规模无标注数据进行标注把得到的结果当做伪标注数据去训练。显然预训练和自训练都用到了大规模无标注的数据只是二者的处理过程不同。而且其中非常重要的一点是预训练始终对针对一个模型进行操作而自训练却用到了两个模型前者是直接从无标注数据中学习而后者是间接地从数据中学习。它们的区别可以用下图表示那么一个自然的问题是这两个方法可以结合起来达到更好的效果吗本文给出了答案当然可以首先预训练一个模型然后把这个模型在标注数据上训练后当做再用它去标注另外一批无标注数据把得到的伪标注数据用来训练最后在推理测试的时候使用即可。从这个过程中可以发现预训练是为了更好地自训练自训练是为了更好地训练二者结合缺一不可。总之本文有如下的贡献结合自训练与预训练比单纯的预训练取得了大幅度的效果提升为了使伪标注数据更加契合下游的具体任务提出了 SentAugment一种特定领域的数据抽取方法 减少通用语料造成的噪声干扰在知识蒸馏和小样本学习任务上也取得了突出的结果证明自训练预训练的优越性。自训练处理流程本文所提出的方法可以用下面的图表示大体分为四步将一个预训练模型本文使用RoBERTa_Large在标注数据上训练作为教师模型使用从海量通用语料中提取相关领域的数据用对提取的数据作标注用伪标注语料训练学生模型。其中的1,3,4步都是确定的所以我们重点关注如何使用从海量通用语料库中抽取出领域相关的语料。句子编码通用语料库来自Common-Crawl直接把文档切分为句子然后以句子为基本单位进行数据提取。本文使用句子编码方法用一个编码向量去表示每一个句子。这个句子编码器在多个复述Paraphrase数据集上训练并且还使用了BERT的掩码语言模型在多语言语料上训练之后就可以用于编码每个句子得到各自对应的特征向量。在后文中我们默认使用Transformer编码器。任务编码句子编码只能表示通用语料库中每个句子的含义还不能区分哪些句子是符合领域要求的这就需要用一个特殊的任务编码作为查询条件去表示我们想要的句子是怎样的。也就是说只需要计算句子编码和任务编码的余弦值就知道这个句子是不是符合要求。为此考虑三种任务编码All-Average: 将训练所用的所有句子编码平均起来作为任务编码Label-Average: 将训练所用的每个类别的所有句子编码平均起来作为各个类别的任务编码Per-Sentence将训练所用的每个句子都作为一个单独的任务编码。相关领域数据提取在获取任务编码后就可以把它们作为询问根据余弦值大小从通用语料库中抽取相关的句子这可以减少通用语料对下游特定任务的噪声干扰。对于每个类别只抽取Top-K个句子并且对提取的句子还要满足能取得较高的置信度。提取了相关领域的数据后用对其中每一个句子预测它的标签是什么得到其软标签或者one-hot硬标签这取决于训练的方法是什么。但无论如何到此为止我们都得到了一个伪标注数据库。用伪标注语料训练在得到伪标注语料后就可以用它去训练了。为此我们考虑三种训练方法自训练Self-Training将另一个预训练的RoBERTa_Large作为使用one-hot硬标签在上训练知识蒸馏Knowledge-Distillation将一个预训练的RoBERTa_Small作为使用软标签在上训练少样本学习Few-Shot训练所使用的标注数据是少样本伪标注语料的大小是标注数据的2~3个数量级是RoBERTa_Large使用one-hot硬标签在上训练。实验根据上述训练的不同方法我们依次来探究在不同训练设置下自训练是否能进一步提高预训练的效果。数据集包括SST-2SST-3CRIMPTRECCoNLL2002除了最后一个是命名实体识别任务之外其他都是分类任务。自训练下图是在自训练设置下的实验结果ICP是In-domain Continued Pretraining即直接在上预训练而不使用预测得到的标签ST是Self-Training自训练。可以看到1、没有伪标注数据单纯的预训练不能很好地实现领域知识迁移还要借助标注数据。2、尽管都是在相关领域的数据上训练ICP由于没有使用的预测标签反而使得效果下降-1.2而ST则能进一步提升预训练模型的效果1.2。少样本学习下图是少样本学习的实验结果。可以看到领域内自训练可以大幅提升少样本场景下的效果。知识蒸馏下图是知识蒸馏的实验结果。GT表示用真值Ground-Truth数据RD是用随机Random数据SASentAugment是用本文的方法得到的数据。在和训练集一样大的情况下GT和SA都显著超过了RD但如果再额外增加100K句子SA甚至能逼近有监督学习RoBERTa_Large的结果并且参数量是它的十分之一。这说明对知识蒸馏来说自训练带来的数据增广也是很重要的。句子编码的影响前面我们提到我们默认使用的是Transformer去编码句子那么不同的编码器会有怎样的影响呢下图是不同编码器在STS数据集上的实验结果。总的来说单纯使用BERT得到的句子编码效果最差而使用Trigram甚至能得到很好的结果这说明了复述与多语言掩码语言模型任务对于训练句子编码是很有帮助的。一个例子最后我们来看看从中抽取的句子是怎样的如下图所示。如果是用Per-Sentence那么抽取的句子就基本上是询问的转述如果是用Label-Average抽取的句子就符合该类别。基于句子编码与任务编码的抽取方法有能力得到满足条件的句子。小结本文研究了预训练模型上的自训练带来的效果增益。使用自训练学习框架模型能够从海量通用语料中抽取出相关领域的句子然后使用教师模型预测标签得到伪标注数据最后再去训练学生模型。无论是自训练本身还是知识蒸馏、少样本学习预训练自训练都能取得显著的效果提升。值得注意的是本文的核心其实是如何从海量通用语料中提取满足条件的语料也即提出的SentAugment方法。在过去一年内开放领域问答Open-Domain Question Answering大量使用了这种方法取提取问题的相关段落并取得了成功。这些工作表明基于句子编码的语料提取、标注是数据增广的有效手段可以进一步用在自然语言生成任务如机器翻译、摘要生成等任务上。后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群有顶会审稿人、大厂研究员、知乎大V和妹纸等你来撩哦~
http://www.sadfv.cn/news/238658/

相关文章:

  • 当今做那些网站致富wordpress快
  • 用php做网站视频ps软件下载花钱吗
  • 广西网站建设哪家不错乒乓球网页设计素材
  • 网上做设计的网站有哪些企业网站建设合同版本
  • 长裕建设有限公司网站成都建站优化公司
  • 做团餐 承包食堂的企业网站网站建设的目标有哪些
  • 做教育app的网站有哪些内容展示型网站可以做推广的吗
  • 网站备案号链接南通高端网站建设机构
  • 四川省建设厅网站投诉企业外包是什么意思
  • dw网站首页制作国内建设网站的公司
  • 手机搭建网站工具桂林旅游网站制作
  • 网站模板之家久久广告传媒有限公司
  • 网站前端页面设计正常开发一个网站需要多少钱
  • 服务器上搭建网站抖音广告
  • 临淄辛店今天招聘信息东莞seo关键词排名优化推广
  • 911制品厂麻花西安seo专员
  • 大学生兼职网站开发石家庄网络seo推广
  • 建设谷歌公司网站费用零基础学习网站建设
  • 怎样给网站增加栏目潍坊方圆网站建设
  • 力软框架做网站厦门小程序开发的公司
  • 信息最全的网站襄阳住房和城乡建设网站
  • 重庆网站开发商城深圳市房地产信息平台
  • 宁德工程建设监督网站珠海网站建设科技公司
  • 网站改版做重定向页面设计的像胶囊怎么形容
  • 湘潭手机网站公众号开发怎么做
  • 北京永安市政建设投资有限公司网站微信开发品牌
  • 建个什么网站好wordpress 侧边栏左边
  • 网站整站开发脉脉用的什么技术做网站
  • 黑龙江中国建设监理协会网站seo站群优化
  • 做p2p投资理财的网站做pc网站最大分辨率