个体工商户能做网站吗,提供做网站,厦门网站设计培训公司,深喉咙企业网站系统文#xff1a;Sherry今天给大家带来的是一篇号称可以自动建立知识图谱的文章《Language Models are Open Knowledge Graphs》#xff0c;文中提出了一个叫Match and Map#xff08;MAMA#xff09;的模型#xff0c;无需人工#xff01;无需训练#xff01;只需语料和预… 文Sherry今天给大家带来的是一篇号称可以自动建立知识图谱的文章《Language Models are Open Knowledge Graphs》文中提出了一个叫Match and MapMAMA的模型无需人工无需训练只需语料和预训练好模型就可以从头建立出知识图谱甚至可以挖掘出人类发现不了的新关系。当Wikipedia再次邂逅BERT知识图谱就诞生啦通常来说知识图谱的建立需要人工定义好的关系或者是实体类别然后基于这些我们称之为schema的骨架进行建立整个图谱。而传统的自动识别关系及实体的方法大都基于训练。而MAMA就不一样了它就像妈妈一样可以帮我们实现全自动图谱建立不需要人工定义的schema而是依靠开放实体抽取和开放关系抽取的方法去建立图谱。不需要在开放关系抽取或者实体抽取的任务上训练而仅仅依靠预训练模型就可以完成建立知识图谱的整个过程。模型不针对一个单一的关系逐条分析一次喂给MAMA整个段落她就回报给你所有triple到底是怎么做到的呢开放知识图谱想要建立MAMA我们先回顾一下知识图谱中都有哪些基本元素熟悉知识图谱的同学们可以跳过这部分知识图谱我们想要把大量的非结构化的知识一般是大量的网页及其中的文本转化成结构化的图结构那我们的基本结构中既要有知识也要有图。目前知识图谱中一共储存两类知识一类是实体一般是诸如人名地名这类的名词另外一类是这些实体之间的关系比如出生地职业。有了知识我们只需要把它建立成图结构那么把实体看成图中的点关系看成图中的边就可以了。开放知识图谱一般用三元组起始实体关系结束实体来表示边所有边都被以这个形式储存之后图谱就建立好啦。MAMA怎样构建图谱呢要构建知识图谱第一步是获取基本原料一个清洗好的语料库和一个预训练模型。 文中直接采用了维基百科作为语料预训练模型则直接用发布的模型就可以了。接下来关键的一步是自动抽取三元组也是本文的主要贡献点。 实体抽取的技术已经相对成熟给定一个语料中的段落我们先用开源工具抽取出它的所有实体来构成我们可能建立的关系候选。我们按照他们在句子中出现的顺序分为头实体和尾实体。然后重点来了我们利用BERT这类预训练模型的注意力权重来提取实体间的关系。对于一个头实体尾实体对我们用Beam search的方法从一个头实体出发生成一个到尾实体的序列。比如图中从Dylan出发以songwriter结束。对于每一位置我们看注意力权重矩阵里attend到这个实体的这一列并且只关注在句子中当前位置之后的token的注意力权重选择权重最大的下一个token加入当前序列。例子中从Dylan出发选择了is这个token然后重复之前的操作下一个我们选到了songwriter那么搜索结束我们就得到了一个Dylan,is, songwriter的序列。聪明的小伙伴们已经发现了这样提取出来的序列不就是我们想要的三元组吗没错我们再加上一些修修补补MAMA就可以为我们完成构建图谱的工作啦按上面这样选出来的序列虽然可以简要表示我们所需要的信息但它还不是严格意义上的关系三元组——我们有可能提取出多个token作为关系文中针对这个问题对关系提取加入了一些限制首先我们只保留注意力权重和大于阈值的序列。这是为了防止BERT这类模型单纯地提取出符合语言模型的序列而不是那些对实体有特殊意义的关系。一个反例:在阈值筛选之前模型会从句子 Rolling Stone wrote: “No other pop song has so thoroughly challenged artistic conventions” 中抽取关系(Rolling Stone, wrote, pop song)提取出来的关系必须在整个语料中出现足够多的次数。这样是为了防止出现一些过于细节偏门的关系。例如 (Dylan, signed to Sam Peckinpah’s film, Pat Garrett and Billy the Kid)这里的关系特指签约了Sam Peckinpah的电影非常罕见且缺乏泛化性。关系序列必须是句子中出现的连续token。这样可以防止提取出没有意义的关系。例如(Rolling Stone, wrote challenged, conventions)这里wrote 和chanllanged不表示合理的关系。现在我们就已经可以用MAMA从语料库中建立一个知识图谱啦MAMA效果如何为了方便和其他方法比较我们需要把这个开放图谱和已有的数据集对应上。使用已经比较成熟的实体链接关系映射方法就可以了。这样造出来的MAMA无论在准确率还是召回率上都超过了之前的方法。除了那些可以被对应到人造数据集中的关系之外MAMA的一大亮点在于她可以发现其他没有被schema预先定义的关系图中蓝色的关系是在预定义schema中出现的部分MAMA额外还生成了33%的新关系黄色。其中像Dylan和其他歌手曾经合作过曾经是某个乐队的成员等这样的信息是人工schema中所没有的但对于歌手来说却是很重要。如果可以自动完善知识图谱和schema的构建那就解决了KG中很难穷尽所有关系的难题了。一些评价个人认为MAMA的整体思想还是很新颖且值得借鉴的。但是实验部分以及一些细节上的设置还需要更精细的设置。一大缺陷在于他没有和其他的SOTA进行比较效果尚未可知。总体来说为自动化的知识图谱构建提供了一个不错的思路。论文链接https://arxiv.org/pdf/2010.11967.pdf讲解视频https://www.youtube.com/watch?vNAJOZTNkhlIt276s萌屋作者Sherry。本科毕业于复旦数院转行NLP目前在加拿大滑铁卢大学读CS PhD。经历了从NOIer到学数学再重回CS的转变却坚信AI的未来需要更多来数学和自认知科学的理论指导。主要关注问答信息抽取以及有关深度模型泛化及鲁棒性相关内容。作品推荐Google Cloud TPUs支持Pytorch框架啦后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群有顶会审稿人、大厂研究员、知乎大V和妹纸等你来撩哦~