当前位置: 首页 > news >正文

龙岗在线网站制作南通高端网站设计开发

龙岗在线网站制作,南通高端网站设计开发,西安做服务器的公司,纯静态网站索引怎么做摘要#xff1a; 背景简介 为了不断提升搜索体验#xff0c;神马搜索的知识图谱与应用团队#xff0c;一直在不断探索和完善图谱的构建技术。其中#xff0c;开放信息抽取#xff08;Open Information Extraction#xff09;#xff0c;或称通用信息抽取#xff0c;旨在…摘要 背景简介 为了不断提升搜索体验神马搜索的知识图谱与应用团队一直在不断探索和完善图谱的构建技术。其中开放信息抽取Open Information Extraction或称通用信息抽取旨在从大规模无结构的自然语言文本中抽取结构化信息。 背景简介为了不断提升搜索体验神马搜索的知识图谱与应用团队一直在不断探索和完善图谱的构建技术。其中开放信息抽取Open Information Extraction或称通用信息抽取旨在从大规模无结构的自然语言文本中抽取结构化信息。它是知识图谱数据构建的核心技术之一决定了知识图谱可持续扩增的能力。\“神马搜索”界面本文聚焦于开放信息抽取中的重要子任务——关系抽取首先对关系抽取的各种主流技术进行概述而后结合业务中的选择与应用重点介绍了基于DeepDive的方法并详述它在神马知识图谱数据构建工作中的应用进展。关系抽取概述关系抽取技术分类现有的关系抽取技术主要可分为三种 有监督的学习方法 该方法将关系抽取任务当做分类问题根据训练数据设计有效的特征从而学习各种分类模型然后使用训练好的分类器预测关系。该方法的问题在于需要大量的人工标注训练语料而语料标注工作通常非常耗时耗力。半监督的学习方法 该方法主要采用Bootstrapping进行关系抽取。对于要抽取的关系该方法首先手工设定若干种子实例然后迭代地从数据从抽取关系对应的关系模板和更多的实例。无监督的学习方法 该方法假设拥有相同语义关系的实体对拥有相似的上下文信息。因此可以利用每个实体对对应上下文信息来代表该实体对的语义关系并对所有实体对的语义关系进行聚类。这三种方法中有监督学习法因为能够抽取并有效利用特征在获得高准确率和高召回率方面更有优势是目前业界应用最广泛的一类方法。远程监督算法为了打破有监督学习中人工数据标注的局限性Mintz等人提出了远程监督Distant Supervision算法该算法的核心思想是将文本与大规模知识图谱进行实体对齐利用知识图谱已有的实体间关系对文本进行标注。远程监督基于的基本假设是如果从知识图谱中可获取三元组RE1E2注R代表关系E1、E2代表两个实体且E1和E2共现与句子S中则S表达了E1和E2间的关系R标注为训练正例。远程监督算法是目前主流的关系抽取系统广泛采用的方法也是该领域的研究热点之一。该算法很好地解决了数据标注的规模问题但它基于的基本假设过强会引入大量噪音数据。例如从知识图谱获取三元组创始人乔布斯苹果公司下表句1和句2正确表达了该关系但句3和句4并没有表达这样的关系因此对句3和句4应用基本假设时会得到错误的标注信息。这个问题通常称为 the wrong label problem。出现 the wrong label problem 的根本原因是远程监督假设一个实体对只对应一种关系但实际上实体对间可以同时具有多种关系如上例中还存在CEO乔布斯苹果公司的关系实体对间也可能不存在通常定义的某种关系而仅因为共同涉及了某个话题才在句中共现。为了减小 the wrong label problem 的影响学术界陆续提出了多种改进算法主要包括基于规则的方法通过对wrong label cases的统计分析添加规则将原本获得正例标注的wrong label cases直接标为负例或通过分值控制抵消原有的正标注。基于图模型的方法构建因子图factor graph等能表征变量间关联的图模型通过对特征的学习和对特征权重的推算减小wrong label cases对全局的影响。基于多示例学习multi-instance learning的方法将所有包含E1E2的句子组成一个bag从每个bag对句子进行筛选来生成训练样本。此类方法最早提出时假设如果知识图谱中存在RE1E2则语料中含E1E2的所有instance中至少有一个表达了关系R。一般与无向图模型结合计算出每个包中置信度最高的样例标为正向训练示例。该假设比远程监督的假设合理但可能损失很多训练样本造成有用信息的丢失和训练的不充分。为了能得到更丰富的训练样本又提出了multi-instance multi-labels的方法。该方法的假设是同一个包中一个sentence只能表示E1E2的一种关系也就是只能给出一个label但是不同的sentence可以表征E1E2的不同关系从而得到不同的label。多label标注的label值不是正或负而是某一种关系。它为同时挖掘一个实体对的多种关系提供了可能的实现途径。另一种改进的方法是从一个包中选取多个valid sentences作为训练集一般与深度学习方法相结合这种方法更详细的讲解和实现会安排在后续介绍深度学习模型的章节中。神马知识图谱构建中的关系抽取方法选择知识图谱的数据构建就数据源而言分为结构化数据半结构化数据和无结构数据三类。其中无结构数据是最庞大、最易获取的资源同时也是在处理和利用方面难度最大的资源。神马知识图谱构建至今已经发展为一个拥有近5000万实体近30亿关系的大规模知识图谱。在经历了前期以结构化和半结构化数据为主的领域图谱构建阶段神马知识图谱的数据构建重点已经逐渐转移为如何准确高效地利用无结构数据进行实体与关系的自动识别与抽取。这一构建策略使得神马知识图谱在通用领域的建设和可持续扩增方面有很强的竞争力。远程监督算法利用知识图谱的已有信息使得有监督学习中所需的大规模文本标注成为可能。一方面远程监督在很大程度上提升了有监督学习关系抽取的规模和准确率为大规模的知识图谱数据构建和补充提供了可能另一方面远程监督对现有知识图谱的数据和规模有较强的依赖丰富的标注数据对机器学习能力的提升有很大帮助。为了充分利用知识图谱规模和远程监督学习这种相辅相成的特性在神马知识图谱的现阶段数据构建业务中我们采用了以图谱现有的大规模实体与关系数据为依托以远程监督算法为工具的关系抽取技术。在上一章的综述中我们介绍过多种基于远程监督思想的改进方法。在具体的业务实现中我们选取了领域内与业务需求最为契合的两种代表性方法基于DeepDive的抽取系统和基于深度学习抽取算法。两种方法相辅相成各有优势DeepDive系统较多依赖于自然语言处理工具和基于上下文的特征进行抽取在语料规模的选择上更为灵活能进行有针对性的关系抽取且能方便地在抽取过程中进行人工检验和干预而深度学习的方法主要应用了词向量和卷积神经网络在大规模语料处理和多关系抽取的人物中有明显的优势。在下面的章节中我们来更详细地了解这两种方法的实现与应用。DeepDive系统介绍DeepDive概述DeepDive (http://deepdive.stanford.edu/) 是斯坦福大学开发的信息抽取系统能处理文本、表格、图表、图片等多种格式的无结构数据从中抽取结构化的信息。系统集成了文件分析、信息提取、信息整合、概率预测等功能。Deepdive的主要应用是特定领域的信息抽取系统构建至今已在交通、考古、地理、医疗等多个领域的项目实践中取得了良好的效果在开放领域的应用如TAC-KBP竞赛、维基百科的infobox信息自动增补等项目中也有不错的表现。DeepDive系统的基本输入包括无结构数据如自然语言文本现有知识库或知识图谱中的相关知识若干启发式规则DeepDive系统的基本输出包括规定形式的结构化知识可以为关系实体1实体2或者属性实体属性值等形式对每一条提取信息的概率预测DeepDive系统运行过程中还包括一个重要的迭代环节即每轮输出生成后用户需要对运行结果进行错误分析通过特征调整、更新知识库信息、修改规则等手段干预系统的学习这样的交互与迭代计算能使得系统的输出不断得到改进。DeepDive系统架构和工作流程DeepDive的系统架构如下图所示大致分为数据处理、数据标注、学习推理和交互迭代四个流程数据处理1、 输入与切分在数据处理流程中DeepDive首先接收用户的输入数据通常是自然语言文本以句子为单位进行切分。同时自动生成文本id和每个句子在文本中的index。doc_id sentence_index 构成了每个句子的全局唯一标识。2、 NLP标注对于每个切分好的句子DeepDive会使用内嵌的Stanford CoreNLP工具进行自然语言处理和标注包括token切分词根还原、POS标注、NER标注、token在文本中的起始位置标注、依存文法分析等。3、 候选实体对提取根据需要抽取的实体类型和NER结果首先对实体mentions进行定位和提取而后根据一定的配对规则生成候选实体对。需要特别注意在DeepDive中每一个实体mention的标定都是全局唯一的由doc_id、sentence_index以及该mention在句子中的起始和结束位置共同标识。因此不同位置出现的同名的实体对E1E2将拥有不同的E1_idE2_id最终的预测结果也将不同。4、 特征提取该步骤的目的是将每一个候选实体对用一组特征表示出来以便后续的机器学习模块能够学习到每个特征与所要预测关系的相关性。Deepdive内含自动特征生成模块DDlib主要提取基于上下文的语义特征例如两个实体mention间的token sequence、NER tag sequence、实体前后的n-gram等。Deepdive也支持用户自定义的特征提取算法。数据标注在数据标注阶段我们得到了候选实体对以及它们对应的特征集合。在数据标注阶段我们将运用远程监督算法和启发式规则对每个候选实体对进行label标注得到机器学习所需的正例和负例样本。1、 远程监督实现远程监督标注首先需要从已知的知识库或知识图谱中获取相关的三元组。以婚姻关系为例DeepDive从DBpedia中获取已有的夫妻实体对。若候选实体对能在已知的夫妻实体对中找到匹配映射时该候选对标记为正例。负例的标注针对需要抽取的不同关系有不同的可选方法。例如可以将没有在知识库中出现的实体对标注为负例但在知识库收入不完整的情况下该方法会引入噪音负例也可以用知识库中互斥关系下的实例来做负例标注例如父母-子女关系兄弟姐妹关系都与婚姻关系互斥用于标注负例基本不会引入噪音。2、 启发式规则正负样本的标注还可以通过用户编写启发式规则来实现。以抽取婚姻关系为例可以定义如下规则Candidates with person mentions that are too far apart in the sentence are marked as false.Candidates with person mentions that have another person in between are marked as false.Candidates with person mentions that have words like wife or husband in between are marked as true.用户可以通过预留的user defined function接口对启发式规则进行编写和修改。3、 Label冲突的解决当远程监督生成和启发式规则生成的label冲突或不同规则生成的label产生冲突时DeepDive采用majority vote算法进行解决。例如一个候选对在DBpedia中找到了映射label为1同时又满足2中第2条规则得到label 为-1majority vote对所有label求和sum 1 - 1 0最终得到的label为doubt。学习与推理通过数据标注得到训练集后在学习与推理阶段Deepdive主要通过基于因子图模型的推理学习特征的权重并最终得到对候选三元组为真的概率预测值。因子图是一种概率图模型用于表征变量和变量间的函数关系借助因子图可以进行权重的学习和边缘概率的推算。DeepDive系统中因子图的顶点有两种一种是随机变量即提取的候选实体对另一种是随机变量的函数即所有的特征和根据规则得到的函数比方两个实体间的距离是否大于一定阈值等。因子图的边表示了实体对和特征及规则的关联关系。当训练文本的规模很大涉及的实体众多时生成的因子图可能非常复杂庞大DeepDive采用吉布斯采样Gibbs sampling进行来简化基于图的概率推算。在特征权重的学习中采用标准的SGD过程并根据吉布斯采样的结果预测梯度值。为了使特征权重的获得更灵活合理除了系统默认的推理过程用户还可以通过直接赋值来调整某个特征的权重。篇幅关系更详细的学习与推理过程本文不做展开介绍更多的信息可参考DeepDive的官网。交互迭代迭代阶段保证通过一定的人工干预对系统的错误进行纠正从而使得系统的准召率不断提升。交互迭代一般包括以下几个步骤1、 准召率的快速估算准确率在P集中随机挑选100个看为TP的比例。召回率在输入集中随机挑选100个positive case看有多少个落在计算出的P集中。2、 错误分类与归纳将得到的每个extraction failure包括FP和FN按错误原因进行分类和归纳并按错误发生的频率进行排序一般而言最主要错误原因包括在候选集生成阶段没有捕获应捕获的实体一般是token切分、token拼接或NER问题特征获取问题没能获取到区分度高的特征特征计算问题区分度高的特征在训练中没有获得相应的高分包括正负高分3、 错误修正根据错误原因通过添加或修改规则、对特征进行添加或删除、对特征的权重进行调整等行为调整系统重新运行修改后的相应流程得到新的计算结果。神马知识图谱构建中的DeepDive应用与改进在了解了DeepDive的工作流程之后本章将介绍我们如何在神马知识图谱的数据构建业务中使用DeepDive。为了充分利用语料信息、提高系统运行效率我们在语料处理和标注、输入规模的控制、输入质量的提升等环节对DeepDive做了一些改进并将这些改进成功运用到业务落地的过程中。中文NLP标注NLP标注是数据处理的一个重要环节。DeepDive自带的Stanford CoreNLP工具主要是针对英文的处理而在知识图谱的应用中主要的处理需求是针对中文的。因此我们开发了中文NLP标注的外部流程来取代CoreNLP主要变动如下使用Ali分词代替CoreNLP的token切分删除词根还原、POS标注和依存文法分析保留NER标注和token在文本中的起始位置标注。token切分由以词为单位改为以实体为单位。在NER环节将Ali分词切碎的token以实体为粒度重新组合。例如分词结果“华盛顿”、“州立”、“大学”将被组合为“华盛顿州立大学”并作为一个完整的实体获得“University”的NER标签。长句的切分文本中的某些段落可能因为缺少正确的标点或包含众多并列项等原因出现切分后的句子长度超过一定阈值如200个中文字符的情况使NER步骤耗时过长。这种情况将按预定义的一系列规则进行重新切分。主语自动增补数据处理环节的另一个改进是添加了主语自动补充的流程。以中文百科文本为例统计发现有将近40%的句子缺少主语。如下图刘德华的百科介绍第二段中所有句子均缺少主语。主语的缺失很多时候直接意味着候选实体对中其中一个实体的缺失这将导致系统对大量含有有用信息的句子无法进行学习严重影响系统的准确率和召回率。主语的自动补充涉及两方面的判断主语缺失的判断缺失主语的添加由于目前业务应用中涉及的绝大多数是百科文本缺失主语的添加采用了比较简单的策略即从当前句的上一句提取主语如果上一句也缺失主语则将百科标题的NER结果作为要添加的主语。主语缺失的判断相对复杂目前主要采用基于规则的方法。假设需要提取的候选对E1 E2对应的实体类型为T1 T2则判定流程如下图所示具体的主语补充实例和处理过程举例如下以百科文本为例经实验统计上述主语自动补充算法的准确率大约在92%。从关系抽取的结果来看在所有的错误抽取case中由主语增补导致的错误比例不超过2%。基于关系相关关键词的输入过滤DeepDive是一个机器学习系统输入集的大小直接影响系统的运行时间尤其在耗时较长的特征计算和学习推理步骤。在保证系统召回率的前提下合理减小输入集规模能有效提升系统的运行效率。假设需要提取的三元组为RE1 E2且E1 E2对应的实体类型为T1 T2。DeepDive的默认运行机制是在数据处理阶段提取所有满足类型为T1T2的实体对作为候选不考虑上下文是否有表达关系R的可能性。例如抽取婚姻关系时只要一个句子中出现大于等于两个的人物实体该句子就会作为输入参与系统整个数据处理、标注和学习的过程。以下五个例句中除了句1其它4句完全不涉及婚姻关系尤其当句中的两个人物实体无法通过远程监督获取正例或负例标签时此类输入无法在学习环节为系统的准确率带来增益。为减小此类输入带来的系统运行时间损耗我们提出了以下改进算法实验证明利用改进算法得到的输入集规模有显著的减小以百科文本的抽取为例婚姻关系的输入集可缩小至原输入集的13%人物和毕业院校关系的输入集可缩小至原输入集的36%。输入集的缩小能显著减少系统运行时间且实验证明排除了大量doubt标注实体候选对的干扰系统的准确率也有较大幅度的提升。需要指出的是虽然在输入环节通过关系相关关键词进行过滤减小输入规模能最有效地提高系统运行效率因为跳过了包含特征提取在内的所有后续计算步骤但该环节的过滤是以句子为单位而非作用于抽取的候选实体对。来看一个婚姻关系提取的多人物示例除了孙楠、那英等表演嘉宾盛装出席外担任本场音乐会监制的华谊兄弟总裁王中磊先生、冯小刚导演和夫人徐帆以及葛优、宋丹丹、李冰冰等演艺明星也一一现身红毯到场支持此次音乐会。因为含有婚姻关系相关的关键词“夫人”该句子将被保留为系统输入。从该句提取的多个人物候选实体对需要依靠更完善的启发式规则来完成进一步的标注和过滤。实体对到多实体的扩展关系抽取的绝大部分任务仅涉及三元组的抽取。三元组一般有两种形式一种是两个实体具有某种关系形如RE1 E2例如婚姻关系刘德华朱丽倩另一种是实体的属性值形如PEV例如身高刘德华1.74米。DeepDive默认的关系抽取模式都是基于三元组的。但在实际应用中有很多复杂的关系用三元组难以完整表达例如人物的教育经历包括人物、人物的毕业院校、所学专业、取得学位、毕业时间等。这些复杂的多实体关系在神马知识图谱中用复合类型来表示。因此为使抽取任务能兼容复合类型的构建时我们对DeepDive的代码做了一些修改将候选实体对的提取扩展为候选实体组的提取。代码修改涉及主抽取模块中的app.ddlog、底层用于特征自动生成的DDlib和udf中的map_entity_mention.py、extract_relation_features.py等文件。下图展示了一个扩展后的实体组抽取实例抽取关系为人物、所在机构、职位应用DeepDive的数据构建工作本节首先给出一个输入示例以及该示例在DeepDive运行过程中每一步的输出结果如下图所示。通过这个示例我们可以对DeepDive各模块的功能和输出有更直观的认识。为了更详细地了解DeepDive的应用和改进算法的效果以下我们给出一个具体的婚姻关系抽取任务的相关运行数据。下表显示了该抽取任务在数据处理阶段各步骤的的耗时和产出数量在数据标注的远程监督阶段我们除了使用知识图谱中已有的夫妻关系做正例标注还使用了已有的父母-子女关系和兄弟姐妹关系做负例标注得到正例数千个正负标注候选实体的比例约为1:2。在DeepDive系统中远程监督的wrong label problem可以依靠合理编写的启发式规则得到一定程度的纠正。观察婚姻关系的wrong label样例我们发现较大比例的wrong label是夫妻实体以某种合作形式如合作演出、合作演唱、合作著书等共现在一个句子中夫妻实体有一个出现在书名号中时也容易发生误判。例如类似的观察和总结可以编写成启发式规则依靠从规则得到的负标注抵偿远程监督得到的正标注减小系统在学习和推理时的偏差。虽然启发式规则的编写大多依靠专家知识或人工经验完成但规则的完善和扩充可以依靠某些自动机制来辅助实现。例如规则定义句中出现“P_1和P_2结婚”则P_1P_2得到正标注。根据对“和”和“结婚”等token的扩展我们可以得到“P_1与P_2结婚”、“P_1和P2婚后”、“P_1和P_2的婚礼”等类似应该标注为正的语境。这里token的扩展可以通过word2vec算法加人工过滤实现。下表给出了该抽取任务中用到的规则和相应的统计数据。整个数据标注过程耗为14m21s。学习与推理过程耗时约38m50s。我们随机截取了部分知识图谱未收录的预测实体对的输出结果展示如下对于系统的准确率我们取expectation为 [0.95,1][0.95,1] 区间内的输出结果进行分段统计统计结果如下列图表所示对系统预测的错误样例进行分析我们总结了几种错误类型下表按照出现频率从高到低给出了错误描述和错误示例系统召回率的计算相比准确率的计算更为复杂在语料规模较大的情况下准确估算召回率将耗费大量的人力。我们采用了抽样检测的方式来估算召回率具体实践了以下三种方法统计中expectation均取0.95抽样含有某个指定实体的所有sentences计算召回含实体 “杨幂” 的sentences共78例含 杨幂 刘恺威实体对的sentences共13例人工判断其中9例描述了该实体对的婚姻关系其中5例被召回召回率为0.556。用于远程监督正例标注的知识图谱实体对超过4000对统计表明其中42.7%的实体对出现在了语料中26.5%的实体对被召回召回率为0.621。输入集随机挑选100例positive cases其中49例的expectation值0.95, 召回率为0.49。基于DeepDive的关系抽取研究目前已较为完整并已经在神马知识图谱的构建业务中落地。目前在数据构建中的应用涉及人物、历史、组织机构、图书、影视等多个核心领域已抽取关系包括人物的父母、子女、兄弟姐妹、婚姻、历史事件及人物的合称、图书的作者、影视作品的导演和演员、人物的毕业院校和就业单位等。以百科全量语料为例每个关系抽取任务候选sentence集合的规模在80w至1000w经改进算法过滤输入规模在15w至200w之间生成的候选实体对规模在30w至500w之间。系统每轮迭代运行的时间在1小时至8小时之间约经过3-4轮迭代可产出准确率和召回率都较高的数据给运营审核环节。系统运行至今已累计产出候选三元组近3千万。原文发布时间为2018-03-14本文作者游维原文链接http://click.aliyun.com/m/43798/ 识别以下二维码干货
http://www.sadfv.cn/news/145106/

相关文章:

  • iis6.0不能新建网站智慧团建官方网站登录入口
  • 手机网站建站软件做网站服务好
  • 如何用群晖做自己的网站怎么弄自己的网址
  • 建设好网站外链有哪些方式公司在线网站制作系统
  • 移动商城网站开发抖音代运营价格
  • 高速建设材料在哪个网站购买公司网站建设需推广
  • idea 网站开发官网建设公司有哪些
  • 东莞茶山网站建设选择一个网站进行优化
  • 广州建网站的网络公司免费制作企业宣传视频app
  • 青羊区建设局网站企业注册登记流程
  • 做坏事网站南京网站建设公司有哪些
  • txt电子书下载网站推荐广告公司简介100字
  • 上海网站建设 app开发手机能创建网站吗
  • 建瓯企业网站建设网站制作前的图片路径
  • 河南网站建设哪个公司做得好网站友情链接模板
  • 建设银行官网首页网站购纪念币阿里云网站更换域名
  • 做外贸网站公司哪家好做软件赚钱还是做网站赚钱
  • 浙江龙泉建设局网站织梦网站首页自动更新
  • 天津网站排名提升多少钱wordpress百度自动推送安装失败
  • 常州高端网站建设百度竞价推广登录入口
  • 做平台网站一般有php还是jsvue cms 网站开发
  • o2o网站建设流程东莞市企业招聘信息网
  • 上海模板网站建站公司网站有收录没排名
  • 新乡手机网站建设公司h5页面生成工具
  • 做网站大约多少钱建筑人才网河南省2022年3月安全员
  • 在什么网站能帮人做ppt网站admin目录名怎么改
  • 博物馆网站建设的根本意义长沙医疗网站建设
  • 做博客网站怎么赚钱乐清开发网站公司
  • 网站建设基本流程教学视频在线取公司名字 免费
  • 长沙58同城招聘网最新招聘seo推广什么意思