当前位置: 首页 > news >正文

男女做暧暧试看网站域名网站做优化外链

男女做暧暧试看网站,域名网站做优化外链,产品设计图片素材,北京免费建网站转载公众号 | DataFunTalk分享嘉宾#xff1a;代文博士 小米 高级算法工程师编辑整理#xff1a;何雨婷 湖北工业大学出品平台#xff1a;DataFunTalk导读#xff1a;今天的介绍会围绕以下三点展开#xff1a;小爱同学应用场景信息抽取图谱问答01小爱同学应用场景介绍首先…转载公众号 | DataFunTalk分享嘉宾代文博士 小米 高级算法工程师编辑整理何雨婷 湖北工业大学出品平台DataFunTalk导读今天的介绍会围绕以下三点展开小爱同学应用场景信息抽取图谱问答01小爱同学应用场景介绍首先和大家介绍一下小爱同学的应用场景。通过小爱同学可以方便快捷的访问小米的各种智能硬件设备包括扫地机器人、电视、空调等。小爱同学主要包括内容、信息查询、互动、控制、生活服务、基础工具这六大方面的服务。今天要分享的智能问答主要解决的是有客观事实性答案的这一类query主要是为了满足用户信息查询类的需求。下图是智能问答的框架主要由数据层、知识层、语义层、逻辑层、业务层、设备层组成。在知识层本文将分享信息抽取的相关工作。逻辑层主要包括图谱问答、检索问答和文档问答今天主要分享图谱问答。在业务层基于问答模块可以在词典、古诗、人物、星座、菜谱等不同的功能垂域来进行业务层的开发。最后针对不同的智能硬件我们在设备层上进行相应的适配来满足用户在不同终端的需求。目前小米的知识图谱实体量是数十亿三元组spo量超百亿这些知识囊括了书籍、本地生活、字词、古诗、房产等不同领域的信息。02信息抽取信息抽取是指从非结构化的自然语言文本中提取结构化的知识如实体、关系、事件等。关系抽取会预先定义好一个schema然后抽取所有满足schema约束的SPO三元组。事件抽取也是先预先定义好事件类型和论元角色再从输入的自然语言文本当中识别事件类型以及这个事件类型对应的一些事件要素。这里举一个关系抽取的例子“王雪纯是87版《红楼梦》中晴雯的配音者她是《正大综艺》的主持人”我们需要去识别出来subject是王雪纯predicate是配音object是人物配音的人物是晴雯。这里的object是一个复合类型需要同时识别出来配音的角色是谁属于哪部影视作品。这里介绍的方案是我们参加“2021语言与智能技术竞赛多形态信息抽取任务”的亚军方案。我们主要从关系抽取和事件抽取两个方面介绍信息抽取。1. 关系抽取①难点在关系抽取中除了复杂o值之外还有spo重叠这种比较常见的难点如s和o两个实体分别相同。例如吴京是战狼的主演同时吴京也是战狼的导演。此时吴京和战狼这两个实体在这两种关系中都是相同的。spo重叠还有另外一种形式是s和o当中其中一个实体是相同的。②解决框架解决框架主要由多模型粗召回和推理模型细打分两部分组成。多模型粗召回——SPO模型SPO模型首先通过指针网络的方式抽取s然后根据s在schema当中对应的p再通过指针网络的方式找到每一个p在文本当中对应的o的文本片段。上图所示为SPO模型的大体框架图输入文本后首先通过编码层对语义信息进行表示再通过解码网络找到其中的subject然后将这个subject和输入文本连接起来再在schema中获取其涉及到的所有谓词通过指针网络来找到每个谓词下是否存在对应的片段从而找到这个p和o的结果。对于复杂o值我们对当中各个槽位都分开来分别处理并且结合位置距离来选择最优的匹配最终将复杂o值各个槽位得到的文本结果组合起来作为这个复杂o值的结果。多模型粗召回——PSO模型PSO模型与SPO模型比较类似。我们首先通过分类模型来识别句子中描述的关系类型再通过指针网络来抽取这个关系类型对应的subject和object。类似我们也可以对复杂o值的各个槽位分别处理同时利用位置距离来选择最优的匹配。推理模型细打分通过SPO模型和PSO模型得到一些三元组关系的候选队列还有一个精排的细打分模型。将召回的spo三元组和原始的句子拼接在一起建模成一个语义相似度的任务来衡量识别出来的spo三元组和输入文本之间的语义相似度从而进行细打分。我们可以设定一些阈值选出置信度较高的一些spo三元组作为最终的抽取结果。2. 事件抽取①事件抽取——主要方法 事件抽取的方法流派主要有三种第一种是流水线的方式将事件类型和事件要素的抽取作为流水线串连起来首先去预测事件类型得到结果之后再基于事件类型去预测事件的角色和事件的论元等相关要素的结果。另外基于触发词这种方式流水线的模式是先抽取触发词第二步再基于触发词去抽取对应的事件要素。第二种是联合的模型将前述的事件类型预测和事件要素抽取联合起来进行多任务学习。为了让多个子任务同时达到最优收敛过程相对较难一些。第三种是端到端的方法我们对标签组合进行了一些调整将事件类型和事件角色名组合起来构成一个新的标签组合。通过BIO标注后可以一步到位地识别文本中包含的事件类型和这个事件类型下每个角色的取值。因为是直接通过序列标注的方式抽取得到两个结果所以事件类型的分数我们无法得知因此存在多种事件类型时处理不够好。如果事件类型的准确率较高可以优先选择流水线方式因为事件类型本身误差小所以误差传递的影响也不大。另外基于流水线方式比较便于后续进行分模块的分析优化。在文本当中存在多个事件类型的情况下基于流水线方式可以把第一步事件类型预测得到的多个结果逐一输送给第二步要素抽取的模型分别识别每个事件类型对应的事件要素。它对多种事件类型的处理会更好。所以我们的选型也是采用的流水线的方式。在模型的选择上常见的有指针网络和序列标注这两种。指针网络的监督信号比较稀疏模型不好收敛。序列标注的缺点是处理不了overlap的问题。由于任务中overlap占比少序列标注模型的准确率受overlap的影响并不大。另外也可以通过一些规则来部分地解决overlap的问题。同时序列标注的训练更容易、效果也更好。所以在事件抽取任务中我们选择了序列标注模型。②事件抽取——事件类型和触发词识别联合模型在事件抽取任务中有的研究者基于事件类型做要素的抽取有的研究者基于事件触发词做要素的抽取。在这里我们提出事件类型和触发词的联合识别模型。我们发现事件类型和触发词实际上是相互影响的比如“订婚”这个事件类型触发词不可能是“婚外情”。相反地如果给的触发词是“婚期已定”它对应的事件类型不可能是“出轨”。所以我们是通过联合模型来同时对事件类型和事件触发词进行学习以进一步提升预测的准确率。如下图所示首先通过一个共享的编码层来对语义信息进行表示输出层中事件类型预测采用的是线性输出层事件触发词识别采用的是一个CRF的输出层。在识别得到事件类型和事件触发词之后我们设计了并行模型进行要素抽取。第一个模型基于事件类型第二个模型基于事件触发词。在基于事件类型的抽取模型当中我们将第一步识别得到的事件类型连接到输入的文本之前再通过序列标注的方式来抽取对应的事件要素。基于这种方式我们发现结果会有一些欠召回的情形。比如上图右框中的例子实际上这个句子中存在一个明显的触发词“怀孕”。但是事件类型预测模型就发生了欠召没能识别出它的事件类型。这时候如果是基于事件触发词来对这个事件要素进行抽取则可以和基于事件类型的模型进行互补。第二种方式基于事件触发词的要素抽取。首先利用抽取得到触发词然后计算每个token到触发词的距离将距离映射为向量表示级联到语义的向量上再接CRF层预测事件要素。将这两种方式抽取的事件要素进行投票组合得到最终的抽取结果。基于信息抽取模型得到的结构化知识可以补充到知识图谱中作为下游图谱问答的数据基础。03图谱问答1. 基于文法解析的方法如下图对用户query进行解析从模板库中找到与用户query匹配的模板再通过这个模板把用户非结构的query解析成为结构化的查询语句进而从图谱中去查找得到答案。这个过程是比较简单的但主要的问题在于如何高效快速的获取大批量的模板。一方面可以从线上高频query进行扩展补充这是从业务出发的一种方式能够尽快满足用户需求。第二种可以通过挖掘的方式来自动化地获取。2.跨垂域粗粒度的槽位抽取方法该方法的泛化性能会相对更好。它的基模型是意图识别和槽位抽取的联合模型。通过这个联合模型对用户query的意图和槽位同时进行识别从而回答用户的问题。这种方式不依赖模板所以泛化性更好。通过这种方式进行垂域建设有一些缺陷。比如建设好一个古诗垂域它包含查朝代、查上下句等功能点包含诗人、诗名、体裁等槽位在这个意图和槽位体系之下挖掘一些样本进行模型训练、线上部署以回答用户在线上的问题。如果又需要建设一个新的垂域比如数学定理垂域这个垂域不仅是一个新的垂域而且也是一个低资源垂域那么我们不得不把古诗垂域建设的过程再重复一遍而且小垂域的训练样本获取也比较困难。所以我们提出了一个跨垂域粗粒度的意图识别和槽位抽取方法。具体来说是将不同垂域涉及到的槽位根据概念图谱来进行抽象比如诗人和提出者都属于人物那么我就可以将诗人和提出者定义为人物这样一个槽位。诗名和定理名可以认为都是作品名。除了合并的槽位之外各个垂域还有一些特有的槽位我们将它们直接保留下来。与此同时也把细粒度的意图直接上升到粗粒度的意图。这样就可以联合不同垂域的样本训练一个跨垂域粗粒度的模型。在这种跨垂域的模型中定理垂域就可以利用古诗垂域的训练样本实现领域知识的迁移。在模型训练好之后就可以在线上预测用户query的意图和槽位最后通过映射关系将粗粒度的槽位和意图映射到细粒度的意图和槽位之上用于进行下一步的解析。3. 基于路径检索的方法基于路径检索的方式不需要对用户query进行解析而是先检索候选的路径然后从中进行筛选找到正确的解析路径。这里主要介绍我们参加“CCKS2021生活服务领域知识图谱问答评测”的冠军方案。这次评测任务的难点在带约束复杂query的问答比如“北京故宫博物院附近2公里有哪些好玩”或者“故宫附近5km内便宜的酒店是多少钱”。主要涉及两类约束第一类约束是过滤约束第二类约束是排序约束。对于这种带约束的复杂query我们需要做特殊的处理。整体来讲我们采用的技术方案的流程为第一步识别实体和属性值第二步进行路径的挖掘第三步进行匹配打分第四步进行路径排序最终根据最优路径从图谱中查询答案。第一步我们需要从query当中找到这个问题涉及到的一些实体、属性值、数值主要采用三类方式①基于AC算法的字面匹配识别query中涉及到的字面值。②模糊匹配。实际上用户query中有一些实体提及mention和图谱中实体名称并不完全一样。这时我们需要进行模糊匹配。通过建立倒排索引来找到和mention比较相关的候选实体计算每个候选实体的编辑距离来对候选实体进行排序。③基于NER模型来找到query当中可能涉及到的实体片段。实体、属性值抽取是基础的一步也是比较关键的一步需要抽取到query中关键的语义信息。如果没有抽取到后面路径无论如何扩展都不能找到正确路径。第二步基于抽取得到的实体和属性值进行路径的挖掘。路径挖掘主要包括两个步骤首先是基础的路径扩展接着是对复杂query进行约束挂载。路径扩展是以query中的抽取得到的实体为出发点通过新增三元组来扩展路径。中间节点可以继续作为起始节点来新增三元组。同时我们可以将找到的不同路径在中间节点相同的情况下进行组合形成语义信息更丰富的一条路径。通过这种路径扩展和组合尽可能多地挖掘候选路径最大可能的将query对应的正确解析路径包含在候选队列当中。约束挂载如上图所示。“离天坛最近的酒店人均800以下酒店是哪一家”首先通过路径扩展得到上图最上方所示的路径然后进一步约束CVT节点对应的距离值同时对酒店实体X的价格约束为小于800。通过上图方式我们将约束可以看作一种特殊的三元组。比如要求价格小于800块钱那么“小于”作为谓词“800”就是作为object值。对于排序约束将“排序”作为谓词然后“降序”作为object。将约束信息统一处理成三元组是为了下一步路径匹配的需要。我们总结了可以加约束信息的常见属性比如平均价格、酒店入住时间、押金、距离值、房屋面积等。在路径扩展过程中如果发现某一个属性的取值是数值时就可以对它进行约束挂载从而表达出query中的复杂语义信息。下一步是路径匹配。需要在候选路径中找到最有可能的路径。具体方法为将路径表达成文本的形式把它建模成一个语义匹配的任务。路径的文本表示这里介绍三种方式第一种方式是设计一个模板将路径表示为一句话第二种方式是把这个路径中的subject、predicate以及答案节点拼接起来第三种方式和第二种方式相似但是把中间节点通过[UNK]字符保留下来。通过实验对比这三种方式的匹配效果差异不大。选择任意一种方式皆可。经过路径匹配排序之后可以得到语义上和用户query最接近的候选路径进一步还可以结合一些业务特征对候选路径进行重排序最后从图谱中查找正确答案。在评测结束之后我们将这个方案在业务中进行了落地落地时为了追求性能和效果的平衡落地方案和前面稍有差别。在实体和属性值抽取时通过实体链接来找到query当中的核心的实体。在路径挖掘时自研了一套路径检索和路径挖掘的方式能够提高路径挖掘的性能。得到候选路径后我们会对候选路径的规模进行约束比如取前20条候选路径进行语义匹配。最终输出排名第一的候选路径从图谱中查找正确答案返回用户。这里简单介绍一下我们自研的路径检索工具。我们将图谱里的实体和关系进行整型id的映射然后通过一个节点索引表来记录每个实体对应的SPO三元组比如刘德华所对应的三元组的终止节点在661也就是说找刘德华的三元组时可以快速地在数据存储表中的第0位到第661位进行查找这里的查找可以通过二分法进一步加速。通过这种方式使检索耗时大大减少内存的占用也会非常的小。最后我们列举了几个图谱问答的示意效果图。图谱问答的结果更适应结构化展示的需求能满足精品化的产品需求为用户提供更好的使用体验。04问答环节Q:路径的设定是否能通过神经网络模型去训练获得还是都需要人工去制定路径规则模板有没有一些高效的方法去获取路径和规则的方法A:神经网络方法可以用于获取路径有一些研究论文这么去做了。但是在产品中我们目前采用的还是人工定义的方式一是因为这些人工定义的模板实际上可以覆盖线上绝大部分的真实需求二是因为通过人工模板挖掘路径耗时很小更能适应线上性能的要求。Q:关系抽取spo模型对复杂o解析只需要考虑位置距离匹配吗还需要考虑标签本身的概率吗A:在关系抽取里面我们采用的是指针网络模型它的优点是可以解决overlap问题但缺点是解码时可能有多个index候选因此需要通过一些策略来选择index比如我们使用的位置距离特征。也可以采用其他的特征进行选择。Q:事件要素抽取模型对每个事件类型预测角色的时候是把schema定义全部角色都用CRF预测出来还是最后根据事件类型保留相关的角色?A在抽取事件要素时并没有限定于第一步预测的事件类型而是把所有可能的事件角色都抽取出来然后再用第一步预测的事件类型进行筛选。01/分享嘉宾代文 博士小米 高级算法工程师代文小米AI实验室知识图谱组智能问答业务负责人2015年博士毕业于中科院自动化所。目前负责小爱同学产品的智能问答系统研发研究方向包括图谱问答、检索问答、文档摘要、多轮问答等。具有丰富的NLP工作经验曾获得信息抽取、图谱问答等多项竞赛的冠军。02/关于 DataFunDataFun专注于大数据、人工智能技术应用的分享与交流。发起于2017年在北京、上海、深圳、杭州等城市举办超过100线下和100线上沙龙、论坛及峰会已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800百万阅读14万精准粉丝。OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。
http://www.sadfv.cn/news/86355/

相关文章:

  • 网站图片内容上海设计公司排名前十强20
  • 成都手机建站电脑手机网站首页
  • 网站推广过程叙述电商美工是做什么的
  • 久久租房网.net网站如何优化
  • 网站建设与管理大纲天津大邱庄网站建设公司
  • 烟台百度网站推广创建全国文明城市倡议书
  • 网站要多钱wordpress菜单背景半透明
  • 微信公众号的微网站怎么做的网页游戏排行榜知乎
  • 建网站多少钱可以卖货的中天建设集团有限公司第五建设公司
  • 做外贸的网站看啥书临沂外贸网站建设
  • 网站安全性怎么做一个网站开发的意义
  • 做网站要考虑什么深圳网站设计吧
  • 网站制作的教程淮北网站建设设计
  • 广西住房和建设厅网站丽江门户网站
  • 八里河风景区网站建设设计概述怎么做推广和宣传平台
  • 惠州网站建设 英语it外包公司品牌
  • 网站后台更新无法在网页显示上海网站seo
  • 注册网站流程及资料网页设计费用明细
  • 做淘客需要网站南京哪家网站建设比较好
  • 广州专业网站建设企业无代码网站开发
  • 网站建设比较好的机械制造设备类企业网站织梦模板
  • phpmysql网站开发案例网站后台账户如何做会计分录
  • 网页制作网站创建南昌专业网站建设公司
  • 做代加工的网站发布住建部证书查询大厅
  • 品牌网站建设工作室张家口外贸网站建设
  • 私人网站服务器免费企业网站怎么做省钱
  • 免费网站在线观看常用的编辑html的软件
  • 做网站PV网站负责人备案采集照具体要求
  • 如何添加网站代码江门外贸网站建设
  • 企业做网站的痛点有哪些深圳营销型网站定制