深圳网站建设网站运营,最吸引人的汽车广告语,珠海专业做网站制作,大型网架加工厂来源: IJCAI 2018链接: https://www.ijcai.org/proceedings/2018/0611.pdf本文关注基于知识图谱嵌入(后文全部简称为知识嵌入)的实体对齐工作#xff0c;针对知识嵌入训练数据有限这一情况#xff0c;作者提出一种 bootstrapping 策略#xff0c;迭代标注出可能的实体对齐针对知识嵌入训练数据有限这一情况作者提出一种 bootstrapping 策略迭代标注出可能的实体对齐生成新数据加入知识嵌入模型的训练中。但是当模型生产了错误的实体对齐时这种错误将会随着迭代次数的增加而累积的越来越多。为了控制错误累积作者设计了一种对齐样本编辑方法对每次迭代生成的对齐数据加以约束。 动机目前面向知识库的实体对齐研究中基于知识嵌入的方法取得了比传统策略更好的实验效果。但是对于知识嵌入的实体对齐仍然存在着一些挑战。其一虽然近年单知识库知识嵌入研究成果颇丰但面向知识对齐的嵌入工作仍有很多待研究的空间。其二基于知识嵌入的实体对齐往往依赖已有对齐作为训练数据虽然有研究表示仅需少量对齐样本即可完成模型训练[Chen et al. 2017]但有限的训练数据依然会影响知识嵌入的质量以及实体对齐准确性。 方法1.对齐引导的知识嵌入作者将实体对齐视为分类问题目标就是从基于知识嵌入的实体表示中(包括有标注对齐实体及无标注实体)找到最有可能的实体对齐(最大对齐似然)。对于知识嵌入在translation-based的基础上针对对齐问题作者对目标函数做出如下改进由基本知识嵌入目标函数引入正负例样本集T与T-将目标函数改写为其中[ f(x) ]表示max(f(x), 0)gamma_1, gamma_2 0是两个超参mu_1 是个平衡参数这里使用的负例通过随机替换正例中的部分得到。 2.Bootstrpping实体对齐方法本方法的目的是最大化对齐似然并符合1对1的对齐约束在这种设定下对于一组实体对齐(x, y)y被视为是x的标签(我个人是这样理解的)。故该问题建模为以下形式其中 表示第t次迭代得到的实体嵌入Y’ 表示对于x存在的候选对齐样本集合。 是一个标记函数当(x, y)构成一组对齐的时候其函数值为1否则为0。当得到新的对齐实体时将其作为增量添加到训练集中用于下一次迭代。 考虑到新生成的对齐样本可能引起矛盾这里作者使用的策略是对比出现矛盾的对齐实体取对齐似然更高的样本保留计算形式为结果0时保留(x, y) 反之选择(x, y’ )。 3.利用全局信息这里的全局信息指全部实体样本存在对齐(有标注)的概率分布情况作者将其定义为以下表示以此为基础作者构建了一个负对数似然函数用于强化原始样本中对齐实体对知识嵌入的优化。添加全局信息函数后整体目标函数扩充为以下形式实验作者列出了自己的实验配置并开源代码供读者研究使用开源地址https://github.com/nju-websoft/BootEA数据方面使用DBP15KDWY100K两个数据集最后综合实验结果看来这确实是目前最好的对齐模型。 论文笔记整理谭亦鸣东南大学博士生研究兴趣知识问答自然语言处理机器翻译。OpenKG.CN中文开放知识图谱简称OpenKG.CN旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。