广州网站设计后缀,哈尔滨网站建设公司名字,wordpress显示投稿者,个人微博网页制作代码教程科大讯飞2020完整事件抽取系统(bert数据集)
事件抽取将非结构化文本中的事件信息展现为结构化形式#xff0c;在舆情监测、文本摘要、自 动问答、事理图谱自动构建等领域有着重要应用。在真实新闻中#xff0c;由于文本中可能存在句式 复杂#xff0c;主被动转换#xff0…科大讯飞2020完整事件抽取系统(bert数据集)
事件抽取将非结构化文本中的事件信息展现为结构化形式在舆情监测、文本摘要、自 动问答、事理图谱自动构建等领域有着重要应用。在真实新闻中由于文本中可能存在句式 复杂主被动转换多事件主客体共享等难点因此“事件抽取”是一项极具挑战的抽取任 务。
本事任务旨在从通用新闻文本中抽取事件触发词、事件论元以及事件属性。在传统的事件定义中事件由事件触发词( Trigger) 和描述事件结构的元素 (Argument)构成。事件触发词标识着事件的发生。事件论元为事件主体(Subject)、客体(Object)、时间(Time)、地点(Location)等是表达事件重要信息的载体。
事件属性包括事件极性Polarity、时态(Tense)是衡量事件是否真实发生的重要依据。通过极性事件分为肯定、否定、可能事件。通过时态事件分为过去发生的事件、现在正 在发生的事件、将要发生的事件以及其他无法确定时态的事件。
本赛事任务一为初赛任务任务二为复赛任务在任务一的基础上增加了事件属性识别。为 了模拟真实场景数据中包含了非实际发生的事件。
任务一事件触发词及论元抽取
该任务旨在从文本中抽取标识事件发生的触发词和论元触发词往往为动词和名词。触发词 对应的事件论元主要为主体、客体、时间、地点其中主体为必备论元。
示例 1
文本北京时间 3 月 27 日晚上 7 点 15 分英国首相鲍里斯约翰逊确诊感染了新冠肺炎。 任务二事件属性抽取
该任务旨在从文本中抽取表达事件发生状态的属性包括极性、时态。极性分为肯定、否
定、可能时态分为过去、现在、将来、其他。
示例 1
文本中国驻俄罗斯大使张汉晖 4 月 7 日向媒体回应称经向俄有关强力部门了解目前
在俄没有一起中国公民遭到拘留或受到俄强力部门限制的案例。
抽取结果 示例 4
文本看守政府总理迈赫迪打算驱逐约 5300 名美国士兵。
抽取结果 事件抽取系统包含触发词trigger事件论元role事件属性attribution的抽取。基于 pytorch 的 pipeline 解决方案。
主要思路
将任务分割为触发词抽取论元抽取属性抽取。具体而言是论元和属性的抽取结果依赖于触发词因此只有一步误差传播。因 time loc 并非每个句子中都存在并且分布较为稀疏因此将 time loc 与 sub obj 的抽取分开role1 提取 sub objrole2 提取 time loc
模型先进行触发词提取由于复赛数据集的特殊性模型限制抽取的事件仅有一个如果抽取出多个触发词选择 logits 最大的 trigger 作为该句子的触发词如果没有抽取触发词筛选整个句子的 logits取 argmax 来获取触发词
然后根据触发词抽取模型抽取的触发词分别输入到 role1 role2 attribution 模型中进行后序的论元提取和属性分类四种模型都是基于 Roberta-wwm 进行实验加入了不同的特征。
最后将识别的结果进行整合得到提交文件。
代码运行教程 获取
关注微信公众号 datayx 然后回复 事件抽取 即可获取。
AI项目体验地址 https://loveai.tech 阅读过本文的人还看了以下文章
TensorFlow 2.0深度学习案例实战
基于40万表格数据集TableBank用MaskRCNN做表格检测
《基于深度学习的自然语言处理》中/英PDF
Deep Learning 中文版初版-周志华团队
【全套视频课】最全的目标检测算法系列讲解通俗易懂
《美团机器学习实践》_美团算法团队.pdf
《深度学习入门基于Python的理论与实现》高清中文PDF源码
特征提取与图像处理(第二版).pdf
python就业班学习视频从入门到实战项目
2019最新《PyTorch自然语言处理》英、中文版PDF源码
《21个项目玩转深度学习基于TensorFlow的实践详解》完整版PDF附书代码
《深度学习之pytorch》pdf附书源码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
《Python数据分析与挖掘实战》PDF完整源码
汽车行业完整知识图谱项目实战视频(全23课)
李沐大神开源《动手学深度学习》加州伯克利深度学习2019春教材
笔记、代码清晰易懂李航《统计学习方法》最新资源全套
《神经网络与深度学习》最新2018版中英PDF源码
将机器学习模型部署为REST API
FashionAI服装属性标签图像识别Top1-5方案分享
重要开源CNN-RNN-CTC 实现手写汉字识别
yolo3 检测出图像中的不规则汉字
同样是机器学习算法工程师你的面试为什么过不了
前海征信大数据算法风险概率预测
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目让你掌握深度学习图像分类
VGG16迁移学习实现医学图像识别分类工程项目
特征工程(一)
特征工程(二) :文本数据的展开、过滤和分块
特征工程(三):特征缩放,从词袋到 TF-IDF
特征工程(四): 类别特征
特征工程(五): PCA 降维
特征工程(六): 非线性特征提取和模型堆叠
特征工程(七)图像特征提取和深度学习
如何利用全新的决策树集成级联结构gcForest做特征工程并打分
Machine Learning Yearning 中文翻译稿
蚂蚁金服2018秋招-算法工程师共四面通过
全球AI挑战-场景分类的比赛源码(多模型融合)
斯坦福CS230官方指南CNN、RNN及使用技巧速查打印收藏
pythonflask搭建CNN在线识别手写中文网站
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程