当前位置: 首页 > news >正文

郑州推广网站成都建设银行招聘网站

郑州推广网站,成都建设银行招聘网站,网页制作设计公司,seo排名点击器原理论文笔记整理#xff1a;吴林娟#xff0c;天津大学硕士。链接#xff1a;https://arxiv.org/ftp/arxiv/papers/2003/2003.05002.pdf动机具有挑战性、值得信赖的评估数据可以促进多语言模型的发展#xff0c;为了鼓励对多语言问答技术的研究#xff0c;作者提出了数据集Ty… 论文笔记整理吴林娟天津大学硕士。链接https://arxiv.org/ftp/arxiv/papers/2003/2003.05002.pdf动机具有挑战性、值得信赖的评估数据可以促进多语言模型的发展为了鼓励对多语言问答技术的研究作者提出了数据集TyDi QA这是一个涵盖了 11 种不同类型语言和204K个问答对的问答语料库。其中的11种语言在类型上是多种多样的作者期望在这个数据集上表现良好的模型能推广运用到世界上的众多其他语言。简介问答系统给人们获取信息带来了极大的方便现有的先进的问答系统主要都是通过了英文的数据集测试但是很多能从问答系统中受益的人并不会英语。世界上的语言展现出惊人的语言现象用以表达意义。《世界语言结构图集》按照192种类型特征对2600种语言进行了分类其中包括词序(word order)、重叠(reduplication)、按照句法编码的语法含义、格标记(case marking)、复数系统、问题标记、相对化(relativization)等现象。如果想要构建能够准确地表示所有人类语言的模型那么必须根据能够证明这种多样性的数据来评估这些模型。本文数据构建的目标1.使研究工作朝着建立大约世界前100种语言的高质量问答系统的方向发展2.鼓励研究能够很好地跨越世界语言的语言现象和数据场景的模型。作者描述了TYDI-QA语言的类型特征并提供了从数据中提取的一些相关现象的隐藏示例以使研究人员了解非英语文本中存在的挑战然后在模型中去处理这些挑战。作者也提供了一个开源的基线模型和带有隐藏测试集的公共排行榜(https://ai.google.com/research/tydiqa)用于跟踪社区的进展。任务要求TYDI QA提出了一个模型其中包含一个问题以及一篇维基百科文章的内容并要求它做出两个预测段落选择任务给定文章中段落的列表如果存在答案则返回的包含答案的段落索引如果不存在此类段落则返回空。最小答案跨度任务给定一篇文章的全文返回答案的最小跨度的开始和结束字节索引如果问题需要的答案是“是/否”并且可以从文章中得出结论则返回“是”或“否”如果无法生成最小答案则返回空。数据集问答对的实例如下图数据收集程序问题引出只给人类标注员Wikipedia内容的一小部分去提出自己真正感兴趣问题以及无法从文本中得到答案提示的问题。例如当人类标注员看到文本中写道“苹果是一种水果...”可能会写下“史蒂夫·乔布斯死于什么疾病”这样由好奇心激发出的问题。这使得标注员可以更自由地询问他们真正感兴趣的主题包括提示文章中没有涉及的主题。文章检索通过对问题文本执行Google搜索将Wikipedia文章与每个问题配对仅限于每种语言的Wikipedia域并选择排名最高的结果。为了启用将来的用例文章文本是从每种语言的原子Wikipedia快照中提取的。答案标注最后给注释者提供问题/文章对并首先要求他们选择最佳段落答案文章中包含答案的段落否则表明不可能回答或没有满足答案的单独的段落。如果找到这样的段落则注释者将被要求选择一个最小的答案尽可能短的字符跨度同时能形成令人满意的答案理想情况下这些词的长度为1-3个字但在某些情况下可以覆盖句子的大部分内容例如对于“什么是原子”这样的定义。如果问题要求布尔回答则注释者选择是或否。如果没有这样的最小答案则注释者也指出这一点。数据集没有使用翻译的方法将其从英语扩充到其他的语言一个是避免翻译带来的错误还有就是防止通过翻译后每一个问题都有英语的影子这可能会使迁移学习的方法收益增加。数据描述数据类型多样性作者选择数据集中语言的主要标准是类型多样性-即它们使用不同的语言手段表达含义的程度换句话说作者希望选定的语言不仅数量多还能代表许多语言家族。此外作者选择了具有与建模相关的多种数据特征的语言。例如某些语言可能只有很少的单语数据。有许多语言的并行翻译数据很少并且几乎没有经济动机在不久的将来产生大量昂贵的并行数据。因为过于依赖高质量机器翻译的方法将无法在世界各地的语言中推广。因此我们选择一些具有并行训练数据的语言例如日语阿拉伯语和一些具有很少并行训练数据的语言例如孟加拉语斯瓦希里语。尽管以这些语言收集数据涉及更大的困难但作者希望它们的多样性将使研究人员能够更可靠地得出有关其模型在各种语言中的泛化程度的可靠结论。数据统计问答系统评估系统评估方法TYDI-QA任务的主要评估指标是F1它是精确性和召回率的调和平均值每一项都是通过语言中的示例计算出来的。然而任务之间确实存在某些细微差别其中主要时针对空处理的评估。首先每个例子的分数在一种语言中计算平均值然后对所有非英语语言进行平均得到最终的F1分数。对英语的测量被视为调试的有用手段而不是TYDI QA任务的目标因为在现有的数据集中已经有大量的英语评估覆盖。人类表现的评估作为一个思维实验考虑将评价框架定为“正确答案被接受为正确答案的可能性有多大”作者提出了一个有首选答案的游戏目标是为用户提供他们喜欢的答案。如果注释者正确选择了这些首选答案作者则希望多路注释数据包含围绕这些首选答案的峰值分布。然后玩家的最佳策略是预测那些答案这些答案既是用户首选的就更可能出现在评估数据集中。作者希望有大量的人工注释者或经过良好优化的机器学习系统来学习这种分布这将有助于人类表现评估的提升。主要任务与基准模型的结果比较提供了使用最新发布的多语言BERTmBERT的基线的结果。与Alberti等设置类似其中所有语言都在一个模型中共同训练表5。此外由于基线还没有经过训练作者包含了始终预测第一段通过的系统的结果因为Wikipedia文章的第一段经常总结其最重要的事实。在所有语言中我们都看到mBERT与较大的人类绩效估计之间存在较大差距。我们可以比较各种语言的分数吗抱歉不行。每种语言都有自己独特的问题集维基百科内容的质量和数量各不相同注释者的质量也不同以及还存在其他变量。黄金段落一个简化版的任务在这个任务中只提供了标准答案所在的段落而不是整个维基百科文章并且社区了不可回答的问题类似于MLQA和XQuAD评估也参考类似XQuAD中的。台语和日语被删除了因为语言中没有空格可能不利于一些现有的工具使用。基于简化版任务的基线结果如表7。总结及展望作者预见了几个研究方向这些数据将使研究者能够推动新的边界包括研究形态学和问答匹配之间的相互作用评估迁移学习的有效性无论是对于有或没有并行数据的语言考虑到不同的数据场景和语言挑战机器翻译在数据扩充和作为运行时组件的问答中的有用性通过显式地不在所提供的语言的子集上进行训练来研究零资源QA。最后作者写到回答问题所需的内容常常没有用更多的其他语言写下来。对于这些语言我们矛盾地面临着需要跨语言答案检索和翻译的前景同时资源贫乏的语言也缺少了可信赖的翻译系统所需的并行数据。期待着研究界找到更多方法来提高多语言模型的质量。  OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。
http://www.sadfv.cn/news/55768/

相关文章:

  • 东莞建站公司运转全网天下有 名电子商务专业怎么样
  • 微网站免费搭建平台wordpress顺序
  • 网站怎么经营网站建设哪家公司便宜
  • 网站优化软件方案网站ftp查询
  • 如何做个网站推广自己产品在线设计平台有什么用
  • 做律师事务所网站专业手机网站建设
  • 营销网站建设大概费用用自己的服务器做网站
  • 搭建网站赚钱网页设计与制作教学计划
  • 涉县企业做网站推广dw一个完整网页的代码
  • 廊坊网站建站购物网站app推广方案
  • 广州营销型网站制作汕头企业建站系统模板
  • 查看网站被百度收录关闭wordpress评论 通过修改代码的方法
  • 杭州网站设计的公司祁阳seo
  • 牡丹江建设网站wordpress阿里云云存储
  • 山东省建设局网站宽带
  • 在线模版下载网站网站怎么加统计代码
  • 不注册公司可以做网站吗网线制作实训报告心得体会
  • 网站虚拟主机是什么郑州广告公司网站建设
  • 建设用地规划证查询网站建设工程概念内容
  • 东莞非凡网站建设做网站数据库怎么做
  • 中英文企业网站php源码网站建设公司帮企业建站的目的
  • 江西工厂网站建设wordpress 取消评论
  • dede 网站根目录苏州兼职网站开发
  • 厦门满山红网站建设wordpress模板安装方法
  • 宁波营销型网站建设首选新郑网站建设
  • 做外贸网站卖什么货好呢网站的内部链接如何做
  • 网站设计是干什么的自建网站模板下载
  • 网站建设的安全可行性郑州专业建站报价
  • 手机网站生成代码泰安seo网络公司
  • 在线教学的网站开发方案网站建设要会哪些方面