当前位置: 首页 > news >正文

网站竞争对手的选定一般参考什么标准的基于python的网站开发项目

网站竞争对手的选定一般参考什么标准的,基于python的网站开发项目,wordpress优化思路,定制化网站开发大家好#xff0c;今天我们分享一篇来自于ECCV 2020的论文《AiR: Attention with Reasoning Capability》。这篇论文主要研究的是在视觉推理过程中#xff0c;人和机器的注意力在时域上的渐进变化。论文代码​github.com一. 论文的动机现有的工作在视觉任务中#xff0c;例如…大家好今天我们分享一篇来自于ECCV 2020的论文《AiR: Attention with Reasoning Capability》。这篇论文主要研究的是在视觉推理过程中人和机器的注意力在时域上的渐进变化。论文代码​github.com一. 论文的动机现有的工作在视觉任务中例如图片描述生成(Image captioning)和视觉问答Visual question answering广泛应用了注意力机制Attention通过关注重要的视觉区域来增加决策过程的可解释性提升模型的表现。本文作者认为在视觉推理中人需要一边看一边进行推理在捕捉视觉线索的同时进行推理、然后继续看继续推理直到最后得到答案。从人身上得到启发对于模型来说关注不同的视觉区域和推理也应该是一个互相交织的过程。 如图在视觉问答任务中给出一个问题“Is there a bag to the left of the girl that is wearing jeans?”我们解题时关注的焦点Regions of interestROIs会随着推理过程的推进不断变化先找图中的牛仔裤再关联到穿牛仔裤的小女孩然后看向她的左边寻找背包找到背包时就能知道答案是“yes”。基于上述想法作者将推理过程细分成一系列推理步骤在每个步骤显式地监督机器去关注对应的的焦点区域使其以一种循序渐进的方式完成整个推理最后得到答案。二. 论文的贡献本文主要贡献是将推理过程打散成一系列原子操作提出了一个将attention和reasoning整合在一起的框架具体内容分为以下四个方面提出了一个可以定量评估推理过程中模型attention准确率的指标AiR-E而之前的工作一般都只能定性衡量attention提出了一个显式约束模型attention的方法能在整个推理过程中逐步优化attentionAiR-M收集了一个VQA任务上的眼动数据集AiR-D以便定量的去建模人的注意力进一步用于机器attention的比较和诊断值得注意的是本文的题目具有一定的混淆性这篇论文的重心并不是介绍一个精妙的带推理能力的attention结构而是做了大量丰富的实验和分析探究了在推理过程中人和机器attention的差异、在时空域上的变化、以及和任务表现之间的关系。接下来我们就具体来看这四部分内容。三. 准备工作为了更好地理解后面作者设计的指标和模型我们先简单地介绍一下本文使用的数据集和前期数据处理工作。这篇论文主要是在研究VQA任务中的视觉推理过程使用了GQA数据集[1]。GQA数据集中图片对应的问题是由模板自动生成的。其中每张图片都对应于一个Dense Scene Graph如下图)这部分的标记数据主要来自Visual Genome数据集。同时每个问题都对应一个functional program它罗列了得出答案需要经过的一系列推理步骤如下所示。因为本文想研究的是推理过程中attention循序渐进的变化所以首先要拆分推理过程为一系列原子操作atomic operations。作者将GQA数据集中涉及的127种操作根据语义相似性映射到7种并构建了一个单词表如下图所示。这些原子操作强调了在这一步中attention的作用。视觉问答中的一个问题对应了一个原子操作的序列每个原子操作带有标注的ROIsRegion of Interest即为每个推理步骤需要关注的ground truth区域。四. 方法1. 指标AiR-E将一个推理过程分解成原子操作的序列后作者提出了衡量每一步attention质量的指标AiR-E。设计的主要思路是在每一个推理操作中可以根据attention map人或者机器的和标注的ROIs的对齐程度来衡量attention的质量。指标AiR具体的计算方法如下1) standardize the attention map。Attention可以用一个二维的概率矩阵来表示其中每个值反映了图像上对应像素的重要程度。先对整个attention map A(x) 用均值和方差进行标准化A*(x) (A(x) - µ) σ2) 对每个标注的ROI将它的bounding box B 范围内对应的attention map数值取平均记为它的AiR-E score3) 对每个推理操作如果这个操作只对应了一类ROIs集合比如操作selectquery, filter等就取这个ROIs集合中最大的AiR-E score作为最终的aggregated AiR-E score如果这个操作对应了多个ROIs集合比如relate, compare, and那么就先计算每一类ROIs的aggregated AiR-E最后再对所有类取平均如下图所示高质量的attention能帮助推理得到正确的答案对应更高的AiR-E分数反之不准确的attention关注到了无关区域对应的AiR-E分数也更低。2. 模型AiR-M在推理过程中为了让模型学习每个推理操作应该关注哪些区域循序渐进地推理得到答案本文提出了一种简单的显式attention监督方法联合训练三个子问题预测一系列推理操作是什么、每个操作中应该关注什么区域、最后得到的问题答案是什么。 在一个推理过程中即回答一个VQA的问题时在第t个推理步骤模型需要预测这个步骤的推理操作rt并生成这个步骤的attention map αt。联合训练的损失函数如下面公式(1)所示其中θ和Φ是超参数。作者使用了标准的交叉熵损失函数来有监督地训练答案预测和推理操作预测同时使用了一个KL散度函数KullbackLeibler divergence loss 来监督attention的预测。公式1中加和了所有推理步骤t的操作预测损失和attention预测损失。这种简单的监督方法可以整合到很多已有的使用了attention机制的的VQA模型上。3. 眼动数据集AiR-D以前的工作没有显式地验证过推理过程中人类注意力的准确性。为了定量地建模人的注意力本文收集了第一个关于VQA的眼动数据集。下面简要介绍一下眼动数据集的收集过程1) 用于测试的图片和问题来源于 the balanced validation set of GQA [1]2) 自动手工筛选原始数据、保证质量最终得到 987 张图片和和对应的1,422 个问题3) 设计Eye-tracking experiment让20个被测者回答这些VQA问题记录被测者回答问题、进行视觉推理时的Eye fixations4) 对于每个问题整合所有被测者的Fixation map为一个对Fixation map进行平滑处理和标准化最后它的大小为256*256像素map中每个值介于[0,1]5) 测试者回答问题时有对也有错如下图将所有问题的fixation map根据回答是否正确分为两类正确/错误。人在进行视觉推理时目光停留的地方就是重点关注的区域所以人的Fixation map相当于attention map。回答正确/错误的问题对应的两类fixation maps被作者视为两个human attention baseline用于后续与机器的attention map作对比。这里收集眼动数据集来定量建模人的attention是因为本文使用的数据集GQA是机器自动生成问题和答案的每个问题的推理步骤序列也是程序自动生成的需要做一些人的attention实验用来和模型的attention做比较同时也能验证AiR-E指标和AiR-M模型的有效性。五. 实验与分析本文围绕人和机器的attention做了大量的实验和分析主要想回答三个方面的问题下面进行详细介绍。 1. Do machines or humans look at places relevant to the reasoning process? How does the attention process influence task performances? 这部分实验作者没有分解推理过程单纯从空间域上分析人和机器的attention。具体地作者测评了在VQA任务中模型常用的四种注意力机制spatial soft attention (S-Soft), spatial Transformer attention (S-Trans), object-based soft attention (O-Soft), 以及object-based Transformer attention (O-Trans)。使用UpDown [2] 这个VQA模型为骨架将上述四种attention分别代替UpDown论文中原来的attention模块训练得到实验结果。同时为了研究人的注意力机制作者将回答正确的那些问题所对应的fixation map记做H-Cor不正确的记做H-Inc所有问题忽略正确/错误的fixation map记做H-Tot。 图4中展示了一些attention可视化的例子每一行代表一个问题前四列表示不同推理操作的标注ROIs后六列分别是机器和人在回答问题时的attention map。接下来作者又分三个维度来做实验1) 探究了人和机器的注意力准确度和在任务上的表现。表2定量地展示了在不同的推理操作下、不同类型的attention下人和机器得到的AiR-E分数和问题回答准确率。看表格前三行可以得到人正确回答问题时H-Cor的AiR-E分数要比错误回答问题时H-Inc高很多。对比人和机器的表现无论在AiR-E分数还是问题回答准确率人能达到的各项指标都显著高于机器。在机器的四种attention类型之间比较则发现Object-based attentions要比spatial attentions关注地更准确。此外表2 的实验结果整体和我们的直觉一致也验证了AiR-E指标的有效性。2) 不同推理操作下的注意力准确度和任务表现表2中每一列都表示了一个推理操作。比较不同的推理操作我们可以发现query操作对模型来说是最难的此时模型的注意力准确度是最高的问题回答准确率却是最低的。作者分析模型在识别能力上劣于人类即使关注到了正确的区域它也可能无法准确识别出区域中的物体。对人来说compare操作是最有挑战性的这是因为给出一些很复杂的问题时人需要同时关注对比多个区域在有限的时间内难以完成但模型却可以并行地处理多区域多物体。3) 注意力准确度和任务表现之间的关系作者进一步计算了注意力准确度和任务表现之间的Pearson系数来探究两者的相关性如表3所示。表3显示在大多数推理操作下人的注意力准确度和任务表现是正相关的Pearson系数明显高于机器的attention。反之虽然我们通常认为spatial attention的准确度和模型的表现是相关的、能增加模型的可解释性但是表3的实验结果否定了这一点观察最后两行大多数推理操作对应的Pearson系数是很小的、甚至为负。比较而言object-based attentions反映了注意力准确度-任务表现之间更高的相关度。总结第一部分的实验作者发现在推理过程中人关注的相关区域会比机器准确很多。此外attention准确率和任务表现不是直接正相关的而是要取决于进行的推理操作。2. How does attention accuracy evolve over time, and what about its correlation with the reasoning process?第二部分实验和本文的研究的内容相关作者分解了推理过程额外从时域上来分析attention探究了人和机器attention在推理过程中是否有渐进的变化。具体地作者使用了multi-glimpse machine attention对比人类attention随时间的变化以揭示两者的差异。1 人类的注意力是随推理过程变化的吗作者将人的fixation map根据时间划分为三类0-1s,1-2s和2-3s计算每个时间段fixation map和推理步骤ROIs之间的AiR-E分数如下图所示。这两个热力图中颜色越亮表示AiR-E分数越高横轴表示每个推理步骤应关注的ground truth区域纵轴表示人随时间变化的关注区域如果两者有高度一致性可以看到对角线“”是高亮的。观察图b发现人能正确回答问题时在0-1s的AiR-E分数比较低说明还在最初的探索阶段经过了这个探索阶段注意力准确度就开始提升并且在1-2s主要关注early-step ROIs(第二行左边最亮)到了2-3s的最后推理阶段热力图第三行右边高亮说明推理快结束时人关注late-step ROIs。而当人回答问题错误时如图(c)AiR-E分数一直都比较低说明整个推理过程都没有看对地方。这个实验说明了人的attention和推理步骤序列是有时空上的高度对齐性的。2 模型的注意力是随推理过程变化的吗类似地作者研究了三种multi-glimpse machine attentions的表现 stacked attention from SAN [41], compositional attention from MAC [18]和multi-head attention [12, 44]。其中Multi-glimpse attention模型一般在解答问题时输出多个attention map可以观察不同时刻输出的attention map来研究它随时间的变化。上图展示了三种不同的Multi-glimpse attention在推理中随时间的变化。(d)中模型在第一次看的时候就已经看到了推理结束时刻应关注的区域(e)和(d)中的两种attention也是主要关注Step-3或者Step-4对应的ROIs直接忽略了early steps中的ROIs。这说明传统的几种multi-glimpse machine attentions都不是随着推理过程循序渐进变化的而倾向于“一眼看到底”。3. Does guiding models to look at places progressively following the reasoning process help? 第三部分实验主要在验证本文提出的attention监督方法AiR-M是否有效。这里作者将AiR-M和其他三种SOTA的attention监督方法human-like attention (HAN) [31], attention supervision mining (ASM) [46] and adversarial learning (PAAN) [30]整合到三个VQA模型中UpDown [2], MUTAN [4], and BAN [25]来进行多维的比较。从表4中可以观察得到相比于其他三种监督方式AiR-M能使得三个VQA模型达到最好的效果。图6是一些attention的可视化例子本文提出的AiR-M监督方式可以使模型不仅关注到和答案最相关的ROIs例如Q4中的purse还能关注到问题中提及的其他重要ROIsQ4中的man它们往往是在推理过程中涉及到的。表5展示了不同推理操作下人和机器的attention说明AiR-M监督方式可以显著提升attention准确度。图7中热力图大致呈对角线“”型高亮说明用AiR-M训练的multi-glimpse attentions能够在时域上和推理步骤更好地对齐。最后这个demo视频可视化了随着推理过程循序渐进变化的模型attention。六. 总结与分析之前的工作在VQA中广泛使用attention来捕捉和问题相关的区域但是没有在时域上考虑过attention渐进的变化。由本文的实验部分可得现有的Multi-glimpse attentions也是“一眼看到底”。这篇论文基于GQA这样高质量、监督信息比较多的数据集将推理过程细分成一系列原子操作想法新颖同时做了大量详实的实验和分析为后面的工作提供了思路。我们认为这篇论文思路的缺陷在于完成一个推理过程并不一定需要按照ground truth中的“推理路径”来推理我们可以通过不同的“推理路径”来得到正确答案例如找一个穿牛仔裤的小女孩可以先找“牛仔裤”再找“小女孩”也可以先寻找图中的“小女孩”再判断她是否穿着牛仔裤而本文的AiR-M强制模型根据标注的一个ROIs序列去进行观察和推理。此外本文提出的这种AiR-M监督attention对数据集的要求比较高其中必须要带有每个推理过程的操作标注和相应ROIs标注。参考文献[1] Hudson, D.A., Manning, C.D.: Gqa: A new dataset for real-world visual reasoning and compositional question answering. In: CVPR (2019)[2] Anderson, P., He, X., Buehler, C., Teney, D., Johnson, M., Gould, S., Zhang,L.: Bottom-up and top-down attention for image captioning and visual question answering. In: cvpr (2018)[4] Ben-Younes, H., Cadene, R., Thome, N., Cord, M.: Mutan: Multimodal tucker fusion for visual question answering. ICCV (2017)[12] Fukui, A., Park, D.H., Yang, D., Rohrbach, A., Darrell, T., Rohrbach, M.: Multimodal compact bilinear pooling for visual question answering and visual grounding. In: Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. pp. 457{468 (2016)[18] Hudson, D.A., Manning, C.D.: Compositional attention networks for machine reasoning (2018)[25] Kim, J.H., Jun, J., Zhang, B.T.: Bilinear Attention Networks. In: NeurIPS. pp. 1571{1581 (2018)[30] Patro, B.N., Anupriy, Namboodiri, V.P.: Explanation vs attention: A two-player game to obtain attention for vqa. In: AAAI (2020)[31] Qiao, T., Dong, J., Xu, D.: Exploring human-like attention supervision in visual question answering. In: AAAI (2018)[41] Yang, Z., He, X., Gao, J., Deng, L., Smola, A.: Stacked attention networks for image question answering. In: CVPR (2016)[44] Yu, Z., Yu, J., Fan, J., Tao, D.: Multi-modal factorized bilinear pooling with co-attention learning for visual question answering. In: ICCV (2017)[46] Zhang, Y., Niebles, J.C., Soto, A.: Interpretable visual question answering by visual grounding from attention supervision mining. In: WACV. pp. 349{357 (2019)
http://www.sadfv.cn/news/22954/

相关文章:

  • 龙华营销型网站制作哪家好江苏建设学院
  • apache添加多个网站建设银行海淀支行 网站
  • 大型网站制作公司seo推广宣传
  • 网站做竞价对seo有影响吗wordpress点击量改热度
  • 成都网站开发 Vr精选网站建设排行榜
  • 做英文网站 赚美元seo公司哪家好
  • 密云免费网站建设可以直接做ppt的网站
  • 陕西的网站建设公司推广app
  • 那个公司做网站展厅设计素材网站
  • 郑州高端做网站2022年下半年软考停考地区
  • 便宜建站空间html网站开发主要涉及哪些技术
  • 苏网站建设上海全网推广
  • 网络规划与设计毕设seo初级入门教程
  • 网站建设常用模板下载万网的app叫什么
  • 做网站如何寻找客源石家庄网站建设机构
  • 霍邱网站建设湘潭网站建设网站
  • 绛帐做企业网站在线排名优化
  • 长沙企业做网站陕西省建设招投标网站
  • 来广营做网站wordpress微商模板
  • 网站数据没有更新网络建设与管理好找工作吗
  • 潼南区做网站的公司阿里云搭建安装wordpress教程
  • 网站建设的技术有哪些哈尔滨网站建设论坛
  • 电力建设网站宁皓 wordpress
  • 优秀网站seo报价企业网站如何宣传
  • 企业3合1网站建设dw网页制作教程使内容居中
  • 网站空间的申请实时在线街景地图
  • 淘宝api 做网站wordpress别人访问时不能正常显示
  • 网站建设文化案例WordPress整篇文章登录可见
  • 企业网站建设的几种形式广州网站建设360元
  • 重庆江北营销型网站建设公司推荐做网站王仁杰