当前位置: 首页 > news >正文

陕西省交通建设集团西长分公司网站营口手机网站建设

陕西省交通建设集团西长分公司网站,营口手机网站建设,西安做网站公司xamokj,校园宿舍网网络设计案例来源#xff1a;新智元编辑#xff1a;LRS【新智元导读】ImageNet的标签问题一直为人诟病#xff0c;最近Google Brain全面分析了基准内遗留的历史问题#xff0c;并找出了所有顶级模型全都预测失败的68张图片#xff0c;或许未来CV想取得突破#xff0c;先得攻破这68关新智元编辑LRS【新智元导读】ImageNet的标签问题一直为人诟病最近Google Brain全面分析了基准内遗留的历史问题并找出了所有顶级模型全都预测失败的68张图片或许未来CV想取得突破先得攻破这68关过去的十年里ImageNet基本就是计算机视觉领域的「晴雨表」看准确率有没有提升就知道有没有新技术问世。「刷榜」一直是模型创新的原动力把模型Top-1准确率推动到90%比人类还高。但ImageNet数据集是否真的像我们想象中的那么有用很多论文都曾对ImageNet发出质疑比如数据的覆盖度、偏见问题、标签是否完善等等。其中最重要的是模型90%的准确率是否真的准确最近Google Brain团队和加州大学伯克利分校的研究人员重新审视了几个sota模型的预测结果发现模型真正的准确率还可能被低估了论文链接https://arxiv.org/pdf/2205.04596.pdf研究人员通过对一些顶级模型所犯的每一个错误进行人工审查和分类以便深入了解基准数据集的长尾错误。其中主要关注ImageNet的多标签子集评估最好的模型已经能达到97%的Top-1的准确率。这项研究的分析结果显示将近一半的所谓的预测错误根本就不是错误并且还在图片中发现了新的多标签也就是说如果没有人工审查过预测结果这些模型的性能可能都是被「低估」的不熟练的众包数据标注员往往会把数据标注错误在很大程度上也影响了模型准确率的真实性。为了校准ImageNet数据集促进未来的良性进展研究人员在文中提供了一个更新版的多标签评估集并把sota模型预测存在明显错误的68个例子组合为一个新数据集ImageNet-Major以方便未来CV研究者攻克这些bad case还上「技术债」从文章的标题「什么时候面团成了百吉饼」就可以看出作者主要关注ImageNet里的标签问题这也属于是历史遗留问题了。下图是一个非常典型的标签歧义例子图片里的标签为「面团」模型的预测结果为「百吉饼」错了吗这个模型理论上来说并没有预测错误因为面团正在烤马上就要成百吉饼了所以既是面团又是百吉饼。可以见得模型实际上已经能够预测到这个面团「即将成为」百吉饼但在准确率上却没有拿到这一分。实际上以标准ImageNet数据集的分类任务作为评价标准缺乏多标签、标签噪声、未指定的类别等问题都在所难免。从负责识别此类对象的众包标注员的角度来看这是一个语义甚至是哲学上的难题只能通过多标签来解决所以在ImageNet的衍生数据集中主要改善的就是标签问题。距ImageNet成立已经过了16年当时的标注人员、模型开发者对数据的理解肯定不如今天丰富而ImageNet又是早期的大容量、标注相对良好的数据集所以ImageNet很自然而然地成了CV刷榜的标准。但标注数据的预算显然不如开发模型来的多所以标签问题的改善也成了一种技术债。为了找出ImageNet中剩下的错误研究人员使用了一个具有 30 亿参数的标准ViT-3B模型能够达到 89.5% 的准确度其中JFT-3B作为预训练模型并在ImageNet-1K上进行了微调。使用ImageNet2012_multilabel的数据集作为测试集的情况下ViT-3B初步达到的准确率为96.3%其中模型明显错误预测了676个图像然后对这些例子进行深入研究。在重新标注数据时作者没有选择众包而是组建了一个5名专家评审组成的小组进行标注因为这类标注错误对于非专业人员来说很难识别出来。比如图(a)普通的标注人员可能写一个「桌子」就过了但实际上图片里还有很多其他物体比如屏幕、显示器、马克杯等等。图(b)的主体为两个人但标签为picket fence栅栏显然也是不完善的可能的标签还有领结、制服等等。图(c)也是一个明显的例子如果只标出来「非洲象」那象牙可能就被忽视掉了。图(d)的标签为lakeshore湖岸但标注成seashore海滨实际上也没毛病。为了增加标注效率研究者还开发了一个专用的工具能够同时显示模型预测的类别、预测分数、标签和图像。在某些情况下专家组之间可能还存在标签的争议这时候就把图片放到谷歌搜索里来辅助标注。比如说有一个例子里模型的预测结果里包含出租车但图片里面除了「一点黄色」之外根本没有出租车的牌子。这张图片的标注主要是通过谷歌图片搜索发现图像的背景是一个标志性的桥梁然后研究人员定位到了图片所在的城市对该城市中的出租车图像进行检索后认可了这张图片里确实包含出租车而非一辆普通的汽车。并且从车牌的设计上进行对比也验证了模型的预测是正确的。在对研究的几个阶段发现的错误进行初步审查后作者首先根据错误的严重程度将其分为两类1. 主要错误Major人类能够理解标签的含义并且模型的预测和标签完全不沾边2. 次要错误Minor标签的可能是错误的或者不完善导致的预测错误。需要专家审查数据后进行纠正。对于ViT-3B模型犯的155个主要错误研究人员又找了其他三个模型共同预测来提高预测结果的多样性。四个模型全都预测失败的主要错误有68个然后分析了所有模型对这些例子的预测并验证了它们没有一个是正确的新的多标签即每个模型的预测结果确实都是主要错误。这68个例子有几个共同特点首先就是不同方式训练的sota模型都在这个子集上犯了错误、并且专家评审也认为预测结果完全和正确不沾边。68张图像的数据集也足够小方便后续研究者进行人工评估如果未来攻克了这68个例子那CV模型也许会取得新突破。通过分析数据研究者又将预测错误划分为四种类型1. 细粒度错误其中预测的类别跟真实标签相似但不完全相同2. 具有词表外OOV的细粒度其中模型识别其类别正确但在 ImageNet 中不存在该对象的类别3. 虚假相关性其中预测的标签是从图像的上下文中读取的4. 非原型其中标签中的对象与预测标签相似、但并非完全一致。在审查了原始 676 个错误后研究人员发现其中298 个应该是正确的或者可以确定原始标签是错误或有问题的。总的来说通过文章的研究结果可以得出四个结论1. 当一个大型、高精度模型做出其他模型没有的新预测时大概其中50%都是正确的新多标签2. 更高精度的模型在类别和错误严重性之间没有表现出明显的相关性3. 如今SOTA模型在人工评估的多标签子集上的表现在很大程度上匹配或超过了最佳专家人类的表现4. 有噪音的训练数据和未指定的类别可能是限制有效衡量图像分类改进的一个因素。或许图像标签问题还得等待自然语言处理技术来解决参考资料https://www.unite.ai/assessing-the-historical-accuracy-of-imagenet/未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://www.sadfv.cn/news/4099/

相关文章:

  • 为什么后台编辑内容和网站上面显示的内容不一致百度海外视频网站建设
  • 汕头网站设计公司做网站卖东西赚钱么
  • 临沂兰山建设局网站如何看出网站是用wordpress搭建
  • 网站美工建设意见广州网站开发小程序
  • 建网站多少钱网站备案号显示红色
  • 深圳网站建设 外包合作拼多多网站的类型
  • 柳州企业网站开发公司apache搭建网站
  • 阳山网站建设深圳手机集团网站建设
  • 风景名胜区建设部网站哪些网站可以做翻译兼职
  • wordpress分类二级域名seo内部优化
  • 越秀公司网站建设东莞市传送机技术支持 网站建设
  • 做网站国内好的服务器做网站风险分析
  • 太原网站优化培训网站开发工程师课程
  • 营销型网站公司安康市出租车公司
  • 湖北随州市城乡建设官方网站义乌做网站的公司
  • 西安网站建设昆奇牛商网官网
  • 做网站公司融资多少钱网站维护和更新
  • 响应式网站网站建设wordpress 在线教学
  • 网站返回404是什么意思如何更改 网站 关键词
  • 免费广告设计网站wordpress 搜索引擎收录
  • iis7.5 网站打不开网站建设的中期检查表
  • 网站关键字被百度收录设计图网址
  • 家装网站建设公司本周的重大新闻
  • 写作网站投稿平台六安市紧急公告
  • 企业网站推广优化如何制作一个属于自己的网站
  • 正规漫画网站开发流程网站域名注册步骤
  • 软件开发和网站开发区别济南网站建设新风向
  • 大连建网站不用php做网站
  • 网站设置为默认主页有限公司企业网站建设方案
  • 做dm素材网站wordpress投票主题