当前位置: 首页 > news >正文

免费搭建单页网站cad图做网站链接

免费搭建单页网站,cad图做网站链接,网站怎样做注册窗口,图片类网站建设文 | Severus大家好#xff0c;我是Severus#xff0c;一个在某厂做中文文本理解的老程序员。今年11月#xff0c;Google 在 NeurIPS2021 投稿了一篇文章#xff0c;名为 AI and the Everything in the Whole Wide World Benchmark#xff0c;矛头直指评估AI模型“通用”能… 文 | Severus大家好我是Severus一个在某厂做中文文本理解的老程序员。今年11月Google 在 NeurIPS2021 投稿了一篇文章名为 AI and the Everything in the Whole Wide World Benchmark矛头直指评估AI模型“通用”能力的基准ImageNet、GLUE/SuperGLUE文章中用词相当凶狠这里我简单截取几段给小伙伴们感受一下手动眼斜。当然以上只是冰山一角。读过我以往文章在错误的数据上刷到SOTA又有什么意义的小伙伴都知道我也对NLP当前卷任务的现状深恶痛绝但阴阳怪气如我也不敢写出如此凶猛的言辞那么我们就一起来看一下这一发炮弹究竟装了什么火药吧。论文标题AI and the Everything in the Whole Wide World Benchmark论文地址http://arxiv.org/abs/2111.15366这篇文章的标题化用了一篇童话故事的标题Grover and the Everything in the Whole Wide World Museum故事中讲道一个名叫 Grover 的布偶怪物造访了一个号称展示“世界上所有的东西”的博物馆博物馆中将展品分为若干个展厅有些展厅的归类则显得非常随意、主观例如“你能在墙上找到的东西”“让你觉得好笑的东西”有些归类则很奇怪如“胡萝卜房间”有些归类则很模糊如“高高的大厅”等。Grover 最终打开了一扇写着“Everything Else”的房间发现自己在外面的世界里。很显然作者化用了这样一个标题则也是认为现在的所谓通用基准也一样试图使用相当有限的数据概括世界上所有的事物这个前提首先是不成立的那么这些基准也自然如童话故事般荒谬。本文主要以 CV 和 NLU 两个领域中两大著名的“通用”评测基准——ImageNet 和 GLUE/SuperGLUE 作为切入点剖析“通用”能力评测基准的若干局限性以及唯指标风气可能带来的危害。最终也提出了替代基准的探索路径。现在的基准能评测通用吗作为 CV 领域最有影响力的基准ImageNet 以其类别数量和每个类别中图片的绝对量级为优势一直作为视觉智能领域长期目标的里程碑其创作者也希望 ImageNet 可以作为视觉智能领域的终极评测基准。GLUE/SuperGLUE 也长期作为自然语言理解的通用评估基准其主打优势则是包含多样化的任务考察能力综合全面近期被NLU卷友们广泛接受。这两个基准在历史意义上有着无可取代的地位ImageNet 直接引爆了深度学习的火热而 NLP 领域绕不开的 BERT 则是在 GLUE 初次秀了肌肉走上了历史的舞台。但是这两个数据集真的可以去评估模型的通用能力吗现实中数据集是被设计的、主观且有限的并且长期以来我们忽略了数据中存在的固有偏见、主观倾向数据集上的指标几乎成为了评估模型能力的唯一标准自然也导致模型被误用。事实上在应用上、或者专用 agent 模型上我们承认 bias 的存在甚至人为构造高 bias 的数据集但如果我们将“通用”作为唯一目标则理想意义上可以评测“通用”能力数据集在现实中不可能存在。而仅使用数据集及性能指标则会给任务设计、任务的关注焦点带来误导从而导致算法的优化方向逐渐偏离初衷。任务设计太武断一个任务可以看作是从输入空间到输出空间的映射应被任务的描述以及一个特定的数据集共同定义。但在机器学习领域中目前的趋势似乎更加偏重于后者基准中某一个任务可能是一拍脑门想到一个前提然后就直接收集数据集完全使用数据集定义了任务形式却与真正的评测目标、问题空间没有多大关系。所谓“通用”基准是用以测试通用的人工认知能力的那么我们自然希望评测任务是参考了模型想要模拟的认知能力及相关理论系统化地选择出来的。而实际上我们观察到的则是基准的作者们在选择任务的时候更像是图方便、省事所以随意地将若干个任务组合起来即便它们在理论上不可靠。甚至一些任务本身没有任何应用上的意义。数据集/任务集组合太随意作者认为机器学习中很多任务的目标并不是人们所真正关心的问题例如分辨虹膜和蘑菇的模型似乎对人类没有任何帮助。其实如果是作为专用 agent 的机器学习系统这类简单问题机器相比于人类处理效率是大大提升的但如果讨论“通用认知能力”则的确这个任务没有显著意义。作为视觉智能领域里程碑式的任务ImageNet中也存在类似的标签例如“特定品种的狗”或“新西兰的海岸”离了大谱直接要世界知识bias了。实际上ImageNet的标签是直接从WordNet中12个子树中整体照搬过来的但没有考虑到WordNet是英语词汇划分体系则必然存在英语语境下的 bias例如 person 子树上可能就出现了较为政治敏感的 bias原文说是歧视但笔者认为仅仅是数据构造者基于其所熟悉环境和知识背景所形成的自然局限而非主观上的歧视。GLUE/SuperGLUE 的数据也并非精心挑选。据GLUE的论文中写最初在构造数据集的时候大概有30个任务可供选择而创造者们基于任务的复杂性难度以及权限许可等为依据使用高标准筛选最终剩下了9个任务。以此为依据本文作者认为GLUE基准没有系统性地描述出“理解”所需的语言技能也没有呈现出语言知识的多样化自然也不能说是以其所宣称的“理解”目标为依据而设计此基准。所以在GLUE/SuperGLUE基准的各个任务上可以定性评测模型的性能但是分数高低绝不等同于“语言理解”的能力大小。自然也不能说模型解决了这些任务就断言模型具备了“理解”语言的能力。更具危害的是GLUE/SuperGLUE 基准的设计思路被原封不动地照搬到了其他宣称 NLU 通用能力评估的基准中例如中文基准ChineseGLUE 和 CLUE。ChineseGLUE 中甚至存在机翻的训练集和验证集对应人翻的测试集。CLUE 中存在着部分数据集一味考虑任务的复杂性却在最起码的分布边界划分上如NER各个类别的边界如场所、景点类组织机构及其子类模糊不清且数据的一致性无法保证同一个 span即可能被标注成“组织机构”有可能被标注成“公司”且二者的比例为7:10。错误理解了领域知识和问题空间GLUE/SuperGLUE基准中除语言学之外还融合了常识推理、世界事实知识等就好像它们的问题范围是等同的。创建者们似乎希望模型可以具备应用世界知识、逻辑推理、常识推理等去进行推断解决任务。所以数据集中不仅仅包含了语言能力考察还包含了逻辑推断获取、运用世界知识相关能力的考察。的确人在进行交流的时候不可避免地在使用这些知识而不仅仅是使用了单独的语言技能事实上什么是单独的语言技能至少在中文中是一个难以回答的问题其似乎与“常识”难以完全剥离开来如习惯性的构词、表达方式等。但语言知识笔者习惯将之称为通用知识与世界知识不同语言知识在每段文本中自成结构在不同的文本甚至在不同的领域中是相通的。即一个人可以不知道某一段文本中描述的事实或完全不知道某一段文本中提到的实体但他也能看懂这段文本两个家庭环境、成长环境完全不一样的人但只要他们语言相通即可以交流。而世界知识则更加与“记忆”相关知道就是知道不知道就是不知道。世界知识本身也是更加开放、无限、多变的且其无法枚举想想每天在互联网上的吃瓜现状。也就是说语言知识和世界知识在问题范围上完全不等价却要在同一个只包含文本的基准上被考察笔者在听中国传媒大学教授的演讲课时对一句话印象颇深——“文字禁锢了语言的表达”的确哪怕是人在交流的时候不可避免会带上大脑中的先验知识双方谈吐时的语气、状态等这都是在给对方传达用以“理解”的信号这些都是纯文本的数据集无法传递的。如笔者在之前的文章中所说如果仅利用任务规则中允许我们用到的知识人类能否有能力得到该样本中给出的答案想象一下如果测试样本中使用了训练样本中出现过的事实知识模型做对了但我们很难去说模型做到了“理解”只能说做到了拟合且这种拟合很容易被对抗例如构造假事实例如完全使用二义性实体分别构造训练样本和测试样本。这个现象在 CLUE基准上甚至变本加厉如 CLUENER 数据集中一些类别如不使用世界知识如游戏、漫画、小说、电影类是完全无法判定的而文本中给出的信息有时又不足以让人分辨出该使用什么样的世界知识无法完成链指毕竟游戏改编动画小说改编电影小说改编游戏实在是太常见了。现状被忽略在开篇所提的童话故事中Grover 看到了一个“非常非常亮的东西”的展厅发现了一块大石头他说“错了这个石头不亮”并觉得应该把它挪到“非常非常重的东西”的展厅。但他发现相比于“重东西”这块石头并不重而相比于其他石头这块石头的颜色的确亮一些。不存在绝对中立的数据集数据集必然受其创造者本身的背景知识所限存在其固有的局限性。数据基准测试本就是封闭的、主观的且基于有限数据构造的。但由于大家长期接受并强调其用于“通用”能力评测的设定“通用”反倒成为了掩护开发基准的人以此为借口逃避了报告基准数据细节如数据源、可能存在的偏向性的责任。基准数据集应当有描述文档但现状是这方面的建设是不发达的并且数据相关的工作在业界被大大低估。数据范围受限ImageNet数据集其量级、类别数量等都可称为是超大规模但即便如此其仍然受到文化背景及时代的局限如非西方文化背景的图片明显不足且绝大多数图片是局限于当代的。同时ImageNet中的图片要识别的目标更加倾向于居中——与现实生活中人类所面对的情境相去甚远。GLUE/SuperGLUE的作者们倒是不以数据的绝对数量为卖点而是主打任务的多样性。与之前的基准不同GLUE中引入了多个任务其论文中宣称覆盖了多样的文本体裁数据集大小以及难度然而与人类的语言活动相比GLUE基准很难说是多样仅包含2个单句分类CoLA、SST-23个相似度和语义解释任务MRPC、SST-B、QQP4个语义推断MNLI、QNLI、RTE、WNLI。显然GLUE的作者们也意识到了这个问题于是在SuperGLUE中增加了问答和共指消解两类任务SuperGLUE中的任务组成为4个QABoolQ、MultiRC、COPA、ReCoRD2个推断任务RTE、CB1个场景消歧WiC和1个共指消解WSC。不过我们都知道即便是增加了SuperGLUE该基准也远远覆盖不到“通用”的语言理解能力。无独有偶CLUE基准中甚至存在着整体分布偏差例如语义相似度检测 ACQMC 数据集中数据来源于蚂蚁金服其中大面积分布着花呗和借呗。整个数据集更加像是纯领域的任务却冠以通用之名。基准是主观的前面我提到数据集必然受其创造者本身的背景知识所限也就一定嵌入了其创造者的主观态度所以也不可能存在绝对中立、全面的数据集。在工业应用专用 agent 模型上我们是可以允许数据集中带有明显的 bias 的因为每个应用都有其应用范围。可是在“通用”能力评测中如果将带有明显政治倾向及主观价值导向的数据集当作中立、科学的基准来使用则是完全不负责的行为必然导致模型误用。例如一些公司完全信任 AI 系统使用 AI 系统进行打卡、考评、用药建议、休假审批这些看似是应用系统但实际由于面向所有人也具备“通用”属性等正因为其使用训练数据的局限性和主观性导致模型出现了大规模的错误判断。笔者偶尔也承接一些 ToB 业务也深受其害。一方面做 AI 模型的人都在宣称其工作有多么强大、智能、通用却导致客户有过高的估计而在实际业务上什么都拿不到自然也做不到好的模型从而给客户造成了巨大的落差。自然号称评估“通用”的基准中这类问题必然存在但“通用”粉饰了一切以“通用”为幌大家忽略了必然存在的主观属性仿佛不承认它存在它就自然消失了。并且其分布 bias 并不是随机的其往往只存在于不同文化背景也自然对该基准不具备话语权的群体中如LGBT、非白人种族非西方、欧美文化背景等。并且GLUE/SuperGLUE基准只是评测了特定语言英语的理解能力而非抽象意义上“通用”的语言能力。笔者按感觉作者在这方面稍显偏激。“抽象意义上的语言能力”是一个无法描述清楚的概念就如同人没有办法不使用某一种具体的载体就表达自己的知识一样。作者似乎在形容底层认知但不同语言背景的人底层认知也有从语言而来的差异例如生活在雪乡的人其语言中存在各种形态的雪的描述词汇其对雪的分辨能力则相当强因为语言直接影响了他们的注意力也就是感知但这些对应于其他地方的人只是“雪”罢了。所以我们有时也发现翻译没法做到完全的对齐。ImageNet中即便其作者将各种语言文化背景下的数据翻译到最终的英语数据集中也仍不可避免存在 bias。如地理位置类有约45%的图片来自于美国60%以上来自于北美及欧洲的少数西方国家。但作为无论人口还是国土面积意义上的大国来自于中国的数据仅有1%来自于印度的数据仅有1.2%。同时还有一个小 bug由于开发者们使用了印地语图片查询系统而非英语的则出现了一些非常不同的数据。而这份数据集本身扩充的成本是相当大的而且无论怎么扩充也极难达到其所宣称的“通用”目标。危害已经出现正因为不存在通用的数据集则所有的基准开发者们实际都夸大了其基准对“通用”能力的评估作用并将之宣称为整个领域努力的最终目标直接导致研究者们不假思索地去追求算法在该基准评估下的性能指标而忽略了指标与真实世界是不匹配的做出来的算法也无法解决相关的其他问题。当科学研究变为竞赛在科学研究中一味的追求 SOTA只关注指标数字的增长而不去做基于假设的科学研究本身就非常奇怪。学界苦 SOTA 久矣本文作者也节选了部分其他人对 SOTA 风气的批判。只对已有的监督学习策略做各种小修改tricky却在benchmark上性能指标上取得增长的无聊dull paper 被允许发表。一味追求指标甚至是一个道德问题其最终导向是操纵、游戏和短视。实际应用中或许有的分类80%的精度就已经足够了例如虹膜识别但是有的分类精度却要达到99%甚至更高如毒蘑菇识别但是在“通用”基准中不同的数据集却以相同的方式评估所有数据集的分数取个平均就草率地成为了“通用”的打分。实际上跨领域的比较假设是应用了范围相同但意义不同的指标所造成的海市蜃楼。性能指标分数上x%的提升无法代表任何实际意义上的能力无论是通用性还是什么其他的能力。因为对不同的数据集x%的意义也截然不同而这些指标却被粗暴地计算在了一起。但讽刺的是比赛、刷榜似乎成为了学界甚至工业界算法研发或前沿探索的主流双脚如同踩在虚空之上自然也做不出任何可以落地的东西。ImageNet 和 GLUE/SuperGLUE 的基准作者也很乐于将基准发展为比赛对外公开放榜号召大家来刷分。而这种风潮则必然会导致——算法优化的关注焦点被转移前面提到基准本身是有着相当的历史意义的。一个亟待解决的问题如果有相应的基准能够定量地评估算法的能力往往也可以吸引研究者们的兴趣大家知识共建将这个问题解决掉。但前文已经论证过“通用”基准首先在问题上的定义就是完全脱离了基础应用且模糊不清的那么其基准也难以成为客观的评估标准。可恰恰是在这样一个基准上的性能指标成为了该领域成功的标志随着竞争不断提升内卷不断加剧该基准收到的关注也就越来越大其光芒掩盖了所有的阴影最终成为了算法性能的最终解释。基准也在不断地影响着主流算法的发展方向比如20世纪60年代正是计算机下棋如火如荼的时候整个 AI 届都在关注着深度优先搜索和极大极小算法这两种方法也一度主导了 AI 的发展。所以机器学习算法发展的趋势一定程度上的确也是由特定的基准性能驱动的而“通用”基准带来了什么趋势呢没错“大力出奇迹”趋势我们肉眼可见的看到模型的参数量不断地增加训练数据规模不断地上涨大模型散发的威力使得现如今模型的大小和通用能力划上了等号。我也曾提到过负责前沿探索的刷分团队其成果很多都是两只脚皆踩在虚空之上。他们在试图将自己研发的所谓“算法”落地时做的事情往往就是管应用方要一份数据集把分数刷上去超过某些方法就算是交付了却完全不分析问题。刷分的手段包括但不限于搜参数提几百个任务爆搜连训几个 epoch 都要搜堆大模型搞集成。不会优先考虑工程上是否能接受是否具备应对其他情况的泛化能力或者这个“算法”是否还有未来成长空间。但也正如前文所说我们也必须承认ImageNet 点燃了如今深度学习的火爆而 BERT 也是在 GLUE 上第一次秀了肌肉。将基准指标当作应用的性能如今即是是在商业营销策略中也往往会假如通用基准的性能其打分成为了衡量技术成就的重要依据。基准性能的重要性被严重扭曲成为了选择算法的工具和部署模型预期成就的重要标志。例如2021年1月微软说“DeBERTa在SuperGLUE上超越了人类性能被看作是通用AI的重要里程碑”。ImageNet 也被同样视作是商业模型成功的依据——以至于曾有为获得更大的营销影响力在此基准上作弊的事件。过分夸大基准指标的性能则会导致一些子任务、子领域上模型表现不佳很容易被总体的指标所掩盖从而导致一个不够可靠或不够安全的 AI 系统被交付使用。最近一些有关人工智能伦理的讨论中明显举出了相关的 case如面部识别系统对有色人种的偏见之类的。可行的道路在前文中我们批判了那么多通用基准本身的限制及其所带来的危害但我们又不可能放弃使用基准评测所以就需要找准基准评测在评估模型性能中真正应该扮演什么样的角色而不是一味地去修复、扩展、改善现有通用基准。毕竟想要去解决“世界上所有的东西”的方法不是不断地放新的东西进来。评估基准如果完全脱离了使用情境、定义范围和特异性本身就成为了机器学习评估的错误假设。所以我们可以有两个方向按照预期的能力或应用去开发、展示、解释评测基准去评估具体的、范围明确的、与情境相关的任务。探索基准指标之外更为广泛的模型评测目标、行为或能力不同的领域探索其他可选的评估方法。采用软件系统开发的测试思路模块化地测试模型从而展示出在模型所应对的问题空间中尚存哪些缺陷或偏差及其所带来潜在的危害也正如我在算法工程师文章中所说做好 case 分析、归类确定问题做好消融分析并综合的考量技术方案的种种属性选择合适的算法。总结现如今机器学习领域在遵循着一个逻辑谬误把基准上的性能指标当作通用能力提升的证明然而包罗万象的数据集是不可能存在的。而现在看来受限的基准性能或许只能当作一个定性的指标即证明模型通用能力的必要不充分条件可也仅仅适用于基准的数据集未超出任务所描述的能力范围。基准开发对机器学习发展仍尤为重要但其有效性不在于武断、虚假的“通用性”而是用来帮助研究者们了解一些算法为什么能 work或为什么不 work。如应用得当不是作为内卷的比赛而是将之落地到具体的情境中适当纳入算法的评估那么它会成为有影响力的算法的重要评估维度。而去探索能够替代基准数据集的角色首先则需要将视野从“描述全世界的一切”这种狭隘的目标中解脱出来。一些感想在我看来或许近两年SOTA真的是卷不动了。原本可能今年的小样本学习风潮可能给SOTA内卷续了个命但没成想大厂入场竞技大力出奇迹长期霸榜学界也相当难。我本人也亲眼见证了内卷我的一位同事今年在 TPLinker 的基础上做了一些方法上的改进结果和 ACL 的一篇论文直接撞了 idea几个月的工作付诸东流。从今年的风向看或许真的已经卷无可卷了。上半年Ng老师推出了以数据为中心的比赛EMNLP2021 中最佳 paper 和杰出 paper 中谈论数据集质量的文章比例明显多了起来萌屋文章从 ACL’22 投稿情况速览当下 NLP 研究热点中也提到在新发表的paper中数据相关的工作比例越来越高数据的价值越来越重要。无独有偶12月 Meta 发表的文章中提到各种对 transformer 中 attention 的优化虽然在各基准中跑出了提升但实际测下来还是不太行甚至不如传统的 attention 侧面也说明了有限的基准给人带来的误解。这种趋势虽然是内卷之下无奈的产物但总归是走向了相对正轨的发展道路。我之前在萌屋发表的文章中多次强调着数据的重要性任务设计的合理性基准指标的缺陷。而今终于在会议上也被拿上了台面。诚然本文言论中有偏激的地方作者的用词也不可谓不凶狠笔者添油加醋也好好阴阳怪气了一把但开启了这方面的讨论总归是一件好事儿。Google 发表了这篇文章则也是给了我更多的信心让我得以更好地解释接下来即将发表及开源的工作。萌屋作者SeverusSeverus在某厂工作的老程序员主要从事自然语言理解方向资深死宅日常愤青对个人觉得难以理解的同行工作都采取直接吐槽的态度。笔名取自哈利波特系列的斯内普教授觉得自己也像他那么自闭、刻薄、阴阳怪气也向往他为爱而伟大。作品推荐深度学习路在何方数据还是模型人类知识在深度学习里还有用武之地吗在错误的数据上刷到 SOTA 又有什么意义后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集
http://www.sadfv.cn/news/125661/

相关文章:

  • 青岛建设集团官方网站项目计划书格式模板
  • ppt做杂志模板下载网站有哪些探测器 东莞网站建设
  • 专业app定制开发公司关键词优化公司哪家效果好
  • 网站开发大牛建设通是个什么网站
  • 专门发布采购信息的网站深圳软件公司名录
  • 菏泽网站建设效果甘肃省城乡建设厅网站
  • 电商网站增加客户怎么制作自己的链接
  • 淘宝客网站素材wordpress 箭头翻页
  • 南阳集团网站建设网站主页与导航栏的设计
  • 全校网站建设与管理高端商务经纪网站建设
  • 网站建设业务饱和了吗招聘网站数据分析要怎么做
  • 互联网做视频网站需要许可证吗网站开发外快
  • 个人备案网站可以做支付吗大兴网站制作
  • 江西省建设工程安全质量监督管理局网站mvc 手机网站开发
  • 哪些网站可以免费申请杭州企业网站设计公司
  • 高密做网站哪家强价位成都网站营销推广公司
  • 泉州网站seo外包公司深圳市公共资源交易中心官网
  • 天津市建设安全协会网站网站优化成本
  • 哪个网站ppt模板免费下载建设机械网站精英
  • 不错的网站建设公司wordpress菜单文章
  • 网站是灰色系的网站网站空间服务器费用
  • wordpress幻灯片修改群站优化之链轮模式
  • 六安市建设局网站百度站长平台网站改版工具
  • 推荐网站建设案例页游代理
  • 做企业网站设计与实现大型网络游戏排行榜前十
  • 广告型网站微信营销的优缺点
  • 有没有帮人做数学题的网站珠海建设信息网站
  • 微商需要做网站吗企业网站备案审核需要多长时间
  • 生鲜网站建设规划书范文谷歌seo优化是什么
  • 网站建设排名政务佛山seo优化排名推广