当前位置: 首页 > news >正文

网站建设大概好多钱网页版word在线编辑

网站建设大概好多钱,网页版word在线编辑,彩票网站建设要多少钱,成都哪里做网站备案来源#xff1a;AI科技评论作者#xff1a;Boaz Barak编译#xff1a;黄楠编辑#xff1a;陈彩娴上世纪九十年代#xff0c;斯坦福大学的知名生物信息学教授 Rob Tibshirani 曾拟了一个词汇表#xff0c;将机器学习与统计学中的不同概念作了简单而粗暴的对应关系#xf… 来源AI科技评论作者Boaz Barak编译黄楠编辑陈彩娴上世纪九十年代斯坦福大学的知名生物信息学教授 Rob Tibshirani 曾拟了一个词汇表将机器学习与统计学中的不同概念作了简单而粗暴的对应关系一方面这个表格为理解机器学习提供了基础的认识但同时其简单地将深度学习或机器学习中的概念归纳为统计学中的词义也引起了大多数人对深度学习本质的认知偏差即深度学习是“简单的统计”。然而在深入探讨中这样的认知在一定程度上阻碍了研究者理解深度学习成功的本质原因。在今年六月的一篇文章“The uneasy relationship between deep learning and (classical) statistics”中哈佛大学知名教授、理论计算机科学家 Boaz Barak 就将深度学习与统计学进行了对比区分指出深度学习的根本构成因素就与统计学有诸多不同。Boaz Barak 提出一个重要的观察从模型的用途来看如果是侧重预测与观察那么具备黑匣子特性的深度学习模型可能是最好的选择但如果是希望获取对事物的因果关系理解、提高可解释性那么“简单”的模型可能表现更佳。这与马毅、曹颖、沈向洋三位科学家在上个月提出的构成智能两大原理之一的“简约性”见解不谋而合。与此同时Boaz Barak 通过展示拟合统计模型和学习数学这两个不同的场景案例探讨其与深度学习的匹配性他认为虽然深度学习的数学和代码与拟合统计模型几乎相同但在更深层次上深度学习中的极大部分都可在“向学生传授技能”场景中被捕获。统计学习在深度学习中扮演着重要的角色这是毋庸置疑的。但可以肯定的是统计角度无法为理解深度学习提供完整的画面要理解深度学习的不同方面仍需要人们从不同的角度出发来实现。下面是 Boaz Barak 的论述1模型拟合中的预测与解释几千年来科学家们一直在为观测结果拟合模型。比如在科学哲学书皮中所提到的埃及天文学家托勒密提出了一个巧妙的行星运动模型。托勒密的模型是地心的即行星围绕地球旋转但有一系列“旋钮”knobs具体来说就是“本轮”使其具有出色的预测准确性。相比之下哥白尼最初的日心说模型则是假设行星围绕太阳的圆形轨道。它比托勒密的模型更简单“可调节旋钮”更少、且整体上更正确但在预测观察方面却不太准确。哥白尼在后来也添加了他自己的本轮从而与托勒密的表现可以相媲美。托勒密和哥白尼的模型是无与伦比的。当你需要一个“黑匣子”来进行预测时那托勒密的地心模型更胜一筹。而如果你想要一个可以“窥视内部”的简单模型并作为解释星星运动的理论起点那哥白尼的模型就更好。事实上开普勒最终将哥白尼的模型改进为椭圆轨道并提出了他的行星运动三定律这使得牛顿能够使用地球上适用的相同引力定律来解释它们。为此至关重要的是日心模型并不仅是一个提供预测的“黑匣子”而是由几乎没有“活动部件”的简单数学方程给出的。多年来天文学一直是发展统计技术的灵感来源。高斯和勒让德独立地在 1800 年左右发明了最小二乘回归用于预测小行星和其他天体的轨道柯西在1847年发明的梯度下降也是受到了天文预测的推动。在物理学中至少有时你可以“拥有一切”——找到能够实现最佳预测准确性和数据最佳解释的“正确”理论这被诸如奥卡姆剃刀原理之类的观点所捕捉假设简单性、预测能力和解释性洞察力都是相互一致的。然而在许多其他领域解释或一般情况下称洞察力和预测的双重目标之间存在张力。如果只是想预测观察结果“黑匣子”可能是最好的选择。但如果你提取因果模型、一般原理或重要特征那么一个容易理解和解释的简单模型可能会更好。模型的正确选择取决于其用途。例如考虑一个包含许多个体的基因表达和表型比如某种疾病的数据集如果其目标是预测个人生病的几率往往会希望为该任务使用最佳模型不管它有多复杂或它依赖于多少基因。相比之下如果你的目标是在湿实验室中识别一些基因来进一步研究那么复杂的黑匣子的用途将是有限的即使它非常准确。2001年 Leo Breiman 在关于统计建模两种文化的著名文章“Statistical Modeling: The Two Cultures”中就有力地阐述了这一点。“数据建模文化”侧重于解释数据的简单生成模型而“算法建模文化 ”对数据是如何产生的并不了解而是专注于寻找能够预测数据的模型。Breiman 认为统计数据太受第一文化的支配而这种关注“导致了不相关的理论和有问题的科学结论” 和“阻止统计学家研究令人兴奋的新问题。”但是Breiman 的论文充满争议。虽然 Brad Efron 对部分观点表示赞同但“看第一遍Leo Breiman 那篇令人振奋的论文看起来像是反对简约和科学洞察力支持很多旋钮可操纵的黑盒子。而看第二遍还是那个样子” 。但在近期一篇文章“Prediction, Estimation, and Attribution”中Efron 大方承认“事实证明Breiman 比我更有先见之明纯粹的预测算法在 21 世纪占据了统计的风头其发展方向与 Leo 此前提到的差不多。”2经典和现代预测模型无论机器学习是否“深度”它都属于 Breiman 所说的第二种文化即专注于预测这种文化已流传很长一段时间。例如 Duda 和 Hart 1973 年的教科书《Deconstructing Distributions: A Pointwise Framework of Learning》、以及Highleyman 1962 年《The Design and Analysis of Pattern Recognition Experiments》的论文片段对于今天的深度学习从业者来说其辨识度非常高同样地Highleyman 的手写字符数据集和被用来与数据集拟合的架构 Chow准确率约为 58%也引起了现代读者的共鸣。3为什么深度学习不同1992 年Stuart Geman、Elie Bienenstock 和 Rene Doursat 共同写了一篇题为“Neural Networks and the Bias/Varian Dilemma”的论文其中谈到一些悲观的看法例如“当前的前馈神经网络在很大程度上不足以解决机器感知和机器学习中的难题”具体来说他们认为通用神经网络无法成功解决困难的任务神经网络成功的唯一途径是通过手工设计特征。用他们的话来说即是“重要的特征必须是内置的或‘硬连线的’(hard-wired……而不是通过统计的方法来学习。”事后看来他们的观点完全错了。而且现代神经网络的架构如 Transformer 甚至比当时的卷积网络更通用。但理解他们犯错的背后原因是很有趣的。我认为他们犯错的原因是深度学习确实与其他学习方法不同。一个先验的现象是深度学习似乎只是多了一个预测模型像最近的邻居或随机森林。它可能有更多的“旋钮”knobs但这似乎是数量上而不是质量上的差异。用 PW Andreson 的话来说就是“more is different”多的就是不同的。在物理学中一旦规模发生了几个数量级的变化我们往往只需要一个完全不同的理论就可以解释深度学习也是如此。事实上深度学习与经典模型参数或非参数的运行过程是完全不同的即使从更高的角度看方程和 Python 代码看起来相同。为了解释这一点我们来看两个非常不同例子的学习过程 拟合统计模型与教学生学习数学。场景A拟合统计模型通常来说将统计模型与数据进行拟合的步骤如下1、我们观察一些数据 x 与y。可将 x 视为一个 n x p 的矩阵y 视为一个 n 维向量数据来源于一个结构和噪声模型每个坐标的得到形式是其中是对应的噪声为简单起见使用了加性噪声而是正确的真实标签。2、通过运行某种优化算法我们可以将模型拟合到数据中使的经验风险最小。也就是说我们使用优化算法来找到的最小化数量其中是一个损失项捕捉距离 y 有多近)是一个可选的规范化项 试图使得偏向更简单的模型。3、我们希望我们的模型能具有良好的总体损失因为泛化误差/损失很小这种预测是基于实验数据所在的总体数据来获得的。图注Bradley Efron经过对噪音的观察所复现的牛顿第一定律漫画这种非常通用的范式包含了许多设置包括最小二乘线性回归、最近邻、神经网络训练等等。在经典的统计设置中我们期望观察到以下情况偏差/方差权衡将 F 作为优化的模型集。(当我们处于非凸设置和/或有一个正则器项我们可以让 F作为这种模型的集合考虑到算法选择和正则器的影响这些模型可以由算法以不可忽略的概率实现。)F 的偏差是对正确标签的最佳近似可以通过元素来实现。F 的类越大偏差越小当偏差甚至可以是零。然而当 F 类越大 则需要越多样本来缩小其成员范围从而算法输出模型中的方差就越大。总体泛化误差是偏差项和方差贡献的总和。因此统计学习通常会显示偏差/方差权衡并通过正确模型复杂性的“金发姑娘选择”来最小化整体误差。事实上Geman 等人也是这么做的通过说“偏差-方差困境导致的基本限制适用于包括神经网络在内的所有非参数推理模型”来证明他们对神经网络的悲观情绪是合理的。更多并非总是最好的。在统计学习中获得更多的特征或数据并不一定能提高性能。例如从包含许多不相关特征的数据中学习更具挑战性。类似地从混合模型中学习其中数据来自两个分布之一例如和比独立学习单个更难。收益递减。在许多情况下将预测噪声降低到某个参数其所需的数据点数量在某些参数 k 下以的形式拓展。在这种情况下需要大约 k 个样本来“起飞”而一旦这样做则会面临收益递减的制度即假设花耗 n 个点来达到比如90%的准确度那么想要将准确度提高到95%则大约需要另外 3n 个点。一般来说随着资源增加无论是数据、模型的复杂性还是计算我们希望捕捉到更多更细的区别而不是解锁新的质量上的能力。对损失、数据的强烈依赖。在将模型拟合到高维数据时一个很小的细节就有可能造成结果的很大不同。统计学家知道诸如 L1 或 L2 正则化器之类的选择很重要更不用说使用完全不同的数据集不同数量的高维优化器将具有极大的差异性。数据点没有自然的“难度”至少在某些情况下。传统上认为数据点是独立于某个分布进行采样的。尽管靠近决策边界的点可能更难分类但考虑到高维度的测量集中现象可预计大多数点的距离将存在相似的情况。因此至少在经典数据分布中并不期望点在其难度水平上有很大差异。然而混合模型可以显示这种差异的不同难度级别所以与上述其他问题不同这种差异在统计设置中不会非常令人惊讶。场景B学习数学与上述相反我们来谈谈教学生一些特定的数学题目如计算导数给予他们常规指导及要做的练习。这不是一个正式定义的设置但可考虑它的一些定性特征图注从IXL 网站学习特定数学技能的练习学习一项技能而不是近似分布。在这种情况下学生是学习一种技能而非某个数量的估计器/预测器。虽然定义“技能”不是一项微不足道的任务但却是一个性质不同的目标。特别是即使函数映射练习不能用作解决某些相关任务 X 的“黑匣子”但我们相信学生在解决这些问题时所形成的内部表征仍是对 X 有用的。越多越好。一般来说学生练习更多问题和不同类型问题会取得更好的成绩。但事实上“混合模型”——做一些微积分问题和代数问题——不会影响学生在微积分上的表现反而会帮助他们学习。“探索”或解锁功能转向自动表示。虽然在某些时候解决问题也会出现收益递减但学生似乎确实经历了几个阶段有的阶段做一些问题有助于概念“点击”并解锁新功能。另外当学生们重复某一特定类型的问题时他们似乎将自己的能力和对这些问题的表述转移至较低的水平使他们能够对这些问题产生某些以前所没有的自动性。性能部分独立于损失和数据。教授数学概念的方法不止一种即使学生使用不同书籍、教育方法或评分系统学习但最终仍可学习到相同的材料和相似的内部表示。一些问题更难。在数学练习中我们经常可以看到不同学生在解决同一个问题时所采取的方法存在很强的相关性。一个问题的难度似乎是固定的解决难题的顺序也是固定的这就使学习的过程能够优化。这事实上也是IXL等平台正在做的事情。4深度学习更像统计估计还是学生学习技巧那么上述两个比喻中哪个更恰当地描述了现代深度学习特别是它如此成功的原因呢统计模型拟合似乎更符合数学和代码。实际上规范的 Pytorch 训练循环就是通过如上所述的经验风险最小化来训练深度网络的然而在更深层次上这两种设置之间的关系并不那么清楚。具体而言可以通过修复一个特定的学习任务来展开使用“自监督学习 线性探头linear probe”的方法训练分类算法其算法训练如下1、假设数据是一个序列其中是某个数据点例如具体的图像、是一个标签。2、首先找到一个深度神经网络来表示函数这个函数的训练只使用数据点而不使用标签通过最小化某种类型的自监督损失函数。这种损失函数的例子是重建或画中画从另一个输入 x 的某些部分恢复或对比学习找到使显著更小当是同一个数据点的增量时并列关系比两个随机点的并列关系要小得多。3、然后我们使用完整的标记数据来拟合线性分类器其中 C 是类的数量使交叉熵损失最小。最终的分类器得出了的映射。第 3 步仅适合线性分类器因此“魔法”发生在第 2 步深度网络的自监督学习。在自监督学习中可以看到的一些属性包括学习一项技能而不是逼近一个函数。自监督学习不是逼近一个函数而是学习可用于各种下游任务的表示。假设这是自然语言处理中的主导范式那么下游任务是通过线性探测、微调还是提示获得都是次要的。越多越好。在自监督学习中表征的质量随着数据量的增加而提高。而且数据越多样越好。图注谷歌 PaLM 模型的数据集解锁能力。随着资源数据、计算、模型大小的拓展深度学习模型的不连续改进一次又一次地被看到这在一些合成环境中也得到了证明。图注随着模型大小的增加PaLM 模型在一些基准测试中显示出一些不连续的改进上述图中只有三个大小的警告并解锁了一些令人惊讶的功能比如解释笑话。性能在很大程度上与损失或数据无关。不止一种自监督损失有几种对比性和重建性损失被用于图像。语言模型有时采用单面重建预测下一个标记有时则是使用掩蔽模型其目标是预测来自左右标记的掩蔽输入。也可以使用稍微不同的数据集这可能会影响效率但只要做出“合理”的选择常规情况下原始资源比使用的特定损失或数据集更能预测性能。有些实例比其他实例更难。这一点不只限于自监督学习数据点或存在一些固有的“难度级别”。事实上有几个实际证据表明不同的学习算法有不同的“技能水平”不同的点有不同的“难度水平”分类器 f 对 x 进行正确分类的概率随着 f 的技能单向递增随 x 的难度单向递减。“技能与难度”范式是对 Recht 和  Miller 等人所发现的“线上准确性”现象最清晰的解释在我同 Kaplun、Ghosh、Garg 和 Nakkiran 的合著论文中还展示了数据集中的不同输入如何具有固有的“难度特征”常规情况下该特征似乎对不同的模型来说是稳健的。图注Miller 等人的图表显示了在 CIFAR-10 上训练并在 CINIC-10 上测试的分类器的线现象准确性图注将数据集解构为来自 Kaplun 和 Ghosh 等人在论文“Deconstructing Distributions: A Pointwise Framework of Learning”中的不同“难度概况”点以获得越来越多的资源分类器。顶部图表描述了最可能类的不同 softmax 概率作为由训练时间索引的某个类别分类器的全局精度的函数底部饼图展示了将不同数据集分解为不同类型的点。值得注意的是这种分解对于不同的神经架构是相似的。训练即教学。现代对大模型的训练似乎更像是在教学生而不是让模型适应数据在学生不理解或看起来疲劳训练偏离时采取“休息”或尝试其他方式。Meta 大模型的训练日志很有启发性——除了硬件问题外还可以看到一些干预措施例如在训练过程中切换不同的优化算法甚至考虑“热交换”激活函数GELU 到 RELU。如果将模型训练视为拟合数据而不是学习表示则后者没有多大意义。图注Meta 的训练日志节选下面探讨两种情况情况1监督学习到目前为止我们只讨论了自监督学习但深度学习的典型例子仍然是监督学习毕竟深度学习的 “ImageNet时刻”是来自ImageNet。那么我们上面所探讨的内容是否适用于监督学习呢首先有监督的大规模深度学习的出现在某种程度上是一个历史性的意外这得益于大型高质量标记数据集即 ImageNet的可用性。可以想象另一种历史深度学习首先通过无监督学习在自然语言处理方面取得突破性进展然后才转移到视觉和监督学习中。其次有一些证据表明即使监督学习与自监督学习使用完全不同的损失函数它们在“幕后”的行为也相似。两者通常都能达到相同的性能。在“Revisiting Model Stitching to Compare Neural Representations”这篇论文中也发现它们学习了相似的内部表示。具体来说对于每一个都可以将通过自监督训练的深度 d 模型的首 k 层数与监督模型的最后 d-k 层数“缝合”起来并且使性能几乎保持原有水平。图注来自 Hinton 团队论文“Big Self-Supervised Models are Strong Semi-Supervised Learners”的表格。请注意监督学习、微调 (100%) 自监督和自监督 线性探测在性能上的普遍相似性图注摘自论文“Revisiting Model Stitching to Compare Neural Representations”的自监督与监督模型。左图——如果自监督模型的准确度比监督模型低3%那么完全兼容的表示将造成 p·3% 的拼接惩罚p层来自自监督模型时。如果模型完全不兼容那么随着更多模型的缝合预计准确度会急剧下降。右图——拼接不同自监督模型的实际结果。自监督 简单模型的优势在于它们可以将特征学习或“深度学习魔法”深度表示函数的结果与统计模型拟合由线性或其他“简单”分类器完成分离出来在此表示之上。最后虽然是推测但“元学习”似乎通常等同于学习表示这一事实详情看论文“Rapid Learning or Feature Reuse? Towards Understanding the Effectiveness of MAML”可以视为另一个支持本文观点的证据不管模型表面上优化的目标是什么。情况2过度参数化读者可能已经注意到我跳过了统计学习模型与深度学习模型在实际应用中存在差异的典型例子即缺少“偏差-方差权衡”以及过度参数化模型出色的泛化能力。我不详细讲这些例子的原因有两个一是如果监督学习确实等于自监督 简单的“底层”学习那么就可以解释它的泛化能力详情请看论文“For self-supervised learning, Rationality implies generalization, provably”二是我认为过度参数化并不是深度学习成功的关键。深度网络之所以特别并不是因为它们与样本数量相比很大而是因为它们的绝对值很大。实际上无监督/自监督学习模型中通常没有过度参数化。即使是大规模的语言模型它们也只是数据集更大但这也并没有减少它们性能的神秘性。图注在“The Deep Bootstrap Framework: Good Online Learners are Good Offline Generalizers”这篇论文中研究者的发现表明如今的深度学习架构在“过度参数化”与“欠采样”状态下表现相似其中模型在有限数据上训练多代直到过度拟合也就是上图所示的“真实世界”在“参数化不足”与“在线”情况下也如此其中模型只训练一代每个样本只看到一次也就是上图中的“理想世界”5总结毫无疑问统计学习在深度学习中扮演着重要的角色。但是如果仅仅将深度学习视为一个比经典模型拟合更多旋钮knobs的模型则会忽略其成功背后的许多因素。所谓的“人类学生”隐喻更是不恰当表述。深度学习与生物进化相似虽然对同一规则即经验损失的梯度下降有许多重复的应用但会产生高度复杂的结果。在不同的时间内神经网络的不同组成部分似乎会学习不同的内容包括表示学习、预测拟合、隐式正则化和纯噪声等。目前我们仍在寻找正确的视角来提出有关深度学习的问题更别说回答这些问题了。任重道远与君共勉。原文链接https://windowsontheory.org/2022/06/20/the-uneasy-relationship-between-deep-learning-and-classical-statistics/未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://www.sadfv.cn/news/52487/

相关文章:

  • 网站那种推广链接怎么做app网站多少钱
  • 做的网站怎样评估价值h5生成小程序
  • 凡客网登录太原网站快速排名优化
  • 手工制作会动的玩具网站如何免费做SEO优化
  • 网站开发 例子推荐seo关键词优化
  • 制作报价网站黑白网站模板
  • 四川网站建设服务wordpress数据库缓存插件
  • 宜兴宜兴建设局网站做视频采集网站违法吗
  • 网站图片上的分享怎么做教师网站建设企业实践总结
  • 大型网站如何做别名注册个公司大概要多少钱
  • 陕西网站制作电话西安做网站公司工资
  • 联合建设官方网站线上营销培训
  • 网站设计宁波网站样版风格排版
  • 海南旅游网站建设方式智慧团建在线登录
  • 专门做10s视频的网站桂林漓江学院
  • 上海闵行做网站济南网站建设富库网络
  • 遵义网站广西省建设注册管理网站
  • 网站建设进度规划不用登录的秒玩小游戏
  • 淘宝网站那个做的ftp上传文件到网站
  • 私人接做网站违法么江西省赣州市九龙山茶区
  • 新乡做网站多少钱百度短链接生成网址
  • 莱州哪有做网站的宝安网站制作
  • 手机怎么网站模板形象墙logo墙设计图
  • 濮阳市网站建设网站做的不好
  • 怎么知道自己网站的权重wordpress主题 时光
  • 简单的网站开发流程网络推广优化方案
  • 信誉好的邢台做网站网站设计考虑要素
  • 上海模板建站软件建一个小型购物网站要有服务器
  • 计算机毕设网站开发中期报告干净简约高端的网站
  • 国网法治建设网站修改wordpress登录页logo