当前位置: 首页 > news >正文

php蓝色大气科技企业网站html5手机网站源码

php蓝色大气科技企业网站,html5手机网站源码,部队网站设计,51ape是谁做的网站来源#xff1a;机器学习研究组订阅Bengio 等研究者刚「出炉」的预印本论文#xff0c;探讨了机器学习系统的一个重要方向问题。深度学习研究者从神经科学和认知科学中汲取灵感#xff0c;从隐藏单元、输入方式#xff0c;到网络连接、网络架构的设计等#xff0c;许多突破… 来源机器学习研究组订阅Bengio 等研究者刚「出炉」的预印本论文探讨了机器学习系统的一个重要方向问题。深度学习研究者从神经科学和认知科学中汲取灵感从隐藏单元、输入方式到网络连接、网络架构的设计等许多突破性研究都基于模仿大脑运行策略。毫无疑问近年来在人工网络中模块化和注意力经常被组合使用并取得了令人印象深刻的结果。事实上认知神经科学研究表明大脑皮层以模块化的方式表示知识不同模块之间进行通信注意力机制进行内容选择这也就是上述提到的模块化和注意力组合使用。在近期的研究中有人提出大脑中的这种通信方式可能对深度网络中的归纳偏置有意义。这些高级变量之间依赖关系的稀疏性将知识分解为尽可能独立的可重组片段使得学习更有效率。尽管最近的许多研究都依赖于这样的模块化体系架构但研究者使用了大量的技巧以及体系架构修改这使得解析真正的、可用的体系架构原则变得具有挑战性。机器学习系统正逐渐显露出更稀疏、更模块化架构的优势模块化架构不仅具有良好的泛化性能而且还能带来更好的分布外(OoD) 泛化、可扩展性、学习速度和可解释性。此类系统成功的一个关键是用于真实世界设置的数据生成系统被认为由稀疏交互部分组成赋予模型类似的归纳偏置将是有帮助的。然而由于这些真实世界的数据分布是复杂和未知的该领域一直缺乏对这些系统进行严格的定量评估。由来自加拿大蒙特利尔大学的 Sarthak Mittal、Yoshua Bengio、 Guillaume Lajoie 三位研究者撰写的论文他们通过简单且已知的模块化数据分布对常见的模块化架构进行了全面评估。该研究强调了模块化和稀疏性的好处并揭示了在优化模块化系统时面临挑战的见解。一作及通讯作者 Sarthak Mittal 为 Bengio 和 Lajoie 的硕士生。论文地址https://arxiv.org/pdf/2206.02713.pdfGitHub 地址https://github.com/sarthmit/Mod_Arch具体而言该研究扩展了 Rosenbaum 等人的分析并提出了一种方法来评估、量化和分析模块化架构的常见组成部分。为此该研究开发了一系列基准和指标旨在探索模块化网络的效能。这揭示了有价值的见解不仅有助于识别当前方法的成功之处还有助于识别这些方法何时以及如何失败的。该研究的贡献可总结为该研究基于概率选择规则来开发基准任务和指标并用基准和指标来量化模块化系统中的两个重要现象崩溃collapse和专业化specialization。该研究提炼出常用的模块化归纳偏置并通过一系列模型进行系统地评估这些模型旨在提取常用的架构属性Monolithic, Modular, Modular-op、GT-Modular 模型。该研究发现当一个任务中有很多潜在规则时模块化系统中的专业化可以显著提高模型性能但如果只有很少的规则则不会如此。该研究发现标准的模块化系统在专注于正确信息的能力和专业化能力方面往往都不是最优的这表明需要额外的归纳偏置。定义 / 术语本文中研究者探究了一系列模块化系统如何执行常见的任务这些任务由我们称为规则数据的合成数据生成过程制定。他们介绍了关键组成部分的定义包括1规则以及这些规则如何形成任务2模块以及这些模块如何采用不同的模型架构3专业化以及如何评估模型。详细设置如下图 1 所示。规则。为了正确理解模块化系统并分析它们的优缺点研究者考虑采用的综合设置允许对不同的任务要求进行细粒度的控制。尤其是必须在如下公式 1-3 中展示的数据生成分布上学习操作他们称之为规则。给定上述分布研究者定义了一个成为其专家的规则也即规则 r 被定义为 p_y(·|x, c r) 其中 c 是表示上下文的分类变量x 是输入序列。任务。任务是由公式 1-3 中展示的一组规则数据生成分布描述。不同的{p_y(· | x, c)}_c 集合意味着不同的任务。其中对于给定数量的规则研究者在多个任务上训练模型以消除任何对特定任务的偏见。模块。模块化系统由一组神经网络模块组成其中每个模块都对整体输出做出贡献。通过如下函数形式可以看出这一点。其中 y_m 表示输出p_m 表示 m^th 模块的激活。模型架构。模型架构描述了为模块化系统的每个模块或者单片系统的单个模块选择什么架构。在本文中研究者考虑采用了多层感知机MLP、多头注意力MHA和循环神经网络RNN。重要的是规则或者数据生成分布进行调整以适用于模型架构比如基于 MLP 的规则。数据生成过程由于研究者的目标是通过合成数据来探究模块化系统因此他们详细介绍了基于上文描述的规则方案的数据生成过程。具体地研究者使用了简单的混合专家MoE风格的数据生成过程希望不同的模块可以专门针对规则中的不同专家。他们解释了适用于三种模型架构的数据生成过程它们分别是 MLP、MHA 和 RNN。此外每个任务下面都有两个版本回归和分类。MLP。研究者定义了适用于基于模块化 MLP 系统的学习的数据方案。在这一合成数据生成方案中一个数据样本包含两个独立的数字以及从一些分布中采样的规则选择。不同的规则生成两个数字的不同线性组合以给出输出也即线性组合的选择是根据规则进行动态实例化如下公式 4-6 所示。MHA。现在研究者定义了针对模块化 MHA 系统的学习而调整的数据方案。因此他们设计了具有以下属性的数据生成分布即每个规则分别由不同的搜索、检索概念以及检索信息的最终线性组合组成。研究者在如下公式 7-11 中用数学方法描述了这一过程。RNN。对于循环系统研究者定义了一种线性动态系统的规则其中可以在任何时间点触发多个规则中的一个。在数学上这一过程中如下公式 12-15 所示。模型以往一些工作宣称端到端训练的模块系统优于单体系统尤其是在分布式环境中。但是对于这些模块化系统的好处以及它们是否真的根据数据生成分布进行专业化处理还没有详细和深度的分析。因此研究者考虑了四类允许不同程度专业化的模型它们分别是 Monolithic单体、Modular模块化、Modular-op 和 GT-Modular。下表 1 展示了这些模型。Monolithic。单体系统是一个大型神经网络它以整体数据 (x, c) 作为输入并依此做出预测 y^。系统中显式 baked 的模块化或稀疏性没有出现归纳偏置并完全取决于反向传播来学习解决任务所需的任何函数形式。Modular。模块化系统由很多模块组成每个模块都是给定架构类型MLP、MHA 或 RNN的神经网络。每个模块 m 将数据 (x, c) 作为输入并计算输出 yˆ_m 和置信度分数跨模块归一化为激活概率 p_m。Modular-op。模块化操作系统与模块化系统非常相似仅有一点不同。研究者没有将模块 m 的激活概率 p_m 定为 (x, c) 的函数而是确保激活仅由规则上下文 C 决定。GT-Modular。真值模块化系统作为 oracle 基准即完美专业化的模块化系统。研究者表明从 Monolithic 到 GT-Modular模型越来越多地包含模块化和稀疏性的归纳偏置。度量为了可靠地评估模块化系统研究者提出了一系列度量不仅可以衡量此类系统的性能优势还能通过崩溃和专业化这两种重要的形式进行评估。性能。第一组评估度量基于分布内和分布外OoD设置中的性能反映了不同模型在各种任务上的表现。对于分类设置研究者报告了分类误差对于回归设置研究者报告了损失。崩溃。研究者提出了一组度量 Collapse-Avg 和 Collapse-Worst以此来量化模块化系统遭遇到的崩溃量也即模块未充分利用的程度。下图 2 展示了一个示例可以看到模块 3 未被使用。专业化。为了对崩溃度量做出补充研究者还提出了以下一组度量即1对齐2适应和3量化模块化系统获得的专业化程度的逆互信息。实验下图表明GT-Modular 系统在大多数情况下都最优左的这表明专业化是有益处的。我们还看到在标准端到端训练的模块化系统和 Monolithic 系统之间前者的表现优于后者但差距不大。这两个饼图共同表明当前的端到端训练的模块化系统没有实现良好的专业化因此在很大程度上是次优的。然后该研究查看特定架构选择并分析它们在越来越多的规则中的性能和趋势。 图 4 显示虽然完美的专业化系统 (GT-Modular) 会带来好处但典型的端到端训练的模块化系统是次优的不能实现这些好处特别是随着规则数量的增加。此外虽然这种端到端模块化系统的性能通常优于 Monolithic 系统但通常只有很小的优势。在图 7 中我们还看到不同模型的训练模式在所有其他设置上的平均值平均值包含分类错误和回归损失。可以看到良好的专业化不仅可以带来更好的性能而且可以加快训练速度。下图显示了两个崩溃度量Collapse-Avg 、Collapse-Worst。此外下图还显示了针对不同规则数量的不同模型的三个专业化指标对齐、适应和逆互信息未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://www.yutouwan.com/news/322875/

相关文章:

  • 网站到期请续费白城网站建设
  • 班级网站制作教程怎么制作网页链接在微信上发
  • 电子商务网站建设与维护致谢词怎么写软文
  • 网站建设xiu021什么游戏不用登录直接玩
  • 毕业设计(论文)-潮州美食网网站建设.doc 免费下载企业网页申请制作步骤
  • 网站开发做什么简单wordpress 扁擔
  • 购物商城网站制作cms 免费
  • 做境外域名网站如何找外链资源
  • 建设银行注册网站的用户名怎么写高端网站建设合同
  • 做调查问卷用的网站或软件.net如何做网站
  • 网站建设推广哪里好wordpress 域名使用
  • 汕头网站建设 网络服务wap网站前台模板
  • 南宁seo建站seo教程网站优化
  • 烟台网站关键词推广成品视频直播软件推荐哪个好一点ios
  • 免费的创建个人网站网站数据库问题
  • 大连英文网站建设网站开发分为哪几块
  • 深圳企业网站建设标准网站制作创业
  • 网站建设 工作计划怎么在百度建个网站
  • 长沙建站长沙网站杭州市建设工程招标
  • 大淘客cms建站教程百度seo公司有哪些
  • 买正品去哪个网站最好吉安网络科技有限公司
  • 网站查询云南固恒建设集团有限公司网站
  • 网站建设基本步骤做文案策划有些网站可看
  • 做淘宝客的网站需要备案吗昆明的互联网公司有哪些
  • 个人能建什么样的网站wordpress给幻灯片添加图片
  • 云端互联网站建设wordpress 友情链接 nofollow
  • 拖拽式网站手机制图设计免费软件下载
  • 网站开发与运用山东青岛网站建设
  • 昆明网站开发哪家好wordpress自动采集软件
  • 网站模块怎么恢复网页源代码能修改吗