当前位置：首页 > news >正文

怎么查看网站死链接加盟型网站建设

news 2025/12/8 15:03:22

怎么查看网站死链接,加盟型网站建设,个人网店系统,小工程承包信息网文章链接#xff1a;https://arxiv.org/abs/2309.04354 最近#xff0c;专家混合模型MoE受到了学术界和工业界的广泛关注#xff0c;其能够对任意输入来激活模型参数中的一小部分来将模型大小与推理效率分离#xff0c;从而实现模型的轻量化设计。目前MoE已经在自然语言处理… 文章链接https://arxiv.org/abs/2309.04354 最近专家混合模型MoE受到了学术界和工业界的广泛关注其能够对任意输入来激活模型参数中的一小部分来将模型大小与推理效率分离从而实现模型的轻量化设计。目前MoE已经在自然语言处理和计算机视觉进行了广泛的应用本文介绍一篇来自Apple的最新工作在这项工作中苹果转而探索使用稀疏的MoE来缩小视觉Transformer模型ViT的参数规模使其能够在移动端的推理芯片上更加流畅的运行。为此本文提出了一种简化且适合移动设备的Mobile V-MoEs模型将整个图像而不是单个patch路由输入给专家并且提出了一种更加稳定的MoE训练范式该范式可以使用超类信息来指导路由过程。作者团队通过大量的实验表明与对应的密集ViT相比本文提出的Mobile V-MoE可以在性能和效率之间实现更好的权衡例如对于 ViT-Tiny模型Mobile V-MoE在ImageNet-1k上的性能比其密集模型提高了3.39%。对于推理成本仅为54M FLOPs的更小的ViT版本本文方法实现了4.66%的改进。 01. 引言稀疏专家混合模型是一种可以将模型大小与推理效率解耦的神经网络加速手段直观上理解MoEs[1]是一种可以被划分为多个“专家”模块的神经网络“专家”模块与一个路由模块联合训练在MoEs中每个输入仅由一小部分模型参数处理又称条件计算。相比之下普通的密集模型则会激活每个与输入有关的参数如下图所示bc所示MoE首先使用路由模块从输入图像中选取一些patch然后再将这些patch送入到专家模块中进行计算。虽然目前在CV领域Transformer架构代替CNN架构已经成为一种趋势但是现有基于ViT架构的MoEs方法仍然无法像卷积结构一样很好的在移动端进行部署因此本文作者想使用条件计算来将注意力头的计算量进行缩减此外提出了一种更加简化且更适合于移动设备的稀疏MoE设计即首先使用路由模块将整个图像的表征而不是图像块直接分配给专家模块作者还对这一结构设计了一套专门的训练范式引入了语义超类的概念来指导路由器的训练来避免专家分配不平衡的问题。本文通过广泛的实验表明所提出的稀疏MoE方法可以达到ViT模型性能与效率之间的全新平衡。 02. 本文方法 2.1 稀疏MoEs 2.2 适用于轻量级ViT的MoEs 03. 实验效果本文的实验在ImageNet-1K数据集上进行该数据集包含大约128万张训练图像本文所有的对比方法和模型版本均在该训练集上从头端到端训练然后在包含5万张图像的验证集上计算top-1识别准确率。作者通过缩放Transformer总层数12、9、6和隐藏层特征维度384、192、96和64来控制Mobile V-MoEs与其对应的密集ViT的模型大小。上图展示了本文方法与其对应参数规模的ViT模型的识别准确率对比可以看到本文提出的Mobile V-MoEs在所有的模型规模上都优于对应的ViT模型。从视觉ViT的基本范式出发模型内部MLP的嵌入特征维度应是隐藏层特征维度的4倍。此外本文涉及到的MoEs模型均由2个MoE-ViT层构成在这些层的前面是不同数量级的密集ViT层输入的patch大小为 32×32 。这样设置的目的是因为patch大小可以有效的控制FLOPs与模型参数数量之间的权衡由于本文的目标是针对模型FLOPs进行优化因此较大的patch大小使得我们可以更加专注于控制patch的计算效率此外作者还在 32×32的基础上尝试了更小的 16×16 尺寸实验结果的趋势与大尺寸保持一致上表展示了详细的实验效果。 04. 总结目前在深度学习模型落地部署领域正在经历着从CNN向视觉ViT过度的大潮流基于CNN的移动端轻量级网络如MobileNet也亟待升级。本文介绍了一种移动端ViT轻量化的最新技术作者将稀疏MoEs迁移到视觉ViT模型架构中与其对应的密集ViT相比稀疏MoE可以实现高效的性能与效率权衡这使得将更多类型的视觉ViT模型部署到移动端计算设备上成为可能。此外本文作者展望到如果能将稀疏MoEs技术应用到CNN和视觉ViT结合的算法模型上可能会得到更好的推理效果。参考 [1] Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538, 2017. [2] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Herv´e J´egou. Training data-efficient image transformers distillation through attention. In International conference on machine learning, pages 10347–10357. PMLR, 2021. 关于TechBeat人工智能社区 ▼ TechBeat(www.techbeat.net)隶属于将门创投是一个荟聚全球华人AI精英的成长社区。我们希望为AI人才打造更专业的服务和体验加速并陪伴其学习成长。期待这里可以成为你学习AI前沿知识的高地分享自己最新工作的沃土在AI进阶之路上的升级打怪的根据地更多详细介绍TechBeat一个荟聚全球华人AI精英的学习成长社区

http://www.sadfv.cn/news/302828/

相关文章：

深圳门户网站建设专业广州企业建站

网站推广的策略有哪些重庆专业网站推广报价

入侵织梦网站后台专业网站建设套餐

设计网站建设选题报告中信建设官方网站

没有网站怎么做cps建个网站需要投资多少钱

怎么做网站h汉狮哪些php网站

食品网站设计西安seo优化培训机构

个旧网站建设公司哪里可以学网站建设

无锡营销型网站自建网站如何在百度上查到

网站开发属于什么经营范围网站管理与建设试题

建个网站的电话号码南京家装公司有哪些品牌

做数据收集网站wordpress豆瓣主题

微信小程序源码网站wordpress页面的template

推荐个网站好吗网站的文章标题太短怎么弄

泰州网站关键词优化什么是多页面网站

优秀的国外设计网站营销推广的工作内容

制作网站软件免费佛山seo整站优化承接

广州网站设计中国造价工程建设管理协会网站

网页设计感十足的网站wordpress标题带竖

seo做什么网站赚钱wordpress默认登录地址修改

网站建设初期工作方案剪辑课程哪里培训最好

浏览器正能量不良网站渭南网站开发

北京网络网站建设价格中国建设部网站

房地产公司网站下载怎么查网站备案服务商

零基础学网站建设知乎动漫视频网站模板

苏州企业如何建网站有多少种做网站后台程序

随州网站建设有限公司苏州保洁公司招聘信息

做网站和做网页有什么区别网站按钮设计

建设企业网站的好处做网站后期需要什么费用

广州网站建设专业乐云seowordpress关闭文章评论