当前位置: 首页 > news >正文

很多搜索词网站怎样做烟台开发区网站

很多搜索词网站怎样做,烟台开发区网站,郓城县网站建设,wordpress标题优化文 | 立交桥跳水冠军源 | 知乎大规模神经网络训练一般会涉及到几百个分布式节点同时工作#xff0c;模型的参数量以及运算量往往很大#xff0c;作者认为在这个task下当前的工作主要归结为以下三种#xff1a;对通信本身的优化#xff0c;神经网络训练通信的优化#xff0… 文 | 立交桥跳水冠军源 | 知乎大规模神经网络训练一般会涉及到几百个分布式节点同时工作模型的参数量以及运算量往往很大作者认为在这个task下当前的工作主要归结为以下三种对通信本身的优化神经网络训练通信的优化大规模下如何保持精度。之前一段时间接触了大规模神经网络训练看了不少优秀的工作在这里当做笔记记下来。同时也希望可以抛砖引玉和各位大佬交流一下这方面的现有工作以及未来的方向1大规模训练工作的几种类型大规模训练和普通分布式训练还是有区别的主要体现在大这个字上面。一般来说会涉及到几百个分布式节点同时工作模型的参数量以及运算量往往很大比如BERTGPT3等等我认为在这个task下当前的工作主要归结为以下三种对通信本身的优化神经网络训练通信的优化大规模下如何保持精度其中1主要是通信库的优化严格来说和神经网络本身并没有关系这里面比较优秀的工作有经典的ring-base all-reduce最先在百度的工作中被用于神经网络训练baidu-research/baidu-allreducehttps://github.com/baidu-research/baidu-allreduce腾讯的分层通信https://arxiv.org/abs/1807.11205以及sony的2D all-reduceMassively Distributed SGD: ImageNet/ResNet-50 Training in a Flashhttps://arxiv.org/abs/1811.05233而第2部分的工作都针对于如何在神经网络这个训练模式下做通信优化。这方面的思路很广比如商汤提出的稀疏通信https://arxiv.org/abs/1902.06855杜克大学提出的TernGrad (TernGrad: Ternary Gradients to Reduce Communication in Distributed Deep Learninghttps://arxiv.org/abs/1705.07878第三部分和前两个不同主要关注点在于精度而非性能。在大规模训练的情况下一种常见的做法是做数据并行即把batch size设的很大那么原来跑90个epoch需要迭代1000次的话把batch size扩大10倍就只需要迭代100次即参数的更新次数减少了很多。如何在这种情况下收敛到小batch size也是一个棘手的问题。在这个领域比较好的工作有face book的线性倍增学习率https://arxiv.org/pdf/1706.02677.pdf以及伯克利尤洋的LAR算法https://arxiv.org/pdf/1709.05011.pdf。对通信本身的优化懒得写了偷个懒我对这方面了解十分有限推荐大家读腾讯团队写的介绍兰瑞Frank腾讯机智团队分享--AllReduce算法的前世今生https://zhuanlan.zhihu.com/p/79030485神经网络的通信优化分布式神经网络训练目前主要有两种模式数据并行和模型并行。数据并行比较简单下面这张图是经典的数据并行的同步训练的场景所有节点即图中的GPU0-GPU3都保存整个模型(粉色的Params)每次迭代不同的节点会得到不同的数据每个节点用得到的数据做正向和反向计算得到每个参数的梯度。之后整个分布式系统会同步所有节点的梯度即每个节点的local gradient做一次all reduce操作得到全局的global gradient最下面蓝色的Gradients。每个节点用这个global gradient更新参数。显而易见数据并行基于一个假设每个节点都可以放下整个模型。这个假设在如今某些模型上说的就是你GPT3是不合理的因此我们还需要模型并行即不同节点负责计算神经网络模型的不同部分比如有一个100层的网络那么我们可以让第一个节点存储前50层的参数并负责计算前50层另一个网络则负责后面50层。下面这张图摘自英伟达的Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism:https://arxiv.org/abs/1909.08053在这里演示了如何用两个节点去算连续的两个矩阵乘法。我们要做的操作是首先算出YGeLU(XA)再算ZDropoug(YB)。其中XAB都是矩阵而且矩阵规模都很大。假设我们希望用两个分布式节点完成这个计算那么我们可以把矩阵A按colum切成A1A2两份分别存到节点0和节点1中。同时我们也把矩阵B按行切成B1B2两份分别存到节点0和节点1中。然后我们将X做一个broadcast图中f部分分别发送到两个节点上算得Z1和Z2在做一次all reduce图中g部将Z1和Z2相加得到最终的Z。这里面有一个很巧也很绕的地方那就是为什么A要按列切B要按行切我们可不可以把它们反过来答案是最好不要因为如果反过来的确计算上可行但是我们就会增加一次通信即算YXA的时候我们就要做一次通信这样显然速度会变慢。展开来讲数据并行和模型并行也可以细分。数据并行可以分为同步式数据并行异步式数据并行同步式比较简单就是我最上面那张图演示的。异步式复杂一些我们很容易发现最后全局all reduce gradient的时候会耗时比较多分布式系统越大消耗越大而且这样做还有一个隐藏的假设分布式系统是homogeneous的即每个分布式节点不会差的很多。举个例子如果每个节点实力相当那么都会算10s就可以结束一个iteration那么我们10s之后就可以开始一次通信。然而如果有一个节点害群之马需要算100s那么其他节点算完之后就得干等它90s才能做通信那么是对资源的极大浪费。想想看你的老板绝对不允许你打工人干坐着什么事都不干只因为你的进度被别的同事block了。研究员也是如此于是为了解决上面的问题引入了异步式通信。简单来说就是如果遭遇了上面的情况快的节点等一会儿就不等了他们之间做一次通信然后接着算下一轮。这个节点什么时候算好什么时候再和其他人一起all reduce梯度。这样做快是快了但引入了另一个问题那就是每个人的参数都不一样了那么他们根据不同的参数算得的梯度再去做all reduce就有一些不合理就会导致神经网络精度受损。有很多工作尝试解决异步并行带来的精度损失不过据我所知并没有特别general的方法因此异步并行如今也很少被使用了。模型并行可以分为粗粒度并行细粒度并行它们的区别在于并行的层级粗粒度每个节点会算不同的layer而细粒度会将layer也做拆。分粗粒度并行比较优秀的工作有google的GPipe(https://arxiv.org/pdf/1811.06965.pdf)在粗粒度并行中每个节点负责不同的layer但是layer之间是存在数据依赖的这就导致在之前的节点算的时候后面的节点干等着。GPipe提出把数据按照batch纬度做切分得到多个micro batch这样第一个节点先算第一个micro batch图中F[0,0]把算到的结果发给第二个节点去算于是下一个时刻第二个节点在算第一个micro batch(F[1,0])而第一个节点开始算第二个micro batch(F[0,1])。细粒度并行比较好的工作除了我之前介绍的Megatron之外还有GShard(GShard: Scaling Giant Models with Conditional Computation and Automatic Shardinghttps://arxiv.org/abs/2006.16668)这个工作主要的贡献在于提供了一套原语允许最高层的开发者写python的人通过简单的方式指导代码生成即编译器生成对应的模型并行的代码。后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集
http://www.sadfv.cn/news/3925/

相关文章:

  • iis7.5 网站打不开网站建设的中期检查表
  • 网站关键字被百度收录设计图网址
  • 家装网站建设公司本周的重大新闻
  • 写作网站投稿平台六安市紧急公告
  • 企业网站推广优化如何制作一个属于自己的网站
  • 正规漫画网站开发流程网站域名注册步骤
  • 软件开发和网站开发区别济南网站建设新风向
  • 大连建网站不用php做网站
  • 网站设置为默认主页有限公司企业网站建设方案
  • 做dm素材网站wordpress投票主题
  • 中国建设银行云南省分行官方网站重点专业建设网站 建设方案
  • 做推文的网站的推荐建设工程信息平台官网
  • 信息公司网站建设方案+游戏给公司创建网站
  • 大型服装网站建设企业网站强制备案
  • 怎么找网站后台侵权网站怎么做
  • wap网站开发公司广州建设局
  • 做网站编辑好还是推广好wordpress error log
  • 做微信小程序的网站网站怎么做全站搜索
  • 石家庄建网站小白如何做网站建设公众号
  • 网站开发中背景图片怎么弄全屏app制作图片
  • 4a景区网站建设标准金华网站如何制作
  • 安徽中兴建设工程有限公司网站合肥网站建设新手
  • 网站静态化 好处广州公司注册场地要求
  • 推广网站推荐培训网站项目ppt怎么做
  • 网站备案 超链接网站规划的主要任务是什么
  • 河南省大型项目建设办公室网站wordpress外贸主题免费
  • 网站设计术语网站建设方案免费下载
  • 创新建设资金网站wordpress标签加标题
  • 广州网站建设哪个好徐州做网站的设计师
  • 高校网站如何建设查找网站开发者