当前位置: 首页 > news >正文

网站建设方案模板范文知名网站制作公司有哪些

网站建设方案模板范文,知名网站制作公司有哪些,高端手机网站设计,视觉设计师和平面设计师的区别卖萌屋的妹子们#xff08;划掉#xff09;作者团整理的算法工程师思维导图#xff0c;求职/自我提升/查漏补缺神器。该手册一共分为数据结构与算法、数学基础、统计机器学习和深度学习四个部分。下面是第三部分深度学习的内容~公众号后台回复【思维导图】获取完整手册… 卖萌屋的妹子们划掉作者团整理的算法工程师思维导图求职/自我提升/查漏补缺神器。该手册一共分为数据结构与算法、数学基础、统计机器学习和深度学习四个部分。下面是第三部分深度学习的内容~公众号后台回复【思维导图】获取完整手册Xmind脑图源文件学习起来更方便(ง •_•)ง编码器DNN反向传播梯度消失与爆炸反向传播到梯度消失爆炸https://zhuanlan.zhihu.com/p/76772734原因本质上是因为梯度反向传播中的连乘效应。其实梯度爆炸和梯度消失问题都是因为网络太深网络权值更新不稳定造成的激活函数导数*权值1多个小于1的数连乘之后那将会越来越小导致靠近输入层的层的权重的偏导几乎为0也就是说几乎不更新这就是梯度消失的根本原因。连乘下来就会导致梯度过大导致梯度更新幅度特别大可能会溢出导致模型无法收敛。解决方案梯度爆炸正则化/截断 梯度消失1.改变激活函数relutanh导数也小于1但会出现dead relu2.batchnorm使权值w落在激活函数敏感的区域梯度变化大避免梯度消失同时加快收敛3.残差结构求导时总有1在CNN归纳偏置locality spatial invariance1*1卷积核作用1.升维降维(in_channel - out_channel) 2.非线性 与全连接层的区别输入尺寸是否可变全连接层的输入尺寸是固定的卷积层的输入尺寸是任意的反向传播通过平铺的方式转换成全联接层https://zhuanlan.zhihu.com/p/81675803avg pooling相当于成了w [1/4, 1/4, 1/4, 1/4]稀疏交互与权重共享每个输 出神经元仅与前一层特定局部区域内的冲经元存在连接权重 在卷积神经网络中卷积核中的 每一个元素将作用于每一次局部输入的特定位置上 参数共享的物理意义是使得卷积层具高平移等变性。假如图像中有一 只猫那么无论百出现在图像中的任何位置 3 我们都应该将 8i只别为猫 在猫的 圄片上先进行卷积再向右平移 l像素的输出与先将圄片向右平移 J像 素再进行卷积操作的输出结果是相等的。池化本质降采样平均池化避免估计方差增大对背景对保留效果好 最大池化避免估计均值偏移提取纹理信息油化操作除了能显著降低参数量外还能够保持对平移、伸缩、旋 转操作的不变性。RNNhttps://zhuanlan.zhihu.com/p/34203833归纳偏置sequentiality time invarianceBPTT梯度消失与爆炸原因:https://zhuanlan.zhihu.com/p/76772734DNN中各个权重的梯度是独立的该消失的就会消失不会消失的就不会消失。RNN的特殊性在于它的权重是共享的。当距离长了最前面的导数就会消失或爆炸但当前时刻整体的梯度并不会消失因为它是求和的过程。RNN 所谓梯度消失的真正含义是梯度被近距离梯度主导导致模型难以学到远距离的依赖关系。解决方案: LSTM长时记忆单元LSTM消失通过长时记忆单元类似残差链接。但后来加了遗忘门遗忘门介于0-1梯度仍有可能消失 爆炸梯度仍可能爆炸但LSTM机制复杂多了一层激活函数sigmoid可以通过正则与裁剪解决https://zhuanlan.zhihu.com/p/30465140各模块可以使用其他激活函数吗sigmoid符合门控的物理意义 tanh在-1到1之间以0为中心和大多数特征分布吻合且在0处比sigmoid梯度大易收敛一开始没有遗忘门也不是sigmoid后来发现这样效果好relu的梯度是0/11的时候相当于同一个矩阵W连成仍旧会梯度消失或爆炸的问题综上所述当采用 ReLU 作为循环神经网络中隐含层的激活函数时只有当 W的取值在单位矩阵附近时才能取得比较好的效果因此需要将 W初始化为单位矩阵。实验证明初始化 W为单位矩阵并使用 ReLU 激活函数在一些应用中取得了与长短期记忆模型相似的结果.GRU要点结构、与LSTM的异同Transformer结构QK非对称变换双线性点积模型引入非对称性更具健壮性Attention mask对角元素值不一定是最大的也就是说当前位置对自身的注意力得分不一定最高。Scaled Dot Product为什么是缩放点积而不是点积模型当输入信息的维度 d 比较高点积模型的值通常有比较大方差从而导致 softmax 函数的梯度会比较小。因此缩放点积模型可以较好地解决这一问题。相较于加性模型点积模型具备哪些优点常用的Attention机制为加性模型和点积模型理论上加性模型和点积模型的复杂度差不多但是点积模型在实现上可以更好地利用矩阵乘积从而计算效率更高实际上随着维度d的增大加性模型会明显好于点积模型。Multi-headhttps://zhuanlan.zhihu.com/p/76912493多头机制为什么有效1.类似于CNN中通过多通道机制进行特征选择2.Transformer中先通过切头spilt再分别进行Scaled Dot-Product Attention可以使进行点积计算的维度d不大防止梯度消失同时缩小attention mask矩阵。FFNTransformer在抛弃了 LSTM 结构后FFN 中的 ReLU成为了一个主要的提供非线性变换的单元。激活函数https://zhuanlan.zhihu.com/p/73214810tanh相比Sigmoid函数 tanh的输出范围时(-1, 1)解决了Sigmoid函数的不是zero-centered输出问题幂运算的问题仍然存在tanh导数范围在(0, 1)之间相比sigmoid的(0, 0.25)梯度消失gradient vanishing问题会得到缓解但仍然还会存在。要点: Xavier初始化、公式、导数relu相比Sigmoid和tanhReLU摒弃了复杂的计算提高了运算速度。解决了梯度消失问题收敛速度快于Sigmoid和tanh函数缺点爆炸梯度(通过梯度裁剪来解决) 如果学习率过大会出现dead relu的不可逆情况 — 激活为0时不进行学习(通过加参数的ReLu解决) 激活值的均值和方差不是0和1。(通过从激活中减去约0.5来部分解决这个问题。在fastai的视频力有个更好的解释)Leaky relu增加了参数要点He初始化、公式、导数geluhttps://zhuanlan.zhihu.com/p/100175788https://blog.csdn.net/liruihongbob/article/details/86510622ReLu缺乏随机因素只用0和1https://www.cnblogs.com/shiyublog/p/11121839.htmlGeLu在激活中引入了随机正则的思想根据当前input大于其余inputs的概率进行随机正则化即为在mask时依赖输入的数据分布即x越小越有可能被mask掉因此服从bernoulli(Φ(x))高斯误差线性单元对于每一个输入 x其服从于标准正态分布 N(0, 1)它会乘上一个伯努利分布 Bernoulli(Φ(x))其中Φ(x) P(X ≤ x)。这么选择是因为神经元的输入趋向于正太分布这么设定使得当输入x减小的时候输入会有一个更高的概率被dropout掉。Gelu(x) xΦ(x) xP(X ≤ x)sigmoid激活函数计算量大在正向传播和反向传播中都包含幂运算和除法反向传播求误差梯度时求导涉及除法Sigmoid的输出不是0均值即zero-centered这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入随着网络的加深会改变数据的原始分布优点激活函数计算量大在正向传播和反向传播中都包含幂运算和除法反向传播求误差梯度时求导涉及除法Sigmoid的输出不是0均值即zero-centered这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入随着网络的加深会改变数据的原始分布softmaxsigmoid是softmax的特例https://blog.csdn.net/weixin_37136725/article/details/53884173损失函数分类0-1 losshinge losssigmoid losscross entropy求导https://zhuanlan.zhihu.com/p/60042105回归square loss对异常点敏感absolute loss对异常点鲁棒但是yf时不可导Huber loss优化算法求解析解凸函数迭代法一阶法梯度下降https://zhuanlan.zhihu.com/p/111932438SGD数据要shuffle 一开始重j去采用较大的学习速率 当误差曲线进入平台期后;成小学习速菜做更精细的调整。最优的学习速 率方案也通常需要调参才能得到。随机梯度下降法无法收敛 1.batch size太小震荡 2.峡谷和鞍点Adam指数加权1.不用像mean一样统计个数重新计算avg2.历史久远的权重会呈指数衰减动量惯性保持累加了之前步的速度1.增强了整体方向的速度加快收敛2.消减了错误方向的速度减少震荡AdaGrad环境感知根据不同参数的一些经验性判断自适应地确定参数的学习速率不同参数的重新步幅是不同的。1.更新频率低的参数可以有较大幅度的更新更新频率高的步幅可以减小。AdaGrad方法采用 “历史梯度平方和”来衡量不同参数的梯度的稀疏性 3 取值越小表明越稀疏参数中每个维度的更新速率都不一样2.随着时间的推移学习率越来越小保证了结果的最终收敛缺点即使Adam有自适应学习率也需要调整整体学习率warmupAdamW是Adam在权重上使用了L2正则化这样小的权重泛化性能更好。二阶法牛顿法在高维情况下 Hessian ~E 阵求逆的计算复杂度很大 3 而且当目标函数非口时二阶法有可能会收 敛到鞍点( Saddle Point ) 。鞍点一个不是局部最小值的驻点一阶导数为0的点称为鞍点。数学含义是目标函数在此点上的梯度一阶导数值为 0 但从改点出发的一个方向是函数的极大值点而在另一个方向是函数的极小值点。正则化修改数据增加数据label smoothing修改结构NormalisationBatchnorm为什么对NN层中归一化随着网络训练的进行 每个隐层的参数变化使得后一层的输入 发生变化 3 从而每-批训练数据的分布也随之改变 3 致使网络在每次迭 代中都需要拟合不罔的数据分布增大训练的复杂度以及过拟合的风险。为什么增加新的分布以Sigmoid函数为例批量归一化 之后数据整体处于函数的非饱和区域只包含线性变躁破坏了之前学 习到的特征分布 。在CNN的应用在全连接网络中是对每个神经元进行归一化也就是每个神经元都会学习一个γ和β。批量归一化在卷积神经网络中应用时需要注意卷积神经网络的参数共享机制 。每一个卷积核的参数在不同位置的楠经元当中是共享 的 因此也应该被一起归一化。在卷积中每层由多少个卷积核就学习几个γ和β预测在预测时无法计算均值和方差通常需要在训练时根据mini-batch和指数加权平均计算直接用于预测Layernorm对比BatchNorm1.对于RNN来说sequence的长度是不一致的换句话说RNN的深度不是固定的不同的time-step需要保存不同的statics特征可能存在一个特殊sequence比其他sequence长很多这样training时计算很麻烦。2.不依赖batch size在hidden size的维度进行layernorm跟batch和seq_len无关。beta和gamma的维度都是(hidden_size,)每个神经元有自己的均值和方差因为不同单元是不同的feature量纲不一样。normalisaion通常在非线性函数之前LN在BERT中主要起到白化的作用增强模型稳定性如果删除则无法收敛。修改结构Dropout本质上是模型集成。实现1.训练时不动预测时乘p 2.反向传播传播时除p预测不动。修改结构weight decay在更新w时减去一个常数跟L2求导之后的公式一致https://bbabenko.github.io/weight-decay/Weight decay和L2正则在SGD情况下等价Adam下不等https://zhuanlan.zhihu.com/p/40814046权重越大惩罚应该越大但adam的adagrad调整使得惩罚变小修改结构正则项L1稀疏解的好处1.特征选择减少计算 2.避免过拟合增强鲁棒性解空间的解释加上了菱形约束容易在尖角处碰撞出解贝叶斯角度解释加了laplace分布在0点的概率要更高L2解空间角度加了球形约束等高线切在圆上贝叶斯角度加了高斯分布在0点附近的概率更大且相近训练技巧early stoppingwarmup刚开始小一些防止对前几个batch的过拟合之后见过了不少数据可以慢慢升高。之后参数基本上稳定了就小学习率精细调整。公众号后台回复【思维导图】获取完整手册Xmind脑图源文件学习起来更方便(ง •_•)ง
http://www.sadfv.cn/news/281324/

相关文章:

  • 成都网站搜索排名优化哪家好清新区住房和城乡建设局网站
  • wordpress区块链四川二级站seo整站优化排名
  • 常州企业网站建设dz论坛模板
  • wordpress 做外贸站中国建设网官方网站建筑工程税率
  • 怎么建立自己的网站平台扬州市工程信息网
  • 天津网站建设noajtwordpress需要什么安装环境
  • 学生组织网站建设产品推广平台有哪些
  • 网站建设管理分工的说明湘潭网站seo
  • 个人网站建设模板wordpress 内存溢出
  • 网站运营现状confluence和wordpress
  • jsp开源网站ui设计培训哪家好
  • 做内贸哪个网站找客户下载网站建设
  • 如何让新网站被收录免费app大全下载
  • 网站备案流程解答赶集直招找工作
  • 彬县网站建设茌平网站开发
  • 黄金网站软件app大全视频营销型企业网站分析与诊断
  • 网站备案流程慢建设部网站注册查询
  • 个人网站建设案例教程广州番禺核酸检测点
  • 四川专门做招聘酒的网站十五种网络营销工具
  • 微商城网站建设行情网站开发团队工作总结
  • 什么网站做问卷好龙岩到永定
  • 大连网络推广网站优化找哪家好做足彩推荐赚钱的网站
  • 033340网站建设与管理蒙文网站建设
  • 网站开发 工期安排百度扫一扫识别图片在线
  • 美食网站开发计划重庆广告牌制作
  • 整站seo排名费用价格做泵阀到哪个网站好
  • 酒店网站建设系统介绍番禺建设银行网站
  • 宁河做网站公司怎么创造自己的网站
  • 如何查看一个网站的所有二级域名网站开发需要多少钱方案
  • 佛山移动网站设计个人优秀网页设计图片