当前位置: 首页 > news >正文

着陆页制作网站昆明网站开发推广

着陆页制作网站,昆明网站开发推广,科技服务公司网站模版,电脑 手机 微信网站开发来源#xff1a; 机器之心作者#xff1a;JONAS DEGRAVE、IRA KORSHUNOVA编辑#xff1a;小舟选自#xff1a;engraved.blog损失线性组合是正确的选择吗#xff1f;这篇文章或许能够给你答案。在机器学习中#xff0c;损失的线性组合无处不在。虽然它们带有一些陷阱… 来源 机器之心作者JONAS DEGRAVE、IRA KORSHUNOVA编辑小舟选自engraved.blog损失线性组合是正确的选择吗这篇文章或许能够给你答案。在机器学习中损失的线性组合无处不在。虽然它们带有一些陷阱但仍然被广泛用作标准方法。这些线性组合常常让算法难以调整。在本文中作者提出了以下论点机器学习中的许多问题应该被视为多目标问题但目前并非如此「1」中的问题导致这些机器学习算法的超参数难以调整检测这些问题何时发生几乎是不可能的因此很难解决这些问题。有一些方法可以轻微缓解这些问题并且不需要代码。梯度下降被视为解决所有问题的一种方法。如果一种算法不能解决你的问题那么就需要花费更多的时间调整超参数来解决问题。损失的线性组合无处不在尽管存在单目标的问题但通常都会对这些目标进行额外的正则化。本文作者从整个机器学习领域选择了这样的优化目标。首先来说正则化函数、权重衰减和 Lasso 算法。显然当你添加了这些正则化你已经为你的问题创建了多目标损失。毕竟我们关心的是原始损失 L_0 和正则化损失都保持很低。你将会使用λ参数在这二者之间调整平衡。因此损失如 VAE 的实际上是多目标的第一个目标是最大程度地覆盖数据第二个目标是保持与先前的分布接近。在这种情况下偶尔会使用 KL 退火来引入一个可调参数β以帮助处理这种损失的多目标性。同样在强化学习中你也可以发现这种多目标性。在许多环境中简单地将为达成部分目的而获得的奖励加起来很普遍。策略损失也通常是损失的线性组合。以下是 PPO、SAC 和 MPO 的策略损失及其可调整参数α的熵正则化方法。最后GAN 损失当然是判别器损失和生成器损失的和所有这些损失都有一些共性研究者们正在尝试同时针对多个目标进行高效优化并且认为最佳情况是在平衡这些通常相互矛盾的力量时找到的。在某些情况下求和方式更加具体并且引入了超参数以判断各部分的权重。在某些情况下组合损失的方式有明确的理论基础并且不需要使用超参数来调整各部分之间的平衡。一些组合损失的方法听起来很有吸引力但实际上是不稳定且危险的。平衡行为通常更像是在「走钢丝」。样例分析考虑一个简单的情况我们尝试对损失的线性组合进行优化。我们采用优化总损失损失的总和的方法使用梯度下降来对此进行优化观察到以下行为Jax 中的代码如下def loss(θ): return loss_1(θ) loss_2(θ)loss_derivative grad(loss)for gradient_step in range(200): gradient loss_derivative(θ) θ θ - 0.02 * gradient 通常情况下我们对两个损失之间的权衡并不满意因此在第二个损失上引入了比例系数α并运行了以下代码def loss(θ, α): return loss_1(θ) α*loss_2(θ)loss_derivative grad(loss)for gradient_step in range(200): gradient loss_derivative(θ, α0.5) θ θ - 0.02 * gradient br 我们希望看到当调整 α 时可以选择两个损失之间的折衷并选择最适合自身应用的点。我们将有效地进行一个超参数调整回路手动选择一个α来运行优化过程决定降低第二个损失并相应地调整α并重复整个优化过程。经过几次迭代我们满足于找到的解并继续写论文。但是事实并非总是如此。有时问题的实际行为如下动图所示看起来无论怎样调整参数α都不能很好地权衡两种损失。我们看到了两类解决方案它们都分别忽略了一种损失。但是这两种解决方案都不适用于大多数应用。在大多数情况下两种损失更加平衡的点是可取的解决方案。实际上这种关于训练过程中两种损失的图表几乎从未绘制过因此该图中所示的动态情况常常无法观察到。我们只观察绘制总体损失的训练曲线并且得出超参数需要更多时间调整的结论。也许我们可以采取一种早停法early stopping以使得论文中的数据是有效的。毕竟审稿人喜欢高效的数据。问题出在哪里呢为什么这种方法有时有效有时却无法提供可调参数为此我们需要更深入地研究一下以下两个动图之间的差异。它们都是针对相同的问题使用相同的损失函数生成的并且正在使用相同的优化方法来优化这些损失。因此这些都不是造成差异的原因。在这些问题之间发生变化的是模型。换句话说模型参数θ对模型输出的影响是不同的。因此让我们可视化一下通常不可见的东西这是两个优化的帕累托前沿。这是模型可以实现且是不受其他任何解决方案支配的解决方案的集合。换句话说这是一组可实现的损失没有一个点可以使所有损失都变得更好。无论你如何选择在两个损失之间进行权衡首选的解决方案始终依赖帕累托前沿。通常通过调整损失的超参数你通常希望仅在同一个前沿找到一个不同的点。两个帕累托前沿之间的差异会使得第一种情况的调优效果很好但是在更改模型后却严重失败了。事实证明当帕累托前沿为凸形时我们可以通过调整α参数来实现所有可能的权衡效果。但是当帕累托前沿为凹形时该方法似乎不再有效。为什么凹帕累托前沿面的梯度下降优化会失败通过查看第三个维度中的总体损失可以发现实际上是用梯度下降优化了损失。在下图中我们可视化了相对于每个损失的总损失平面。实际上是使用参数的梯度下降到该平面上采取的每个梯度下降步骤也必将在该平面上向下移动。你可以想象成梯度下降优化过程是在该平面上放置一个球形小卵石使其在重力作用下向下移动直到它停下来。优化过程停止的点是优化过程的结果此处用星星表示。如下图所示无论你如何上下摆动该平面最终都将得到最佳结果。通过调整α此空间将保持一个平面。毕竟更改α只会更改该平面的倾斜度。在凸的情况下可以通过调整α来实现帕累托曲线上的任何解。α大一点会将星星拉到左侧α小一点会将星星拉到右侧。优化过程的每个起点都将在相同的解上收敛这对于α的所有值都是正确的。但是如果我们看一下具有凹帕累托前沿面的不同模型问题那么问题出现在哪里就变得显而易见了。如果我们想象卵石遵循该平面上的梯度有时向左滚动更多有时向右滚动更多但始终向下滚动。然后很明显它最终将到达两个角点之一即红色星或蓝色星。当我们调整α时该平面以与凸情况下完全相同的方式倾斜但由于帕累托前沿面的形状将永远只能到达该前沿面上的两个点即凹曲线末端的两个点。使用基于梯度下降方法无法找到曲线上的 × 点实际上想要达到的点。为什么因为这是一个鞍点saddle point。同样要注意的是当我们调整α时会发生什么。我们可以观察到相对于其他解一个解需要调整多少个起点但我们无法调整以找到帕累托前沿面上的其他解。这些线性组合会导致哪些问题我们列举了使用这种线性损失组合方法的问题第一即使没有引入超参数来权衡损失说梯度下降试图在反作用力之间保持平衡也是不正确的。根据模型可实现的解可以完全忽略其中一种损失而将注意力放在另一种损失上反之亦然这取决于初始化模型的位置第二即使引入了超参数也将在尝试后的基础上调整此超参数。研究中往往是运行一个完整的优化过程然后确定是否满意再对超参数进行微调。重复此优化循环直到对性能满意为止。这是一种费时费力的方法通常涉及多次运行梯度下降的迭代第三超参数不能针对所有的最优情况进行调整。无论进行多少调整和微调你都不会找到可能感兴趣的中间方案。这不是因为它们不存在它们一定存在只是因为选择了一种糟糕的组合损失方法第四必须强调的是对于实际应用帕累托前沿面是否为凸面以及因此这些损失权重是否可调始终是未知的。它们是否是好的超参数取决于模型的参数化方式及其影响帕累托曲线的方式。但是对于任何实际应用都无法可视化或分析帕累托曲线。可视化比原始的优化问题要困难得多。因此出现问题并不会引起注意最后如果你真的想使用这些线性权重来进行权衡则需要明确证明整个帕累托曲线对于正在使用的特定模型是凸的。因此使用相对于模型输出而言凸的损失不足以避免问题。如果参数化空间很大如果优化涉及神经网络内部的权重则情况总是如此你可能会忘记尝试这种证明。需要强调的是基于某些中间潜势intermediate latent显示这些损失的帕累托曲线的凸度不足以表明你具有可调参数。凸度实际上需要取决于参数空间以及可实现解决方案的帕累托前沿面。请注意在大多数应用中帕累托前沿面既不是凸的也不是凹的而是二者的混合体这扩大了问题。以一个帕累托前沿面为例凸块之间有凹块。每个凹块不仅可以确保无法通过梯度下降找到解还可以将参数初始化的空间分成两部分一部分可以在一侧的凸块上找到解而另一部分智能在另一侧上找到解。如下动图所示在帕累托前沿面上有多个凹块会使问题更加复杂。因此我们不仅具有无法找到所有解的超参数α而且根据初始化它可能会找到帕累托曲线的不同凸部分。此参数和初始化以令人困惑的方式相互混合这让问题更加困难。如果稍微调整参数以希望稍微移动最优值则即使保持相同的初始化也可能会突然跳到帕累托前沿面的其他凸部分。原文链接https://engraved.ghost.io/why-machine-learning-algorithms-are-hard-to-tune/未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。  如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
http://www.sadfv.cn/news/128537/

相关文章:

  • 网站死链怎么办中国建筑校园招聘
  • 南宁市优化网站公司外链提高网站权重
  • 新乡手机网站建设电话软件搭建公司
  • 建wap网站八爪鱼采集新闻到wordpress
  • 郑州一网网站建设工业和信息化部证书含金量
  • 有哪些电商网站网店美工招聘
  • 3d网站建设音乐网站建设价格6
  • 商务网站建设的一般流程山东省建设公司网站
  • 怎么做关于花的网站化妆所有步骤
  • 南通网站推广排名wordpress调起淘宝app
  • 什么软件能创建网站专业建设 验收 网站
  • 做网站竞价还需要推广公司简历模板免费可编辑
  • 网站前端开发流程就业前景好的专业排名
  • 网站调用数据库崇州 网站建设 有限公司
  • 知名商城网站建设价格网站建设与安全管理
  • 临沂企业网站开发官网网站申请备案流程
  • 福建网站建设有限公司上海seo怎么优化
  • seo站长工具 论坛苏州网页制作人才招聘
  • 个人网站免费制作平台网站建设代码怎么导入图片
  • node怎么做网站广东网站设计工具
  • 建个网站费用多少网站建设与管理相关工作岗位
  • 中国免费建站网手机企业网站管理系统
  • 建设网站需要哪些流程免费注册跨境电商
  • 用vs2010做网站网站建设的售后服务流程
  • iis 网站访问权限腾讯邮箱官网
  • 建设工程消防设计备案哪个网站《新闻联播》 今天
  • 优秀国内个人网站企业信息管理平台
  • 金山区网站建设建网站html5
  • 直接找高校研究生做网站行吗网店美工设计的四大要点
  • xyz域名注册局官方网站荣耀手机官网入口