北京公司网站制作哪家专业,安徽省建设行业个人信息,手机版网站模板 免费下载,办网站需流程假设我们有一个固定样本集 #xff0c;它包含 个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲#xff0c;对于单个样例 #xff0c;其代价函数为#xff1a; 这是一个#xff08;二分之一的#xff09;方差代价函数。给定一个包含 个样例的数据集#xff… 假设我们有一个固定样本集 它包含 个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲对于单个样例 其代价函数为 这是一个二分之一的方差代价函数。给定一个包含 个样例的数据集我们可以定义整体代价函数为 以上公式中的第一项 是一个均方差项。第二项是一个规则化项也叫权重衰减项其目的是减小权重的幅度防止过度拟合。 [注通常权重衰减的计算并不使用偏置项 比如我们在 的定义中就没有使用。一般来说将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。如果你在斯坦福选修过CS229机器学习课程或者在YouTube上看过课程视频你会发现这个权重衰减实际上是课上提到的贝叶斯规则化方法的变种。在贝叶斯规则化方法中我们将高斯先验概率引入到参数中计算MAP极大后验估计而不是极大似然估计。] 权重衰减参数 用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义 是针对单个样例计算得到的方差代价函数 是整体样本代价函数它包含权重衰减项。 以上的代价函数经常被用于分类和回归问题。在分类问题中我们用 或 来代表两种类型的标签回想一下这是因为 sigmoid激活函数的值域为 如果我们使用双曲正切型激活函数那么应该选用 和 作为标签。对于回归问题我们首先要变换输出值域译者注也就是 以保证其范围为 同样地如果我们使用双曲正切型激活函数要使输出值域为 。 我们的目标是针对参数 和 来求其函数 的最小值。为了求解神经网络我们需要将每一个参数 和 初始化为一个很小的、接近零的随机值比如说使用正态分布 生成的随机值其中 设置为 之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 是一个非凸函数梯度下降法很可能会收敛到局部最优解但是在实际应用中梯度下降法通常能得到令人满意的结果。最后需要再次强调的是要将参数进行随机初始化而不是全部置为 。如果所有参数都用相同的值作为初始值那么所有隐藏层单元最终会得到与输入值有关的、相同的函数也就是说对于所有 都会取相同的值那么对于任何输入 都会有 。随机初始化的目的是使对称失效。 梯度下降法中每一次迭代都按照如下公式对参数 和 进行更新 其中 是学习速率。其中关键步骤是计算偏导数。我们现在来讲一下反向传播算法它是计算偏导数的一种有效方法。 我们首先来讲一下如何使用反向传播算法来计算 和 这两项是单个样例 的代价函数 的偏导数。一旦我们求出该偏导数就可以推导出整体代价函数 的偏导数 以上两行公式稍有不同第一行比第二行多出一项是因为权重衰减是作用于 而不是 。 反向传播算法的思路如下给定一个样例 我们首先进行“前向传导”运算计算出网络中所有的激活值包括 的输出值。之后针对第 层的每一个节点 我们计算出其“残差” 该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点我们可以直接算出网络产生的激活值与实际值之间的差距我们将这个差距定义为 第 层表示输出层。对于隐藏单元我们如何处理呢我们将基于节点译者注第 层节点残差的加权平均值计算 这些节点以 作为输入。下面将给出反向传导算法的细节 进行前馈传导计算利用前向传导公式得到 直到输出层 的激活值。对于第 层输出层的每个输出单元 我们根据以下公式计算残差 [译者注 ]对 的各个层第 层的第 个节点的残差计算方法如下 {译者注 将上式中的与的关系替换为与的关系就可以得到 以上逐次从后向前求导的过程即为“反向传导”的本意所在。 ]计算我们需要的偏导数计算方法如下 最后我们用矩阵-向量表示法重写以上算法。我们使用“” 表示向量乘积运算符在Matlab或Octave里用“.*”表示也称作阿达马乘积。若 则 。在上一个教程中我们扩展了 的定义使其包含向量运算这里我们也对偏导数 也做了同样的处理于是又有 。 那么反向传播算法可表示为以下几个步骤
进行前馈传导计算利用前向传导公式得到 直到输出层 的激活值。对输出层第 层计算 对于 的各层计算 计算最终需要的偏导数值 实现中应注意在以上的第2步和第3步中我们需要为每一个 值计算其 。假设 是sigmoid函数并且我们已经在前向传导运算中得到了 。那么使用我们早先推导出的 表达式就可以计算得到 。 最后我们将对梯度下降算法做个全面总结。在下面的伪代码中 是一个与矩阵 维度相同的矩阵 是一个与 维度相同的向量。注意这里“”是一个矩阵而不是“ 与 相乘”。下面我们实现批量梯度下降法中的一次迭代 对于所有 令 , 设置为全零矩阵或全零向量对于 到 使用反向传播算法计算 和 。计算 。计算 。 更新权重参数 现在我们可以重复梯度下降法的迭代步骤来减小代价函数 的值进而求解我们的神经网络。 中英文对照 反向传播算法 Backpropagation Algorithm批量梯度下降法 (batch) gradient descent整体代价函数 (overall) cost function方差 squared-error均方差 average sum-of-squares error规则化项 regularization term权重衰减 weight decay偏置项 bias terms贝叶斯规则化方法 Bayesian regularization method高斯先验概率 Gaussian prior极大后验估计 MAP极大似然估计 maximum likelihood estimation激活函数 activation function双曲正切函数 tanh function非凸函数 non-convex function隐藏层单元 hidden (layer) units对称失效 symmetry breaking学习速率 learning rate前向传导 forward pass假设值 hypothesis残差 error term加权平均值 weighted average前馈传导 feedforward pass阿达马乘积 Hadamard product前向传播 forward propagation