商务网站建设与规划,株洲定制网站建设,如何建设淘宝网站,抖音小程序锚点解绑是什么意思过拟合和欠拟合什么是过拟合和欠拟合过拟合#xff1a;模型在训练集上效果好#xff0c;在测试集上效果差欠拟合#xff1a;在训练集上效果就不好产生过拟合的原因参数太多#xff0c;模型复杂度太高数据量少#xff0c;训练轮次过多样本中噪声较大#xff0c;模型拟合了…过拟合和欠拟合什么是过拟合和欠拟合过拟合模型在训练集上效果好在测试集上效果差欠拟合在训练集上效果就不好产生过拟合的原因参数太多模型复杂度太高数据量少训练轮次过多样本中噪声较大模型拟合了噪声特征过拟合解决方法降低模型复杂度使用小模型增加样本数量数据增强减少训练轮次使用正则项正则项正则化目的平衡训练误差与模型复杂度避免过拟合L2正则项L2正则就是在代价函数后面加上一个正则化项:表示原始代价函数 就是L2正则项是所有参数的平方和除以训练集样本数。迭代时代价函数对参数求导可以看出L2正则化对偏置是没有影响的只对参数有影响每一次迭代过程中参数都要先乘以 因为都是大于零的所以效果是减小参数 我们把这一项成为权重衰减项weight_decay每次进行参数更新时都要先乘这一项也就会导致L2正则项得到的权重更加的平滑。平滑也就意味着在一些困难样本处模型不会因为这些样本导致自己过分的扭曲从而避免过拟合。L1正则项L1正则就是在代价函数后面加上一个正则化项:求导得其中为符号函数则参数的更新规则为比不使用正则项的更新规则多减了 。当时更新后的参数比不使用正则项的更小当时更新后的参数比不使用正则项的更大效果就是比不使用正则项的更加靠近0。当参数中的0变多也就意味着模型更加的稀疏同时表明值为0的参数所对应的特征被过滤掉具有特征选择的作用。为什么L1正则具有稀疏性解空间角度等值线表示损失函数等值线越小的表示损失越小交点处是优化后的参数情况。可以看出正则项是对参数取值设置了约束条件使得损失值不能超过约束范围。L1正则有棱有角更容易在顶点处相交(原因可以参考上一节的L1更新规则)此时为0只保留了因此L1具有稀疏性和特征选择性。贝叶斯先验角度 参数模型表示为数据样本.则极大似然估计MLE可表示为 后验概率为 取对数后我们在优化过程中一般是求最小值因此对求最小值即可。将MLE表达式代入到后验概率中假设 满足拉普拉斯分布优化函数相当于假设 满足高斯分布优化函数相当于由图中可以看出如果满足拉普拉斯分布相比于高斯分布来说参数会有更大的概率取到0即具有稀疏性。