做网站接口多少钱,域名注册的流程,wordpress客户端登陆,wordpress删除底部1、知道提升、梯度提升是什么意思1.1、提升1.2、梯度提升1.3、了解提升算法的过程 2、残差与残差平方和#xff08;residual sum of squares#xff09;3、了解GBDT算法4、了解XGBoost算法5、了解Adaboost算法5.1、Adaboost算法的原理5.2、例子 6、偏差和方差 1、知道提升、梯…1、知道提升、梯度提升是什么意思1.1、提升1.2、梯度提升1.3、了解提升算法的过程 2、残差与残差平方和residual sum of squares3、了解GBDT算法4、了解XGBoost算法5、了解Adaboost算法5.1、Adaboost算法的原理5.2、例子 6、偏差和方差 1、知道提升、梯度提升是什么意思
1.1、提升
每一步产生一个弱预测模型并加权累加到总模型中。
1.2、梯度提升
如果每一步的预测模型生成都是依据损失函数的梯度方向则称之为梯度提升。
1.3、了解提升算法的过程
处理的过程拿原始数据x,y生成一棵树得到一个相应的函数Txi得到对应的根据点预测值。之后计算原始数据和预测值的残差残差尽可能接近于0作为损失函数残差是观测值与预测值之间的差如果不等于0则将残差作为xi的“y”再生成一棵树再得到对应的预测值Yi再次计算”y”和预测值Y^的残差值也就是预测值和残差值的残差值看损失函数的值是否为0若不为0则重复以上步骤…直到损失函数为0.提升算法的损失函数是预测值和真实值的残差
2、残差与残差平方和residual sum of squares
残差是指观测值与预测值拟合值之间的差即是实际观察值与回归估计值的差把每个残差的平方后加起来 称为残差平方和它表示随机误差的效应。 每一点的y值的估计值和实际值的差的平方之和称为残差平方和,而y的实际值和平均值的差的平方之和称为总平方和。 误差:即观测值与真实值的偏离; 残差:观测值与拟合值的偏离. 误差与残差这两个概念在某程度上具有很大的相似性都是衡量不确定性的指标可是两者又存在区别。 误差与测量有关误差大小可以衡量测量的准确性误差越大则表示测量越不准确。 误差分为两类系统误差与随机误差。其中系统误差与测量方案有关通过改进测量方案可以避免系统误差。随机误差与观测者测量工具被观测物体的性质有关只能尽量减小却不能避免。 残差――与预测有关残差大小可以衡量预测的准确性。残差越大表示预测越不准确。残差与数据本身的分布特性回归方程的选择有关。 误差大,由异常值引起.表明数据可能有严重的测量错误;或者所选模型不合适,; 残差大,表明样本不具代表性,也有可能由特征值引起. 总之要看一个模型是否合适,看误差;要看所取样本是否合适,看残差;
3、了解GBDT算法
了解GBDT计算决策树的公式Tm(x也就代表决策树函数即输入x得到预测值其中Bjm代表的是样本X在区域Rjm的预测值Rjm决策树的几个叶子节点I代表的是x是否该区域是的话为1不是的话为0
4、了解XGBoost算法
XGBoost算法只是将目标函数改为了二阶导信息 XGBoost生成树的过程枚举可行的分割点下图五个数据有4种分割然后依次计算对应的Gain()根节点的损失减去两个叶节点的损失得到一个增益值选取增益最大的划分。 依次进行得到整棵树。由此也能得到对应的权值w参考w的计算公式。
5、了解Adaboost算法
5.1、Adaboost算法的原理
通过初始化权值得到对应的误差率进而得到加权系数之后利用公式不断的迭代初始权值直到目标函数达到最优。 权值是需要初始化即D em误差率可以计算出来就相当于判断预测值和实际值是否相等知道em后就能计算出对应的Gm(x)对应的系数αm了。
由下图中的公式计算Wm1的值(α、样本的实际值和预测值以及对应样本的权值都为已知条件)去更新数据集D1中对应的权值得到D2之后再计算D2对应的误差率e2和对应的系数α2…依次类推直到最后。exp高等数学里以自然常数e为底的指数函数 由算到的m个α系数和对应的预测值相乘相加得到最终的总分类器 fx基本分类器的线性组合。 αm的值是0的1-emem即误差率小于0.5 迭代过程中预测结果对权值的影响即实际操作中当预测结果正确时第二次迭代时对应的权值会减小反之则会增加。 Wmi公式中的值都能得到。
5.2、例子 选取一个阈值使基本分类器G1x的误差率最小。
6、偏差和方差
知道偏差和方差把偏差认为是单个模型的拟合能力而方差则描述的是同一个学习算法在不同数据集的不稳定性 偏差与方差 偏差描述的是算法的预测的平均值和真实值的关系可以想象成算法的拟合能力如何而方差描述的是同一个算法在不同数据集上的预测值和所有数据集上的平均预测值之间的关系可以想象成算法的稳定性如何。