晋江网站建设企业,临汾网络推广,wordpress菜单显示用户信息,物流网站建设案例文章目录一、分类模型综述二、逻辑回归三、两点分布#xff08;伯努利分布#xff09;四、连接函数的取法五、Logistic回归模型六、在SPSS中进行二元Logistic回归七、预测结果较差的解决八、Fisher线性判别分析九、多分类问题十、总结一、分类模型综述
通过样本数据中的分类…
文章目录一、分类模型综述二、逻辑回归三、两点分布伯努利分布四、连接函数的取法五、Logistic回归模型六、在SPSS中进行二元Logistic回归七、预测结果较差的解决八、Fisher线性判别分析九、多分类问题十、总结一、分类模型综述
通过样本数据中的分类依据以及具体的分类类别预测后续给出的对象属于哪一类这就是分类模型。
本文将采用逻辑回归和Fisher线性判别分析这两种分类算法来进行对象分类。
二、逻辑回归
类型模型Y的特点例子线性回归OLS、GLS最小二乘连续数值变量GDP、收入等0 - 1回归logistic回归二值变量0 - 1是否喜欢、是否到达等定序回归prohibit定序回归定序变量等级评定喜爱程度等计数回归泊松回归泊松分布计数变量每分钟车流量次数等生存回归Cox等比例风险回归生存变量企业、产品的寿命等
逻辑回归的因变量即为二值变量类型可以将 yyy 看作属于某一类的概率—— y⩾0.05y \geqslant 0.05y⩾0.05则属于这一类反之y⩽0.05y \leqslant 0.05y⩽0.05则不属于这一类。
三、两点分布伯努利分布
事件10概率ppp1−p1 - p1−p
在给定 x\mathbf{x}x 的情况下考虑 yyy 的两点分布概率
{P(y1∣x)F(x,β)P(y0∣x)1−F(x,β)\left\{ \begin{aligned} P(y 1|\mathbf{x}) F(\mathbf{x}, \mathbf{\beta}) \\ P(y 0|\mathbf{x}) 1 - F(\mathbf{x}, \mathbf{\beta}) \end{aligned} \right.{P(y1∣x)F(x,β)P(y0∣x)1−F(x,β) 注一般 F(x,β)F(xi′β)F(\mathbf{x}, \mathbf{\beta}) F(\mathbf{x_i\beta})F(x,β)F(xi′β)
F(x,β)F(\mathbf{x}, \beta)F(x,β) 称为连接函数它将解释变量 xxx 和被解释变量 yyy 连接起来。 我们只需要保证 F(x,β)F(\mathbf{x}, \beta)F(x,β) 是值域在 [0,1][0, 1][0,1] 上的函数就能保证 0⩽y^⩽10 \leqslant \hat{y} \leqslant 10⩽y^⩽1。
根据两点分布求概率的公式E(y∣x)1×P(y1∣x)0×P(y0∣x)P(y1∣x)E(y|\mathbf{x}) 1 \times P(y 1|\mathbf{x}) 0 \times P(y 0|\mathbf{x}) P(y 1|\mathbf{x})E(y∣x)1×P(y1∣x)0×P(y0∣x)P(y1∣x)因此可以将 y^\hat{y}y^ 理解为 y1y 1y1 发生的概率。
四、连接函数的取法
F(x,β)F(\mathbf{x}, \beta)F(x,β) 可以取为标准正态分布的累积密度函数(cdfcdfcdf)F(x,β)Φ(xi′β)∫−∞xi′β12πe−t22dtF(\mathbf{x}, \beta) \Phi(\mathbf{x_i}\beta) \int^{\mathbf{x_i}\beta}_{-\infty}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dtF(x,β)Φ(xi′β)∫−∞xi′β2π1e−2t2dt(probit回归)F(x,β)F(\mathbf{x}, \beta)F(x,β) 可以取为 SigmoidSigmoidSigmoid 函数F(x,β)S(xi′β)exp(xi′β)1exp(xi′β)F(\mathbf{x}, \beta) S(\mathbf{x_i}\beta) \frac{exp(\mathbf{x_i}\beta)}{1 exp(\mathbf{x_i}\beta)}F(x,β)S(xi′β)1exp(xi′β)exp(xi′β)(logistic回归) 可以看出前者计算积分会比较困难因此我们可以选择使用更为方便的logistic模型。
五、Logistic回归模型
在给定 x\mathbf{x}x 的情况下考虑 yyy 的两点分布概率{P(y1∣x)F(x,β)P(y0∣x)1−F(x,β)\left\{ \begin{aligned} P(y 1|\mathbf{x}) F(\mathbf{x}, \beta) \\ P(y 0|\mathbf{x}) 1 - F(\mathbf{x}, \beta) \end{aligned} \right.{P(y1∣x)F(x,β)P(y0∣x)1−F(x,β)因为 E(y∣x)1×P(y1∣x)0×P(y0∣x)P(y1∣x)E(y|\mathbf{x}) 1 \times P(y 1|\mathbf{x}) 0 \times P(y 0|\mathbf{x}) P(y 1|\mathbf{x})E(y∣x)1×P(y1∣x)0×P(y0∣x)P(y1∣x)因此可以将 y^\hat{y}y^ 理解为 y1y 1y1 发生的概率。 yi^P(yi1∣x)S(xi′β)exp(xi′β)1exp(xi′β)eβ0^β1^x1iβ2^x2i⋯βk^xki1eβ0^β1^x1iβ2^x2i⋯βk^xki\hat{y_i} P(y_i 1|\mathbf{x}) S(\mathbf{x_i}\beta) \frac{exp(\mathbf{x_i}\beta)}{1 exp(\mathbf{x_i}\beta)} \\ \frac{e^{\hat{\beta_0} \hat{\beta_1}x_{1i} \hat{\beta_2}x_{2i} \cdots \hat{\beta_k}x_{ki}}}{1 e^{\hat{\beta_0} \hat{\beta_1}x_{1i} \hat{\beta_2}x_{2i} \cdots \hat{\beta_k}x_{ki}}}yi^P(yi1∣x)S(xi′β)1exp(xi′β)exp(xi′β)1eβ0^β1^x1iβ2^x2i⋯βk^xkieβ0^β1^x1iβ2^x2i⋯βk^xki 如果 yi^⩾0.5\hat{y_i} \geqslant 0.5yi^⩾0.5则认为其预测的 y1y 1y1否则则认为其预测的 y0y 0y0
六、在SPSS中进行二元Logistic回归
回归结果 回归结果表示19个苹果样本预测为苹果的有14个正确率为73.7%同理预测为橙子的结果有15个预测的正确率为78.9%。 通过这样的回归我们便可以知道 β0,β1,⋯,βk\beta_0, \beta_1, \cdots, \beta_kβ0,β1,⋯,βk 的值表格第三列。
将后续数据带入方程后若 yi^⩾0.5\hat{y_i} \geqslant 0.5yi^⩾0.5则说明其预测的结果是苹果否则则为橙子。
同时我们还可以在表格中看到这两列 这里可以查看具体预测的值和具体的预测结果。
七、预测结果较差的解决
若对预测结果不满意可以在logistic回归模型中加入平方项、交互项等
如果加入了平方项那么预测的结果 完全符合这种现象叫做过拟合现象。其对于样本数据预测得非常好但是对于样本外的数据得预测效果可能会差很多。
那么我们该如何确定合适得预测模型呢 可以将数据分为训练组和测试组一般是八二开让训练组取估计模型然后用测试组得数据来进行测试。可以多进行几次求得每个模型的平均准确率取准确率最高的那个模型。交叉验证
八、Fisher线性判别分析
主要思想 给定训练集样例设法将样例投影到一维的直线上使得同类样例的投影点尽可能接近和密集异类投影点尽可能远离。在SPSS中进行Fisher线性判别分析 结果为 这个表格表示线性系数。 还可以从表格后面多出的列中得到具体的预测结果。
九、多分类问题
多分类问题 在二分类的问题上类别不再是只有两个类别现在有多个类别。使用Logistic回归解决多分类问题 在SPSS中进行logistic回归分析可以得出结果 可以得出预测分类结果。使用Fisher判别分析解决多分类问题 同样可以使用Fisher判别分析来求解多分类问题。在定义范围的时候将范围扩大即可。 从结果表格中同样可以得出预测分类结果。
十、总结
解决分类模型主要步骤可以总结为一下几点
确定类别以及分类数据Logistic回归 or Fisher判别分析若是Logistic回归预测结果怎么样是否需要训练出合适的模型根据模型在SPSS中调用对应的命令得出结果对结果进行解释。