肥乡县建设局网站,vs网站开发 百度文库,凡科代理平台,中国制造网外贸平台多少钱书中第七章才是支持向量机SVM#xff0c;但在SVM与感知机有相似的地方#xff0c;看了感知机的知识之后趁热先看看SVM。
首先回顾一下感知机。感知机的模型是线性分类模型#xff0c;将两种类别标记为正负1#xff0c;将新的样本输入线性函数#xff0c;再将线性函数代入符…书中第七章才是支持向量机SVM但在SVM与感知机有相似的地方看了感知机的知识之后趁热先看看SVM。
首先回顾一下感知机。感知机的模型是线性分类模型将两种类别标记为正负1将新的样本输入线性函数再将线性函数代入符号函数就可以得到输出作为判定结果。这里最重要的还是线性函数的选取线性函数在特征空间中可能就是一个超平面只要这个超平面能将正负样本完全分隔开来就是符合要求的超平面这也就是感知机的策略。具体到损失函数选择的不是误分类点的个数而是误分类点到超平面的总距离这样才连续可求导方便后续优化。感知机的算法是在策略的基础上选择的优化算法。
支持向量机像感知机一样都是二分类模型。正如之前提到感知机是支持向量机的基础我们还是从机器学习的三要素出发看看支持向量机在感知机之下做出了什么样的改进。
模型
从模型看支持向量机有三种模型对应训练数据的线性可分情况从简单到复杂。当数据线性可分时通过硬间隔最大化学习一个线性可分支持向量机当数据近似线性可分时通过软间隔最大化学习一个线性支持向量机当数据线性不可分时同时使用核技巧(Kernel Function)和软间隔最大化学习一个非线性支持向量机。书中强调支持向量机的学习是在特征空间进行的将输入空间中的输入数据映射到特征空间非线性支持向量机是非线性映射所以两个空间的元素不是一一对应的其他两种支持向量机则是一一对应的。其实感知机的几何解释也是在特征空间中进行的超平面将特征空间划分为两个部分。
策略
与感知机相比支持向量机的要求更高不仅仅要求正确分类还要求正确性尽可能高正确性表现为样本点到超平面的距离间隔。具体策略与模型的选取有关又分为硬间隔最大化和软间隔最大化。
线性可分支持向量机
既然都线性可分了那么很明显找到能将两类数据分隔开的直线就行了。但是在这里提出了更高的要求。很容易理解离超平面距离越远的点被正确分类的距离越高因为和分界线的安全距离更大。这个安全距离有一个更专业的词汇叫做函数间隔。结合感知机中误分类点到超平面的距离参考链接1样本点与在超平面的投影点构成的直线与法向量的内积y(wxb)就是样本点的函数间隔。对训练集而言训练集的函数间隔是所有样本点的函数间隔的最小值。将函数间隔归一化就是几何间隔。线性可分支持向量机的策略就是基于几何间隔的使几何间隔最大化就是确保分隔的可信度最高。
在数学上这是一个约束最优化问题使训练集的几何间隔最大同时保证训练集中每一个样本的几何间隔都大于训练集的几何间隔。经过等价转化转化为一个凸二次规划问题目标函数和约束函数都是连续可微的凸函数对应书中的算法7.1.算法中取几何间隔等于1这样在超平面两侧各有一个新的超平面wxb1和wxb-1落在这两个超平面上的的样本点决定了分离超平面被叫做支持向量。应用拉格朗日的对偶性还有一个对偶算法7.2.先构造并求解另一个约束最优化问题然后再求解w和b。
线性向量机
在这种情况下除去少部分特异点outlier其他大部分样本点是线性可分的。但我们又无法知道到底哪些是outlier所以只能降低约束条件具体做法是引入一个松弛变量但同时也对目标函数进行修改引入一个代价保证在间隔尽量大的同时误分类点尽量少。由此可以得到线性向量机的学习算法。书中重点介绍的是对偶学习算法看来对偶算法还很重要。在线性支持向量机中支持向量不再只分布在约束条件边界上而是还分布在间隔边界和分离超平面之间。书中还提到了对于近似线性可分数据的另一种解决思路即利用合页损失函数思想是在同时满足分类正确和间隔大于约束条件时损失才是0否则损失是1-y(wxb)。可以证明两种优化方法是等价的。
非线性支持向量机
不是所有的数据都是线性可分的有的数据线性不可分却可以利用非线性模型如椭圆分离开来这时我们就希望将非线性问题变换为线性问题。将椭圆的平方项用变量代换就可以转化为高维空间的线性可分问题从而套用线性可分支持向量机的知识。所以非线性支持向量机的重点主要在非线性映射的问题。其实感知机和支持向量机都是在特征空间上进行分类的特征空间可以是欧式空间或者希尔伯特空间。非线性支持向量机中的特征空间特指希尔伯特空间。具体的映射关系可以通过核函数的定义表示核函数就是输入空间的的分类曲线。这里核函数K转化为映射结果的内积的形式。在这之后我们不再关注于映射关系而是其内积因为在对偶问题中目标函数和决策函数都涉及了当前输入和输入的训练实例的内积而他们又可以转化为特征空间中的内积所以只要把核函数转化为内积形式就不必明确指出映射关系和特征空间就可以求解即学习是隐式的在特征空间进行的这就是核技巧。
但其实不是所有的欧式几何下的分类曲线都可以转化为内积的形式即不是所有函数K都是核函数。书中证明了Mercer定理7.7K为核函数正定核函数的充要条件是K对应的Gram矩阵是半正定矩阵。但检验一个具体函数K是否是正定核函数依然不容易在实际问题中往往应用已有的核函数如多项式核函数、高斯核函数、字符串核函数、径向基核RBF、样条核、Sigmoid核。在选取核函数解决实际问题时通常采用的方法有一是利用专家的先验知识预先选定核函数二是采用Cross-Validation方法即在进行核函数选取时分别试用不同的核函数归纳误差最小的核函数就是最好的核函数如针对傅立叶核、RBF核结合信号处理问题中的函数回归问题通过仿真实验对比分析了在相同数据条件下采用傅立叶核的SVM要比采用RBF核
的SVM误差小很多三是采用由Smits等人提出的混合核函数方法该方法较之前两者是目前选取核函数的主流方法也是关于如何构造核函数的又一开创性的工作将不同的核函数结合起来后会有更好的特性这是混合核函数方法的基本思想
SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面应该属于结构风险最小化严格来说也是错误的。 D. SVM可以通过正则化系数控制模型的复杂度避免过拟合。关于支持向量机SVM,下列说法错误的是正确答案:C 你的答案:D(错误)
L2正则项作用是最大化分类间隔使得分类器拥有更强的泛化能力Hinge 损失函数作用是最小化经验分类错误分类间隔为1/||w||||w||代表向量的模当参数C越小时分类间隔越大分类错误越多趋于欠学习Reference:
1. 距离https://blog.csdn.net/amyaguang/article/details/46043885
2.牛客网https://www.nowcoder.com/test/question/done?tid16646359qid56467#summary
3.https://www.nowcoder.com/test/question/done?tid16669005qid7173#summary