当前位置：首页 > news >正文

网站排名优化培训电话seo入门到精通

news 2026/1/14 5:47:12

网站排名优化培训电话,seo入门到精通,网站建设典型材料,网站模板安装支持向量机通俗导论#xff08;理解SVM的三层境界#xff09; 作者#xff1a; July #xff1b; 致谢#xff1a; pluskid、白石、J erryLead。出处#xff1a;结构之法算法之道 blog 。前言动笔写这个支持向量机(support vector machine)是费了不少劲和困难的#… 支持向量机通俗导论理解SVM的三层境界作者 July 致谢 pluskid、白石、J erryLead。出处结构之法算法之道 blog 。前言动笔写这个支持向量机(support vector machine)是费了不少劲和困难的原因很简单一者这个东西本身就并不好懂要深入学习和研究下去需花费不少时间和精力二者这个东西也不好讲清楚尽管网上已经有朋友写得不错了(见文末参考链接)但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明我还是想尝试写一下希望本文在兼顾通俗易懂的基础上真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章。本文在写的过程中参考了不少资料包括《支持向量机导论》、《统计学习方法》及网友pluskid的支持向量机系列等等于此还是一篇学习笔记只是加入了自己的理解和总结有任何不妥之处还望海涵。全文宏观上整体认识支持向量机的概念和用处微观上深究部分定理的来龙去脉证明及原理细节力保逻辑清晰通俗易懂。同时阅读本文时建议大家尽量使用chrome等浏览器如此公式才能更好的显示再者阅读时可拿张纸和笔出来把本文所有定理.公式都亲自推导一遍或者直接打印下来可直接打印网页版或本文文末附的PDF享受随时随地思考、演算的极致快感在文稿上演算。 Ok还是那句原话有任何问题欢迎任何人随时不吝指正赐教感谢。第一层、了解SVM 支持向量机因其英文名为support vector machine故一般简称SVM通俗来讲它是一种二类分类模型其基本模型定义为特征空间上的间隔最大的线性分类器其学习策略便是间隔最大化最终可转化为一个凸二次规划问题的求解。 1.1、分类标准的起源Logistic回归理解SVM咱们必须先弄清楚一个概念线性分类器。给定一些数据点它们分别属于两个不同的类现在要找到一个线性分类器把这些数据分成两类。如果用x表示数据点用y表示类别y可以取1或者-1分别代表两个不同的类一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面hyper plane这个超平面的方程可以表示为 wT中的T代表转置可能有读者对类别取1或-1有疑问事实上这个1或-1的分类标准起源于logistic回归。 Logistic回归目的是从特征学习出一个0/1分类模型而这个模型是将特性的线性组合作为自变量由于自变量的取值范围是负无穷到正无穷。因此使用logistic函数或称作sigmoid函数将自变量映射到(0,1)上映射后的值被认为是属于y1的概率。假设函数其中x是n维特征向量函数g就是logistic函数。而的图像是可以看到将无穷映射到了(0,1)。而假设函数就是特征属于y1的概率。从而当我们要判别一个新来的特征属于哪个类时只需求即可若大于0.5就是y1的类反之属于y0类。此外只和有关0那么而g(z)只是用来映射真实的类别决定权还是在于。再者当时1反之0。如果我们只从出发希望模型达到的目标就是让训练数据中y1的特征而是y0的特征。Logistic回归就是要学习得到使得正例的特征远大于0负例的特征远小于0而且要在全部训练实例上达到这个目标。接下来尝试把logistic回归做个变形。首先将使用的结果标签y 0和y 1替换为y -1,y 1然后将中的替换为b最后将后面的替换为即。如此则有了。也就是说除了y由y0变为y-1外线性分类函数跟logistic回归的形式化表示没区别。进一步可以将假设函数中的g(z)做一个简化将其简单映射到y-1和y1上。映射关系如下 1.2、线性分类的一个例子下面举个简单的例子如下图所示现在有一个二维平面平面上有两种不同的数据分别用圈和叉表示。由于这些数据是线性可分的所以可以用一条直线将这两类数据分开这条直线就相当于一个超平面超平面一边的数据点所对应的y全是 -1 另一边所对应的y全是1。这个超平面可以用分类函数表示当f(x) 等于0的时候x便是位于超平面上的点而f(x)大于0的点对应 y1 的数据点f(x)小于0的点对应y-1的点如下图所示注有的资料上定义特征到结果的输出函数与这里定义的实质是一样的。为什么因为无论是还是不影响最终优化结果。下文你将看到当我们转化到优化的时候为了求解方便会把yf(x)令为1即yf(x)是y(w^x b)还是y(w^x - b)对我们要优化的式子max1/||w||已无影响。有一朋友飞狗来自Mare_Desiderii看了上面的定义之后问道请教一下SVM functional margin 为y(wTxb)yf(x)中的Y是只取1和-1 吗y的唯一作用就是确保functional margin的非负性真是这样的么当然不是详情请见本文评论下第43楼当然有些时候或者说大部分时候数据并不是线性可分的这个时候满足这样条件的超平面就根本不存在(不过关于如何处理这样的问题我们后面会讲)这里先从最简单的情形开始推导就假设数据都是线性可分的亦即这样的超平面是存在的。换言之在进行分类的时候遇到一个新的数据点x将x代入f(x) 中如果f(x)小于0则将x的类别赋为-1如果f(x)大于0则将x的类别赋为1。接下来的问题是如何确定这个超平面呢从直观上而言这个超平面应该是最适合分开两类数据的直线。而判定“最适合”的标准就是这条直线离直线两边的数据的间隔最大。所以得寻找有着最大间隔的超平面。 1.3、函数间隔Functional margin与几何间隔Geometrical margin 在超平面w*xb0确定的情况下|w*xb|能够表示点x到距离超平面的远近而通过观察w*xb的符号与类标记y的符号是否一致可判断分类是否正确所以可以用(y*(w*xb))的正负性来判定或表示分类的正确性。于此我们便引出了函数间隔functional margin的概念。定义函数间隔用表示为而超平面(wb)关于T中所有样本点(xiyi)的函数间隔最小值其中x是特征y是结果标签i表示第i个样本便为超平面(w, b)关于训练数据集T的函数间隔 mini (i1...n) 但这样定义的函数间隔有问题即如果成比例的改变w和b如将它们改成2w和2b则函数间隔的值f(x)却变成了原来的2倍虽然此时超平面没有改变所以只有函数间隔还远远不够。事实上我们可以对法向量w加些约束条件从而引出真正定义点到超平面的距离--几何间隔geometrical margin的概念。假定对于一个点 x 令其垂直投影到超平面上的对应点为 x0 w 是垂直于超平面的一个向量为样本x到分类间隔的距离如下图所示有其中||w||表示的是范数。又由于 x0 是超平面上的点满足 f(x0)0 代入超平面的方程即可算出 γ 有的书上会写成把||w|| 分开相除的形式如本文参考文献及推荐阅读条目11其中||w||为w的二阶泛数为了得到的绝对值令乘上对应的类别 y即可得出几何间隔用表示的定义从上述函数间隔和几何间隔的定义可以看出几何间隔就是函数间隔除以||w||而且函数间隔y*(wxb) y*f(x)实际上就是|f(x)|只是人为定义的一个间隔度量而几何间隔|f(x)|/||w||才是直观上的点到超平面的距离。 1.4、最大间隔分类器Maximum Margin Classifier的定义对一个数据点进行分类当超平面离数据点的“间隔”越大分类的确信度confidence也越大。所以为了使得分类的确信度尽量高需要让所选择的超平面能够最大化这个“间隔”值。这个间隔如下图中的gap / 2所示。通过由前面的分析可知函数间隔不适合用来最大化间隔值因为在超平面固定以后可以等比例地缩放w的长度和b的值这样可以使得的值任意大亦即函数间隔可以在超平面保持不变的情况下被取得任意大。但几何间隔因为除上了使得在缩放w和b的时候几何间隔的值是不会改变的它只随着超平面的变动而变动因此这是更加合适的一个间隔。所以这里要找的最大间隔分类超平面中的“间隔”指的是几何间隔。于是最大间隔分类器maximum margin classifier的目标函数可以定义为同时需满足一些条件根据间隔的定义有其中s.t.即subject to的意思它导出的是约束条件。回顾下几何间隔的定义可知如果令函数间隔等于1之所以令等于1是为了方便推导和优化且这样做对目标函数的优化没有影响至于为什么请见本文评论下第42楼回复则有 1 / ||w||且从而上述目标函数转化成了这个目标函数便是在相应的约束条件下最大化这个1/||w||值而1/||w||便是几何间隔。如下图所示中间的实线便是寻找到的最优超平面Optimal Hyper Plane其到两条虚线的距离相等这个距离便是几何间隔两条虚线之间的距离等于2而虚线上的点则是支持向量。由于这些支持向量刚好在边界上所以它们满足还记得我们把 functional margin 定为 1 了吗上节中处于方便推导和优化的目的我们可以令1而对于所有不是支持向量的点则显然有。 OK到此为止算是了解到了SVM的第一层对于那些只关心怎么用SVM的朋友便已足够不必再更进一层深究其更深的原理。第二层、深入SVM 2.1、从线性可分到线性不可分 2.1.1、从原始问题到对偶问题的求解接着考虑之前得到的目标函数由于求的最大值相当于求的最小值所以上述目标函数等价于w由分母变成分子从而也有原来的max问题变为min问题很明显两者问题等价因为现在的目标函数是二次的约束条件是线性的所以它是一个凸二次规划问题。这个问题可以用现成的QP (Quadratic Programming) 优化包进行求解。一言以蔽之在一定的约束条件下目标最优损失最小。此外由于这个问题的特殊结构还可以通过拉格朗日对偶性Lagrange Duality变换到对偶变量 (dual variable) 的优化问题即通过求解与原问题等价的对偶问题dual problem得到原始问题的最优解这就是线性可分条件下支持向量机的对偶算法这样做的优点在于一者对偶问题往往更容易求解二者可以自然的引入核函数进而推广到非线性分类问题。那什么是拉格朗日对偶性呢简单来讲通过给每一个约束条件加上一个拉格朗日乘子Lagrange multiplier定义拉格朗日函数通过拉格朗日函数将约束条件融合到目标函数里去从而只用一个函数表达式便能清楚的表达出我们的问题然后令容易验证当某个约束条件不满足时例如那么显然有只要令即可。而当所有约束条件都满足时则有亦即最初要最小化的量。因此在要求约束条件得到满足的情况下最小化实际上等价于直接最小化当然这里也有约束条件就是≥0,i1,…,n 因为如果约束条件没有得到满足会等于无穷大自然不会是我们所要求的最小值。具体写出来目标函数变成了这里用表示这个问题的最优值且和最初的问题是等价的。如果直接求解那么一上来便得面对w和b两个参数而又是不等式约束这个求解过程不好做。不妨把最小和最大的位置交换一下变成交换以后的新问题是原始问题的对偶问题这个新问题的最优值用来表示。而且有≤在满足某些条件的情况下这两者相等这个时候就可以通过求解对偶问题来间接地求解原始问题。换言之之所以从minmax的原始问题转化为maxmin的对偶问题一者因为是的近似解二者转化为对偶问题后更容易求解。下面可以先求L 对w、b的极小再求L 对的极大。 2.1.2、KKT条件上文中提到“≤在满足某些条件的情况下两者等价”这所谓的“满足某些条件”就是要满足KKT条件。一般地一个最优化数学模型能够表示成下列标准形式其中f(x)是需要最小化的函数h(x)是等式约束g(x)是不等式约束p和q分别为等式约束和不等式约束的数量。同时得明白以下两点凸优化的概念为一凸集为一凸函数。凸优化就是要找出一点使得每一满足。KKT条件的意义它是一个非线性规划Nonlinear Programming问题能有最优化解法的必要和充分条件。而KKT条件就是指上面最优化数学模型的标准形式中的最小点 x* 必须满足下面的条件经过论证我们这里的问题是满足 KKT 条件的首先已经满足Slater condition再者f和gi也都是可微的即L对w和b都可导因此现在我们便转化为求解第二个问题。也就是说原始问题通过满足KKT条件已经转化成了对偶问题。而求解这个对偶学习问题分为3个步骤首先要让L(wba) 关于 w 和 b 最小化然后求对的极大最后利用SMO算法求解对偶问题中的拉格朗日乘子。 2.1.3、对偶问题求解的3个步骤 1、首先固定要让 L 关于 w 和 b 最小化我们分别对wb求偏导数即令 ∂L/∂w 和 ∂L/∂b 等于零对w求导结果的解释请看本文评论下第45楼回复将以上结果代入之前的L得到从而有提醒有读者可能会问上述推导过程如何而来说实话其具体推导过程是比较复杂的如下图所示最后得到如 jerrylead所说“倒数第4步”推导到“倒数第3步”使用了线性代数的转置运算由于ai和yi都是实数因此转置后与自身一样。“倒数第3步”推导到“倒数第2步”使用了(abc…)(abc…)aaabacbabbbc…的乘法运算法则。最后一步是上一步的顺序调整。 L(从上面的最后一个式子我们可以看出此时的拉格朗日函数只包含了一个变量那就是求出了便能求出w和b由此可见上文第1.2节提出来的核心问题分类函数也就可以轻而易举的求出来了。 2、求对的极大即是关于对偶问题的最优化问题。经过上面第一个步骤的求w和b得到的拉格朗日函数式子已经没有了变量wb只有。从上面的式子得到这样求出了根据即可求出w 然后通过即可求出b 最终得出分离超平面和分类决策函数。 3在求得L(w, b, a) 关于 w 和 b 最小化以及对的极大之后最后一步便是利用SMO算法求解对偶问题中的拉格朗日乘子。上述式子要解决的是在参数上求最大值W的问题至于和都是已知数。要了解这个SMO算法是如何推导的请跳到下文第3.5节、SMO算法。到目前为止我们的 SVM 还比较弱只能处理线性的情况下面我们将引入核函数进而推广到非线性分类问题。2.1.5、线性不可分的情况 OK为过渡到下节2.2节所介绍的核函数让我们再来看看上述推导过程中得到的一些有趣的形式。首先就是关于我们的 hyper plane 对于一个数据点 x 进行分类实际上是通过把 x 带入到算出结果然后根据其正负号来进行类别划分的。而前面的推导中我们得到因此分类函数为这里的形式的有趣之处在于对于新点 x的预测只需要计算它与训练数据点的内积即可表示向量内积这一点至关重要是之后使用 Kernel 进行非线性推广的基本前提。此外所谓 Supporting Vector 也在这里显示出来——事实上所有非Supporting Vector 所对应的系数都是等于零的因此对于新点的内积计算实际上只要针对少量的“支持向量”而不是所有的训练数据即可。为什么非支持向量对应的等于零呢直观上来理解的话就是这些“后方”的点——正如我们之前分析过的一样对超平面是没有影响的由于分类完全有超平面决定所以这些无关的点并不会参与分类问题的计算因而也就不会产生任何影响了。回忆一下我们2.1.1节中通过 Lagrange multiplier得到的目标函数注意到如果 xi 是支持向量的话上式中红颜色的部分是等于 0 的因为支持向量的 functional margin 等于 1 而对于非支持向量来说functional margin 会大于 1 因此红颜色部分是大于零的而又是非负的为了满足最大化必须等于 0 。这也就是这些非Supporting Vector 的点的局限性。从1.5节到上述所有这些东西便得到了一个maximum margin hyper plane classifier这就是所谓的支持向量机Support Vector Machine。当然到目前为止我们的 SVM 还比较弱只能处理线性的情况不过在得到了对偶dual 形式之后通过 Kernel 推广到非线性的情况就变成了一件非常容易的事情了(相信你还记得本节开头所说的“通过求解对偶问题得到最优解这就是线性可分条件下支持向量机的对偶算法这样做的优点在于一者对偶问题往往更容易求解二者可以自然的引入核函数进而推广到非线性分类问题”)。 2.2、核函数Kernel 2.2.1、特征空间的隐式映射核函数咱们首先给出核函数的来头在上文中我们已经了解到了SVM处理线性可分的情况而对于非线性的情况SVM 的处理方法是选择一个核函数 κ(⋅,⋅) 通过将数据映射到高维空间来解决在原始空间中线性不可分的问题。此外因为训练样例一般是不会独立出现的它们总是以成对样例的内积形式出现而用对偶形式表示学习器的优势在为在该表示中可调参数的个数不依赖输入属性的个数通过使用恰当的核函数来替代内积可以隐式得将非线性的训练数据映射到高维空间而不增加可调参数的个数(当然前提是核函数能够计算对应着两个输入特征向量的内积)。在线性不可分的情况下支持向量机首先在低维空间中完成计算然后通过核函数将输入空间映射到高维特征空间最终在高维特征空间中构造出最优分离超平面从而把平面上本身不好分的非线性数据分开。如图7-7所示一堆数据在二维空间无法划分从而映射到三维空间里划分而在我们遇到核函数之前如果用原始的方法那么在用线性学习器学习一个非线性关系需要选择一个非线性特征集并且将数据写成新的表达形式这等价于应用一个固定的非线性映射将数据映射到特征空间在特征空间中使用线性学习器因此考虑的假设集是这种类型的函数这里ϕX-F是从输入空间到某个特征空间的映射这意味着建立非线性学习器分为两步首先使用一个非线性映射将数据变换到一个特征空间F然后在特征空间使用线性学习器分类。而由于对偶形式就是线性学习器的一个重要性质这意味着假设可以表达为训练点的线性组合因此决策规则可以用测试点和训练点的内积来表示如果有一种方式可以在特征空间中直接计算内积〈φ(xi · φ(x)〉就像在原始输入点的函数中一样就有可能将两个步骤融合到一起建立一个非线性的学习器这样直接计算法的方法称为核函数方法核是一个函数K对所有xz(-X满足这里φ是从X到内积特征空间F的映射。 2.2.2、核函数如何处理非线性数据来看个核函数的例子。如下图所示的两类数据分别分布为两个圆圈的形状这样的数据本身就是线性不可分的此时咱们该如何把这两类数据分开呢(下文将会有一个相应的三维空间图) 事实上上图所述的这个数据集是用两个半径不同的圆圈加上了少量的噪音生成得到的所以一个理想的分界应该是一个“圆圈”而不是一条线超平面。如果用 X1 和 X2 来表示这个二维平面的两个坐标的话我们知道一条二次曲线圆圈是二次曲线的一种特殊情况的方程可以写作这样的形式注意上面的形式如果我们构造另外一个五维的空间其中五个坐标的值分别为 Z1X1, Z2X21, Z3X2, Z4X22, Z5X1X2那么显然上面的方程在新的坐标系下可以写作关于新的坐标 Z 这正是一个 hyper plane 的方程也就是说如果我们做一个映射 ϕ:R2→R5 将 X 按照上面的规则映射为 Z 那么在新的空间中原来的数据将变成线性可分的从而使用之前我们推导的线性分类算法就可以进行处理了。这正是 Kernel 方法处理非线性问题的基本思想。再进一步描述 Kernel 的细节之前不妨再来看看这个例子映射过后的直观例子。当然你我可能无法把 5 维空间画出来不过由于我这里生成数据的时候就是用了特殊的情形具体来说我这里的超平面实际的方程是这个样子圆心在 X2 轴上的一个正圆因此我只需要把它映射到 Z1X21, Z2X22, Z3X2 这样一个三维空间中即可下图即是映射之后的结果将坐标轴经过适当的旋转就可以很明显地看出数据是可以通过一个平面来分开的(pluskid下面的gif 动画先用 Matlab 画出一张张图片再用 Imagemagick 拼贴成) 核函数相当于把原来的分类函数映射成而其中的可以通过求解如下 dual 问题而得到的这样一来问题就解决了吗似乎是的拿到非线性数据就找一个映射然后一股脑把原来的数据映射到新空间中再做线性 SVM 即可。不过事实上没有这么简单其实刚才的方法稍想一下就会发现有问题在最初的例子里我们对一个二维空间做映射选择的新空间是原始空间的所有一阶和二阶的组合得到了五个维度如果原始空间是三维那么我们会得到 19 维的新空间这个数目是呈爆炸性增长的这给的计算带来了非常大的困难而且如果遇到无穷维的情况就根本无从计算了。所以就需要 Kernel 出马了。不妨还是从最开始的简单例子出发设两个向量和而即是到前面说的五维空间的映射因此映射过后的内积为公式说明上面的这两个推导过程中所说的前面的五维空间的映射这里说的前面便是文中2.2.1节的所述的映射方式回顾下之前的映射规则再看那第一个推导其实就是计算x1x2各自的内积然后相乘相加即可第二个推导则是直接平方去掉括号也很容易推出来另外我们又注意到二者有很多相似的地方实际上我们只要把某几个维度线性缩放一下然后再加上一个常数维度具体来说上面这个式子的计算结果实际上和映射之后的内积的结果是相等的那么区别在于什么地方呢一个是映射到高维空间中然后再根据内积的公式进行计算而另一个则直接在原来的低维空间中进行计算而不需要显式地写出映射后的结果。公式说明上面之中最后的两个式子第一个算式是带内积的完全平方式可以拆开然后通过凑一个得到第二个算式也是根据第一个算式凑出来的回忆刚才提到的映射的维度爆炸在前一种方法已经无法计算的情况下后一种方法却依旧能从容处理甚至是无穷维度的情况也没有问题。我们把这里的计算两个向量在隐式映射过后的空间中的内积的函数叫做核函数 (Kernel Function) 例如在刚才的例子中我们的核函数为核函数能简化映射空间中的内积运算——刚好“碰巧”的是在我们的 SVM 里需要计算的地方数据向量总是以内积的形式出现的。对比刚才我们上面写出来的式子现在我们的分类函数为其中由如下 dual 问题计算而得这样一来计算的问题就算解决了避开了直接在高维空间中进行计算而结果却是等价的当然因为我们这里的例子非常简单所以我可以手工构造出对应于的核函数出来如果对于任意一个映射想要构造出对应的核函数就很困难了。 2.2.3、几个核函数通常人们会从一些常用的核函数中选择根据问题和数据的不同选择不同的参数实际上就是得到了不同的核函数例如多项式核显然刚才我们举的例子是这里多项式核的一个特例R 1d 2。虽然比较麻烦而且没有必要不过这个核所对应的映射实际上是可以写出来的该空间的维度是其中是原始空间的维度。高斯核这个核就是最开始提到过的会将原始空间映射为无穷维空间的那个家伙。不过如果选得很大的话高次特征上的权重实际上衰减得非常快所以实际上数值上近似一下相当于一个低维的子空间反过来如果选得很小则可以将任意的数据映射为线性可分——当然这并不一定是好事因为随之而来的可能是非常严重的过拟合问题。不过总的来说通过调控参数高斯核实际上具有相当高的灵活性也是使用最广泛的核函数之一。下图所示的例子便是把低维线性不可分的数据通过高斯核函数映射到了高维空间线性核这实际上就是原始空间中的内积。这个核存在的主要目的是使得“映射后空间中的问题”和“映射前空间中的问题”两者在形式上统一起来了(意思是说咱们有的时候写代码或写公式的时候只要写个模板或通用表达式然后再代入不同的核便可以了于此便在形式上统一了起来不用再分别写一个线性的和一个非线性的)。 2.2.4、核函数的本质上面说了这么一大堆读者可能还是没明白核函数到底是个什么东西我再简要概括下即以下三点实际中我们会经常遇到线性不可分的样例此时我们的常用做法是把样例特征映射到高维空间中去(如上文2.2节最开始的那幅图所示映射到高维空间后相关特征便被分开了也就达到了分类的目的)但进一步如果凡是遇到线性不可分的样例一律映射到高维空间那么这个维度大小是会高到可怕的(如上文中19维乃至无穷维的例子)。那咋办呢此时核函数就隆重登场了核函数的价值在于它虽然也是讲特征进行从低维到高维的转换但核函数绝就绝在它事先在低维上进行计算而将实质上的分类效果表现在了高维上也就如上文所说的避免了直接在高维空间中的复杂计算。最后引用这里的一个例子举例说明下核函数解决非线性问题的直观效果。假设现在你是一个农场主圈养了一批羊群但为预防狼群袭击羊群你需要搭建一个篱笆来把羊群围起来。但是篱笆应该建在哪里呢你很可能需要依据牛群和狼群的位置建立一个“分类器”比较下图这几种不同的分类器我们可以看到SVM完成了一个很完美的解决方案。这个例子从侧面简单说明了SVM使用非线性分类器的优势而逻辑模式以及决策树模式都是使用了直线方法。 OK不再做过多介绍了对核函数有进一步兴趣的还可以看看此文。 2.3、使用松弛变量处理 outliers 方法在本文第一节最开始讨论支持向量机的时候我们就假定数据是线性可分的亦即我们可以找到一个可行的超平面将数据完全分开。后来为了处理非线性数据在上文2.2节使用 Kernel 方法对原来的线性 SVM 进行了推广使得非线性的的情况也能处理。虽然通过映射将原始数据映射到高维空间之后能够线性分隔的概率大大增加但是对于某些情况还是很难处理。例如可能并不是因为数据本身是非线性结构的而只是因为数据有噪音。对于这种偏离正常位置很远的数据点我们称之为 outlier 在我们原来的 SVM 模型里outlier 的存在有可能造成很大的影响因为超平面本身就是只有少数几个 support vector 组成的如果这些 support vector 里又存在 outlier 的话其影响就很大了。例如下图用黑圈圈起来的那个蓝点是一个 outlier 它偏离了自己原本所应该在的那个半空间如果直接忽略掉它的话原来的分隔超平面还是挺好的但是由于这个 outlier 的出现导致分隔超平面不得不被挤歪了变成途中黑色虚线所示这只是一个示意图并没有严格计算精确坐标同时 margin 也相应变小了。当然更严重的情况是如果这个 outlier 再往右上移动一些距离的话我们将无法构造出能将数据分开的超平面来。为了处理这种情况SVM 允许数据点在一定程度上偏离一下超平面。例如上图中黑色实线所对应的距离就是该 outlier 偏离的距离如果把它移动回来就刚好落在原来的超平面上而不会使得超平面发生变形了。插播下一位读者Copper_PKU的理解“换言之在有松弛的情况下outline点也属于支持向量SV同时对于不同的支持向量拉格朗日参数的值也不同如此篇论文《Large Scale Machine Learning》中的下图所示对于远离分类平面的点值为0对于边缘上的点值在[0, 1/L]之间其中L为训练数据集个数即数据集大小对于outline数据和内部的数据值为1/L。更多请参看本文文末参考条目第51条。” OK继续回到咱们的问题。我们原来的约束条件为现在考虑到outlier问题约束条件变成了其中称为松弛变量 (slack variable) 对应数据点允许偏离的 functional margin 的量。当然如果我们运行任意大的话那任意的超平面都是符合条件的了。所以我们在原来的目标函数后面加上一项使得这些的总和也要最小其中是一个参数用于控制目标函数中两项“寻找 margin 最大的超平面”和“保证数据点偏差量最小”之间的权重。注意其中是需要优化的变量之一而是一个事先确定好的常量。完整地写出来是这个样子用之前的方法将限制或约束条件加入到目标函数中得到新的拉格朗日函数如下所示分析方法和前面一样转换为另一个问题之后我们先让针对、和最小化将带回并化简得到和原来一样的目标函数不过由于我们得到而又有作为 Lagrange multiplier 的条件因此有所以整个 dual 问题现在写作把前后的结果对比一下错误修正图中的Dual formulation中的Minimize应为maxmize 可以看到唯一的区别就是现在 dual variable 多了一个上限。而 Kernel 化的非线性形式也是一样的只要把换成即可。这样一来一个完整的可以处理线性和非线性并能容忍噪音和 outliers 的支持向量机才终于介绍完毕了。行文至此可以做个小结不准确的说SVM它本质上即是一个分类方法用w^Tb定义分类函数于是求w、b为寻最大间隔引出1/2||w||^2继而引入拉格朗日因子化为对拉格朗日乘子a的求解求解过程中会涉及到一系列最优化或凸二次规划等问题如此求w.b与求a等价而a的求解可以用一种快速学习算法SMO至于核函数是为处理非线性情况若直接映射到高维计算恐维度爆炸故在低维计算等效高维表现。 OK理解到这第二层已经能满足绝大部分人一窥SVM原理的好奇心然对于那些想在证明层面理解SVM的则还很不够但进入第三层理解境界之前你必须要有比较好的数理基础和逻辑证明能力不然你会跟我一样吃不少苦头的。第三层、证明SVM 说实话凡是涉及到要证明的东西.理论便一般不是怎么好惹的东西。绝大部分时候看懂一个东西不难但证明一个东西则需要点数学功底进一步证明一个东西也不是特别难难的是从零开始发明创造这个东西的时候则显艰难(因为任何时代大部分人的研究所得都不过是基于前人的研究成果前人所做的是开创性工作而这往往是最艰难最有价值的他们被称为真正的先驱。牛顿也曾说过他不过是站在巨人的肩上。你我则更是如此)。正如陈希孺院士在他的著作《数理统计学简史》的第4章、最小二乘法中所讲在科研上诸多观念的革新和突破是有着很多的不易的或许某个定理在某个时期由某个人点破了现在的我们看来一切都是理所当然但在一切没有发现之前可能许许多多的顶级学者毕其功于一役耗尽一生努力了几十年最终也是无功而返。话休絮烦要证明一个东西先要弄清楚它的根基在哪即构成它的基础是哪些理论。OK以下内容基本是上文中未讲到的一些定理的证明包括其背后的逻辑、来源背景等东西还是读书笔记。本部分导述 3.1节线性学习器中主要阐述感知机算法3.2节非线性学习器中主要阐述mercer定理3.3节、损失函数3.4节、最小二乘法3.5节、SMO算法3.6节、简略谈谈SVM的应用 3.1、线性学习器 3.1.1、感知机算法这个感知机算法是1956年提出的年代久远依然影响着当今当然可以肯定的是此算法亦非最优后续会有更详尽阐述。不过有一点你必须清楚这个算法是为了干嘛的不断的训练试错以期寻找一个合适的超平面(是的就这么简单)。下面举个例子。如下图所示凭我们的直觉可以看出图中的红线是最优超平面蓝线则是根据感知机算法在不断的训练中最终若蓝线能通过不断的训练移动到红线位置上则代表训练成功。既然需要通过不断的训练以让蓝线最终成为最优分类超平面那么到底需要训练多少次呢Novikoff定理告诉我们当间隔是正的时候感知机算法会在有限次数的迭代中收敛也就是说Novikoff定理证明了感知机算法的收敛性即能得到一个界不至于无穷循环下去。Novikoff定理如果分类超平面存在, 仅需在序列上迭代几次在界为的错误次数下就可以找到分类超平面算法停止。这里为扩充间隔。根据误分次数公式可知, 迭代次数与对应于扩充(包括偏置)权重的训练集的间隔有关。顺便再解释下这个所谓的扩充间隔即为样本到分类间隔的距离即从引出的最大分类间隔。OK还记得上文第1.3.2节开头的内容么如下“ 在给出几何间隔的定义之前咱们首先来看下如上图所示对于一个点 x 令其垂直投影到超平面上的对应的为 x0 由于 w 是垂直于超平面的一个向量为样本x到分类间隔的距离我们有 ” 然后后续怎么推导出最大分类间隔请回到本文第一、二部分此处不重复板书。同时有一点得注意感知机算法虽然可以通过简单迭代对线性可分数据生成正确分类的超平面但不是最优效果那怎样才能得到最优效果呢就是上文中第一部分所讲的寻找最大分类间隔超平面。此外Novikoff定理的证明请见这里。3.2、非线性学习器 3.2.1、Mercer定理 Mercer定理如果函数K是上的映射也就是从两个n维向量映射到实数域。那么如果K是一个有效核函数也称为Mercer核函数那么当且仅当对于训练样例其相应的核函数矩阵是对称半正定的。要理解这个Mercer定理先要了解什么是半正定矩阵要了解什么是半正定矩阵先得知道什么是正定矩阵矩阵理论“博大精深”我自己也未能彻底理清等我理清了再续写此节顺便推荐我正在看的一本《矩阵分析与应用》。然后这里有一个此定理的证明可以看下。正如Copper_PKU所说核函数在SVM的分类效果中起了重要的作用最后这里有个tutorial可以看看。3.3、损失函数在本文1.0节有这么一句话“支持向量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法通过寻求结构化风险最小来提高学习机泛化能力实现经验风险和置信范围的最小化从而达到在统计样本量较少的情况下亦能获得良好统计规律的目的。”但初次看到的读者可能并不了解什么是结构化风险什么又是经验风险。要了解这两个所谓的“风险”还得又从监督学习说起。监督学习实际上就是一个经验风险或者结构风险函数的最优化问题。风险函数度量平均意义下模型预测的好坏模型每一次预测的好坏用损失函数来度量。它从假设空间F中选择模型f作为决策函数对于给定的输入X由f(X)给出相应的输出Y这个输出的预测值f(X)与真实值Y可能一致也可能不一致用一个损失函数来度量预测错误的程度。损失函数记为L(Y, f(X))。常用的损失函数有以下几种基本引用自《统计学习方法》如此SVM有第二种理解即最优化损失最小或如夏粉_百度所说“可从损失函数和优化算法角度看SVMboostingLR等算法可能会有不同收获”。 OK关于更多统计学习方法的问题请参看此文。关于损失函数如下文读者评论中所述可以看看张潼的这篇《Statistical behavior and consistency of classification methods based on convex risk minimization》。各种算法中常用的损失函数基本都具有fisher一致性优化这些损失函数得到的分类器可以看作是后验概率的“代理”。此外他还有另外一篇论文《Statistical analysis of some multi-category large margin classification methods》在多分类情况下margin loss的分析这两篇对Boosting和SVM使用的损失函数分析的很透彻。 3.4、最小二乘法 3.4.1、什么是最小二乘法既然本节开始之前提到了最小二乘法那么下面引用《正态分布的前世今生》里的内容稍微简单阐述下。我们口头中经常说一般来说平均来说。如平均来说不吸烟的健康优于吸烟者之所以要加“平均”二字是因为凡事皆有例外总存在某个特别的人他吸烟但由于经常锻炼所以他的健康状况可能会优于他身边不吸烟的朋友。而最小二乘法的一个最简单的例子便是算术平均。最小二乘法又称最小平方法是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据并使得这些求得的数据与实际数据之间误差的平方和为最小。用函数表示为使误差「所谓误差当然是观察值与实际真实值的差量」平方和达到最小以寻求估计值的方法就叫做最小二乘法用最小二乘法得到的估计叫做最小二乘估计。当然取平方和作为目标函数只是众多可取的方法之一。最小二乘法的一般形式可表示为有效的最小二乘法是勒让德在 1805 年发表的基本思想就是认为测量中有误差所以所有方程的累积误差为我们求解出导致累积误差最小的参数即可勒让德在论文中对最小二乘法的优良性做了几点说明最小二乘使得误差平方和最小并在各个方程的误差之间建立了一种平衡从而防止某一个极端误差取得支配地位计算中只要求偏导后求解线性方程组计算过程明确便捷最小二乘可以导出算术平均值作为估计值对于最后一点从统计学的角度来看是很重要的一个性质。推理如下假设真值为 θ, x1,⋯,xn为n次测量值, 每次测量的误差为eixi−θ按最小二乘法误差累积为求解使达到最小正好是算术平均。由于算术平均是一个历经考验的方法而以上的推理说明算术平均是最小二乘的一个特例所以从另一个角度说明了最小二乘方法的优良性使我们对最小二乘法更加有信心。最小二乘法发表之后很快得到了大家的认可接受并迅速的在数据分析实践中被广泛使用。不过历史上又有人把最小二乘法的发明归功于高斯这又是怎么一回事呢。高斯在1809年也发表了最小二乘法并且声称自己已经使用这个方法多年。高斯发明了小行星定位的数学方法并在数据分析中使用最小二乘方法进行计算准确的预测了谷神星的位置。说了这么多貌似跟本文的主题SVM没啥关系呀别急请让我继续阐述。本质上说最小二乘法即是一种参数估计方法说到参数估计咱们得从一元线性模型说起。 3.4.2、最小二乘法的解法什么是一元线性模型呢请允许我引用这里的内容先来梳理下几个基本概念监督学习中如果预测的变量是离散的我们称其为分类如决策树支持向量机等如果预测的变量是连续的我们称其为回归。回归分析中如果只包括一个自变量和一个因变量且二者的关系可用一条直线近似表示这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量且因变量和自变量之间是线性关系则称为多元线性回归分析。对于二维空间线性是一条直线对于三维空间线性是一个平面对于多维空间线性是一个超平面... 对于一元线性回归模型, 假设从总体中获取了n组观察值X1Y1X2Y2 …XnYn。对于平面中的这n个点可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看这条直线处于样本数据的中心位置最合理。选择最佳拟合曲线的标准可以确定为使总的拟合误差即总残差达到最小。有以下三个标准可以选择用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外得到的估计量还具有优良特性。这种方法对异常值非常敏感。　最常用的是普通最小二乘法 Ordinary Least SquareOLS所选择的回归模型应该使所有观察值的残差平方和达到最小即采用平方损失函数。　我们定义样本回归模型为其中ei为样本Xi, Yi的误差。接着定义平方损失函数Q 则通过Q最小确定这条直线即确定以为变量把它们看作是Q的函数就变成了一个求极值的问题可以通过求导数得到。求Q对两个待估参数的偏导数根据数学知识我们知道函数的极值点为偏导为0的点。解得这就是最小二乘法的解法就是求得平方损失函数的极值点。自此你看到求解最小二乘法与求解SVM问题何等相似尤其是定义损失函数而后通过偏导求得极值。OK更多请参看陈希孺院士的《数理统计学简史》的第4章、最小二乘法和本文参考条目第59条《凸函数》。 3.5、SMO算法在上文中我们提到了求解对偶问题的序列最小最优化SMO算法但并未提到其具体解法。首先看下最后悬而未决的问题等价于求解 1998年Microsoft Research的John C. Platt在论文《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》中提出针对上述问题的解法SMO算法它很快便成为最快的二次规划优化算法特别是在针对线性SVM和数据稀疏时性能更优。接下来咱们便参考John C. Platt的这篇文章来看看SMO的解法是怎样的。 3.5.1、SMO算法的推导咱们首先来定义特征到结果的输出函数注这个u与我们之前定义的实质是一样的。接着重新定义下咱们原始的优化问题权当重新回顾如下求导得到代入中可得。通过引入拉格朗日乘子转换为对偶问题后得 s.t 且注这里得到的min函数与我们之前的max函数实质也是一样因为把符号变下即由min转化为max的问题且yi也与之前的等价yj亦如此。经过加入松弛变量后模型修改为从而最终我们的问题变为下面要解决的问题是在上求上述目标函数的最小值。为了求解这些乘子每次从中任意抽取两个乘子和然后固定和以外的其它乘子使得目标函数只是关于和的函数。这样不断的从一堆乘子中任意抽取两个求解不断的迭代求解子问题最终达到求解原问题的目的。而原对偶问题的子问题的目标函数可以表达为其中为了解决这个子问题首要问题便是每次如何选取和。实际上其中一个乘子是违法KKT条件最严重的另外一个乘子则由另一个约束条件选取。根据KKT条件可以得出目标函数中取值的意义这里的还是拉格朗日乘子对于第1种情况表明是正常分类在边界内部我们知道正确分类的点对于第2种情况表明了是支持向量在边界上对于第3种情况表明了是在两条边界之间而最优解需要满足KKT条件即上述3个条件都得满足以下几种情况出现将会出现不满足 1但是C则是不满足的而原本C1但是0则是不满足的而原本01但是0或者C则表明不满足的而原本应该是0C 也就是说如果存在不满足KKT条件的那么需要更新这些这是第一个约束条件。此外更新的同时还要受到第二个约束条件的限制即。因此如果假设选择的两个乘子和它们在更新之前分别是、更新之后分别是、那么更新前后的值需要满足以下等式才能保证和为0的约束其中是常数。两个因子不好同时求解所以可先求第二个乘子的解得到的解之后再用的解表示的解。为了求解得先确定的取值范围。假设它的上下边界分别为H和L那么有接下来综合和这两个约束条件求取的取值范围。当y1 ! y2时根据可得所以有如下图所示当y1 y2时同样根据可得所以有如下图所示如此根据y1和y2同号或异号可得出的上下界分别为回顾下第二个约束条件令上式两边乘以y1可得其中。因此可以用表示从而把子问题的目标函数转换为只含的问题对求导可得化简下然后将、、和代入上式可得令表示预测值与真实值之差然后上式两边同时除以得到一个关于单变量的解这个解没有考虑其约束条件即是未经剪辑时的解。然后考虑约束可得到经过剪辑后的的解析解为求出了后便可以求出得。那么如何选择乘子和呢对于即第一个乘子可以通过刚刚说的那3种不满足KKT的条件来找而对于第二个乘子可以寻找满足条件的乘子。而b在满足下述条件下更新b且每次更新完两个乘子的优化后都需要再重新计算b及对应的Ei值。最后更新所有y和b这样模型就出来了从而即可求出咱们开头提出的分类函数此外这里也有一篇类似的文章大家可以参考下。3.5.2、SMO算法的步骤综上总结下SMO的主要步骤如下意思是第一步选取一对和选取方法使用启发式方法第二步固定除和之外的其他参数确定W极值条件下的由表示。假定在某一次迭代中需要更新对应的拉格朗日乘子那么这个小规模的二次规划问题写为那么在每次迭代中如何更新乘子呢引用这里的两张PPT说明下知道了如何更新乘子那么选取哪些乘子进行更新呢具体选择方法有以下两个步骤步骤1先“扫描”所有乘子把第一个违反KKT条件的作为更新对象令为a2步骤2在所有不违反KKT条件的乘子中选择使|E1 −E2|最大的a1进行更新使得能最大限度增大目标函数的值类似于梯度下降。此外而求出来的E代表函数ui对输入xi的预测值与真实输出类标记yi之差。最后每次更新完两个乘子的优化后都需要再重新计算b及对应的Ei值。综上SMO算法的基本思想是将Vapnik在1982年提出的Chunking方法推到极致SMO算法每次迭代只选出两个分量ai和aj进行调整其它分量则保持固定不变在得到解ai和aj之后再用ai和aj改进其它分量。与通常的分解算法比较尽管它可能需要更多的迭代次数但每次迭代的计算量比较小所以该算法表现出整理的快速收敛性且不需要存储核矩阵也没有矩阵运算。 3.5.3、SMO算法的实现行文至此我相信SVM理解到了一定程度后是的确能在脑海里从头至尾推导出相关公式的最初分类函数最大化分类间隔max1/||w||min1/2||w||^2凸二次规划拉格朗日函数转化为对偶问题SMO算法都为寻找一个最优解一个最优分类平面。一步步梳理下来为什么这样那样太多东西可以追究最后实现。如下图所示至于下文中将阐述的核函数则为是为了更好的处理非线性可分的情况而松弛变量则是为了纠正或约束少量“不安分”或脱离集体不好归类的因子。台湾的林智仁教授写了一个封装SVM算法的libsvm库大家可以看看此外这里还有一份libsvm的注释文档。除了在这篇论文《fast training of support vector machines using sequential minimal optimization》中platt给出了SMO算法的逻辑代码之外这里也有一份SMO的实现代码大家可以看下。其余更多请参看文末参考文献和推荐阅读中的条目6《支持向量机--算法、理论和扩展》和条目11《统计学习方法》的相关章节或跳至下文3.4节。 3.6、SVM的应用或许我们已经听到过SVM在很多诸如文本分类图像分类生物序列分析和生物数据挖掘手写字符识别等领域有很多的应用但或许你并没强烈的意识到SVM可以成功应用的领域远远超出现在已经在开发应用了的领域。 3.6.1、文本分类一个文本分类系统不仅是一个自然语言处理系统也是一个典型的模式识别系统系统的输入是需要进行分类处理的文本系统的输出则是与文本关联的类别。由于篇幅所限其它更具体内容本文将不再详述。 OK本节虽取标题为证明SVM但聪明的读者们想必早已看出其实本部分并无多少证明部分特此致歉怎么办呢可以参阅《支持向量机导论》一书此书精简而有趣。本节完。读者评论本文发表后微博上的很多朋友给了不少意见以下是节选的一些精彩评论“压力”陡增的评论→//藏了个锋我是看着July大神的博文长大的啊//zlkysl就是看了最后那一篇才决定自己的研究方向为SVM的。--http://weibo.com/1580904460/zraWk0u6u?modweibotime。张金辉“SVM的三重境界不得不转的一篇。其实Coursera的课堂上Andrew Ng讲过支持向量机但显然他没有把这作为重点加上Ng讲支持向量机的方法我一时半会难以完全消化所以听的也是一知半解。真正开始了解支持向量机就是看的这篇“三重境界”之后才对这个算法有了大概的概念以至如何去使用再到其中的原理为何再到支持向量机的证明等。总之这篇文章开启了我长达数月的研究支持向量机阶段直到今日。”--http://zhan.renren.com/profile/249335584?fromtemplate#!//tag/三重境界。孤独之守望者最后推出svm的cost function 是hinge loss然后对比其他的方法的cost function说明其实他们的目标函数很像那么问题是svm为什么这么popular呢您可以再加些VC dimension跟一些error bound的数学点一下提供一个思路和方向。--http://weibo.com/1580904460/AiohoyDwq?modweibotime。夏粉_百度“在面试时考察SVM可考察机器学习各方面能力目标函数,优化过程,并行方法算法收敛性,样本复杂度适用场景,调参经验不过个人认为考察boosting和LR也还不错啊。此外随着统计机器学习不断进步SVM只被当成使用了一个替代01损失hinge研究更通用的方法被提出损失函数研究替代损失与贝叶斯损失关系算法稳定性研究替代损失与推广性能关系,凸优化研究如何求解凸目标函数SVM,boosting等算法只是这些通用方法的一个具体组建而已。” 居里猴姐关于SVM损失函数的问题可以看看张潼老师的这篇《Statistical behavior and consistency of classification methods based on convex risk minimization》。各种算法中常用的损失函数基本都具有fisher一致性优化这些损失函数得到的分类器可以看作是后验概率的“代理”。此外张潼老师还有另外一篇论文《Statistical analysis of some multi-category large margin classification methods》在多分类情况下margin loss的分析这两篇对Boosting和SVM使用的损失函数分析的很透彻。夏粉_百度SVM用了hinge损失hinge损失不可导不如其它替代损失方便优化并且转换概率麻烦。核函数也不太用现在是大数据时代样本非常大无法想象一个n^2的核矩阵如何存储和计算。而且现在现在非线性一般靠深度学习了。//Copper_PKU:请教svm在工业界的应用典型的有哪些工业界如何选取核函数经验的方法svm的训练过程如何优化 Copper_PKUJuly的svm tutorial 我个人觉得还可以加入和修改如下部分(1) 对于支持向量解释可以结合图和拉格朗日参数来表达松弛中sv没有写出来. (2) SMO算法部分加入Joachims论文中提到的算法以及SMO算法选取workset的方法包括SMO算法的收敛判断还有之前共轭梯度求解方法虽然是较早的算法但是对于理解SMO算法有很好的效果。模型的优化和求解都是迭代的过程加入历史算法增强立体感。-- http://weibo.com/1580904460/Akw6dl3Yk#_rnd1385474436177。 //廖临川: 之所以sgd对大训练集的效果更好1.因为SGD优化每次迭代使用样本子集比使用训练全集尤其是百万数量级要快得多2.如果目标函数是凸的或者伪凸的SGD几乎必然可以收敛到全局最优否则则收敛到局部最优3.SGD一般不需要收敛到全局最优只要得到足够好的解就可以立即停止。//Copper_PKUsgd的核心思想是迭代训练每拿到一个样本就算出基于当前w(t) 的loss functiont代表训练第t次然后进行下一wt1的更新w(t1)w(t)-(learning rate) * loss function的梯度这个类比神经网络中bp中的参数训练方法。 sample by sample就是每次仅处理一个样本而不是一个batch。 //Copper_PKU从损失函数角度说primal问题可以理解为正则化项lossfunction求解目标是在两个中间取平衡如果强调loss function最小则会overfitting所以有C参数。 //研究者JulySVM还真就是在一定限定条件下即约束条件下求目标函数的最优值问题同时为减少误判率尽量让损失最小。 ... 非常享受这种全民大讨论的年代没有谁一定就对或一定就错而是各自发表各自的理解见解真棒参考文献及推荐阅读《支持向量机导论》[美] Nello Cristianini / John Shawe-Taylor 著支持向量机导论一书的支持网站http://www.support-vector.net/ 《数据挖掘导论》[美] Pang-Ning Tan / Michael Steinbach / Vipin Kumar 著《数据挖掘概念与技术》(加)Jiawei Han;Micheline Kamber 著《数据挖掘中的新方法支持向量机》邓乃扬田英杰著《支持向量机--理论、算法和扩展》邓乃扬田英杰著支持向量机系列pluskidhttp://blog.pluskid.org/?page_id683http://www.360doc.com/content/07/0716/23/11966_615252.shtml 数据挖掘十大经典算法初探《模式识别支持向量机指南》C.J.C Burges 著《统计学习方法》李航著《统计自然语言处理》宗成庆编著第十二章、文本分类SVM入门系列Jasperhttp://www.blogjava.net/zhenandaci/category/31868.html最近邻决策和SVM数字识别的实现和比较作者不详斯坦福大学机器学习课程原始讲义http://www.cnblogs.com/jerrylead/archive/2012/05/08/2489725.html斯坦福机器学习课程笔记http://www.cnblogs.com/jerrylead/tag/Machine%20Learning/http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html SMO算法的数学推导http://www.cnblogs.com/jerrylead/archive/2011/03/18/1988419.html 数据挖掘掘中所需的概率论与数理统计知识、上关于机器学习方面的文章可以读读http://www.cnblogs.com/vivounicorn/category/289453.html数学系教材推荐http://blog.sina.com.cn/s/blog_5e638d950100dswh.html《神经网络与机器学习(原书第三版)》[加] Simon Haykin 著正态分布的前世今生http://t.cn/zlH3Ygc《数理统计学简史》陈希孺院士著《最优化理论与算法(第2版)》陈宝林编著A Gentle Introduction to Support Vector Machines in Biomedicinehttp://www.nyuinformatics.org/downloads/supplements/SVM_Tutorial_2010/Final_WB.pdf此PPT很赞除了对引入拉格朗日对偶变量后的凸二次规划问题的深入度不够之外其它都挺好配图很精彩本文有几张图便引自此PPT中来自卡内基梅隆大学carnegie mellon university(CMU)的讲解SVM的PPThttp://www.autonlab.org/tutorials/svm15.pdf发明libsvm的台湾林智仁教授06年的机器学习讲义SVMhttp://wenku.baidu.com/link?urlPWTGMYNb4HGUrUQUZwTH2B4r8pIMgLMiWIK1ymVORrds_11VOkHwp-JWab7IALDiors64JW_6mD93dtuWHwFWxsAk6p0rzchR8Qh5_4jWHChttp://staff.ustc.edu.cn/~ketang/PPT/PRLec5.pdf Introduction to Support Vector Machines (SVM)By Debprakash Patnai M.E (SSA)https://www.google.com.hk/url?satrctjqesrcssourcewebcd1ved0CCwQFjAAurlhttp%3a%2f%2fwww%2epws%2estu%2eedu%2etw%2fccfang%2findex%2efiles%2fAI%2fAI%26ML-Support%2520Vector%2520Machine-1%2eppteiJRR6UqT5C-iyiQfWyIDgCgusgAFQjCNGw1fTbpH4ltQjjmx1d25ZqbCN9nA 多人推荐过的libsvmhttp://www.csie.ntu.edu.tw/~cjlin/libsvm/《machine learning in action》中文版为《机器学习实战》 SMO算法的提出Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machineshttp://research.microsoft.com/en-us/um/people/jplatt/smoTR.pdf《统计学习理论的本质》[美] Vladimir N. Vapnik著非常晦涩不做过多推荐张兆翔机器学习第五讲之支持向量机http://irip.buaa.edu.cn/~zxzhang/courses/MachineLearning/5.pdf VC维的理论解释http://www.svms.org/vc-dimension/中文VC维解释http://xiaoxia001.iteye.com/blog/1163338来自NEC Labs America的Jason Weston关于SVM的讲义http://www.cs.columbia.edu/~kathy/cs4701/documents/jason_svm_tutorial.pdf 来自MIT的SVM讲义http://www.mit.edu/~9.520/spring11/slides/class06-svm.pdfPAC问题http://www.cs.huji.ac.il/~shashua/papers/class11-PAC2.pdf百度张潼老师的两篇论文《Statistical behavior and consistency of classification methods based on convex risk minimization》http://home.olemiss.edu/~xdang/676/Consistency_of_Classification_Convex_Risk_Minimization.pdf《Statistical analysis of some multi-category large margin classification methods》http://jacoxu.com/?p39 《矩阵分析与应用》清华张贤达著SMO算法的实现http://blog.csdn.net/techq/article/details/6171688常见面试之机器学习算法思想简单梳理http://www.cnblogs.com/tornadomeet/p/3395593.html矩阵的wikipedia页面http://zh.wikipedia.org/wiki/%E7%9F%A9%E9%98%B5最小二乘法及其实现http://blog.csdn.net/qll125596718/article/details/8248249 统计学习方法概论http://blog.csdn.net/qll125596718/article/details/8351337http://www.csdn.net/article/2012-12-28/2813275-Support-Vector-Machine A Tutorial on Support Vector Regressionhttp://alex.smola.org/papers/2003/SmoSch03b.pdfSVR简明版http://www.cmlab.csie.ntu.edu.tw/~cyy/learning/tutorials/SVR.pdf。SVM Orghttp://www.support-vector-machines.org/R. Collobert. Large Scale Machine Learning. Université Paris VI phd thesis. 2004http://ronan.collobert.com/pub/matos/2004_phdthesis_lip6.pdf Making Large-Scale SVM Learning Practicalhttp://www.cs.cornell.edu/people/tj/publications/joachims_99a.pdf 文本分类与SVMhttp://blog.csdn.net/zhzhl202/article/details/8197109 Working Set Selection Using Second Order Information for Training Support Vector Machineshttp://www.csie.ntu.edu.tw/~cjlin/papers/quadworkset.pdf SVM Optimization: Inverse Dependence on Training Set Sizehttp://icml2008.cs.helsinki.fi/papers/266.pdfLarge-Scale Support Vector Machines: Algorithms and Theoryhttp://cseweb.ucsd.edu/~akmenon/ResearchExam.pdf 凸优化的概念http://cs229.stanford.edu/section/cs229-cvxopt.pdf《凸优化》作者: Stephen Boyd / Lieven Vandenberghe原作名: Convex OptimizationLarge-scale Non-linear Classification: Algorithms and EvaluationsZhuang Wang讲了很多SVM算法的新进展http://ijcai13.org/files/tutorial_slides/te2.pdf基于SMO算法实现SVMhttp://www.cs.iastate.edu/~honavar/smo-svm.pdf。后记 OK此文从最初2012年5月开始动笔到后续不断的修改创造了三个之最即所写时间最长所花心血最大所改次数最多因为我的目标是让没有任何机器学习基础的都能看懂此文所以总是不停的改不停的改不想放过任何一个小的细节。再者引用侯捷的一句话是天下大作必作于细。最后非常感谢pluskid及诸多朋友们的文章及著作让我有机会在其基础上总结、深入。有任何问题敬请广大读者随时不吝批评指正感谢。updated、本文PDF版13年11月25日用chrome浏览器打开文章右键打印弹出打印框把左上角的目标更改为“另存为PDF”成第一个PDFhttp://vdisk.weibo.com/s/zrFL6OXKghu5V。13年12月7日朋友吴新隆用“印象笔记”提取出博客正文放到office内编辑成此PDFhttp://vdisk.weibo.com/s/zrFL6OXKgQHm8较上一版本添加了完整的书签。14年 2月18日朋友邬书哲用Latex全部重排了本文所有公式而且给所有公式和图片全部做了标记Latex版PDF下载地址为http://vdisk.weibo.com/s/zrFL6OXKgnlcp。本文会一直不断翻新再者上述3个PDF的阅读体验也还不是最好的如果有朋友制作了更好的PDF欢迎分享给我http://weibo.com/julyweibo谢谢。 July、二零一四年二月十一日于天通苑。

查看全文

http://www.yutouwan.com/news/487400/