后台网站模板html,教育机构logo,wordpress火吗,德国室内设计联盟小夕曾经问一位做机器学习理论的学姐#xff1a;“学姐学姐#xff0c;EM算法是什么呢#xff1f;”学姐回答#xff1a;“EM算法啊#xff0c;就是解决包含隐变量的参数估计问题。”小夕#xff1a;然后小夕去问一位做工程的学长#xff1a;“学长学长#xff0c;EM算… 小夕曾经问一位做机器学习理论的学姐“学姐学姐EM算法是什么呢” 学姐回答“EM算法啊就是解决包含隐变量的参数估计问题。” 小夕 然后小夕去问一位做工程的学长“学长学长EM算法是什么呢” 学长回答“EM算法就那样啊就是先用有标签的样本训练个分类器再给未知标签的样本贴标签然后再拿全部样本再训练分类器就这样来回倒腾~” 小夕 于是小夕自己一个人看了一整天的EM算法QAQ前言首先说其实学长和学姐说的都很对。但是对于一个路人来说很难将学长与学姐的说法联系到同一个东西上。而最终小夕总结出来的就是做工程的学长的回答其实是做理论的学姐的回答下的一个简化的特例。 首先我们来看一下理论上的期望最大化算法也就是EM算法不要想了对于这个算法小夕打死也绕不开数学公式了所以有公式恐惧症的同学请自行用手指盖住它们... 另外严正声明一下对于没有微积分与概率统计基础的同学请直接等下一篇中得出的结论非要看这一篇的话请时刻保持理智请时刻保持理智请时刻保持理智。理论家眼中的EM 开门见山EM算法的目标是使包含隐变量的数据集的后验概率或似然函数最大化进而得到最优的参数估计。 我们知道通过贝叶斯公式可以发现后验概率中包含了似然函数和先验概率忽略分母的那个evidence项因此求最大后验概率的过程中包含了求极大似然估计的过程。因此虽然EM算法的目标是最大化后验概率或似然函数而本质上就可以认为是最大化似然函数。因此下面我们直接讨论最大化似然函数。 似然函数设为l(θ)描述样本可以用多维随机变量对应于机器学习的多维特征每一维的随机变量都可以认为服从某种概率分布。因此要描述每一维的样本情况我们只需要估计出这一维度的概率分布模型的参数就可以啦。而将所有维度的分布模型的参数放在一起就是似然函数的参数即θ。因此根据定义 即似然函数代表着该包含m个样本的样本集存在的合理性似然函数值越大该样本集的存在就越合理即意味着参数取的越正确描述每个样本的多维随机变量的分布模型的参数即上面的θp(x; θ)代表着固定θ的值求p(x)的概率。 第二行的z则代表隐变量确切的说是隐含的随机变量。哈看不懂第二步怎么来的请回去复习微积分...算了小夕太过善良还是讲讲吧。 显然这里似然函数讨论的是离散情况毕竟都是∑符号而不是∫符号呀因此在p(x; θ)中加上z这个随机变量后只能将这个随机变量积分掉才能保证加上z以后的式子依然等于p(x;θ)当然z是离散的所以积分掉的意思是“求和”掉。回顾一下对于任何一个连续随机变量x∫p(x)dx1对于任何一个离散随机变量x∑p(x)1 好懂了第二步在继续往下推之前想一想我们可不可以直接计算第二步呢当然不行啦不仅有θ还有隐变量啊。因此继续往下推。 诶又出来个Qi。这个Qi是什么呢这个Qi是隐变量z的概率分布函数啦。为什么要加上它呢再好好观察一下最后这一步中的这一部分 有没有发现什么对这就是数学期望呀~别说数学期望都忘了啊小夕还是再啰嗦一下吧...对于某离散随机变量X来说其数学期望看吧~加上Qi这个概率分布函数后是不是就出来了一个数学期望啦但好像还是不能计算懂数值计算的读者应该知道log(∑…)的计算量是十分恐怖的而且我们还被我们加上了一个不知道怎么计算的Qi因此要继续变怎么变呢Jensen不等式来啦 直接抠了个定义看不懂没关系 通过这个Jensen不等式我们发现可以进一步往下推了。 诶虽然是往下推了一步但是我们必须要让等号恒成立才行啊否则这个推理是不成立的呀。。。那么怎么让等号恒成立呢 根据Jensen不等式的等号成立条件E[f(X)]≥f(E[X])中的随机变量X必须恒等于常数也就是说 ≡cc为常数 于是重点来了将分母的Qi移到右边将右边的c移到左边我们发现好再利用概率分布函数的基本性质发现我们可以继续这样推 推到最后竟然是这个这个不就是每个样本的隐变量z的后验概率吗也就是说我们只要求出来了每个样本的隐变量的每个取值的后验概率就能得到这个样本的Qi就能让Jensen不等式的等号成立就能让log(∑…)的不可计算成功变成可计算就能计算我们的目标——似然函数啦 所以咳咳总之我们首先固定一个θ也就是随便给θ取个初始值然后我们计算出隐变量z的取值的后验概率就能让这个包含隐变量的似然函数变成传统意义上的似然函数~也就是只考虑参数θ的似然函数~这个过程称为E步 而最大化传统意义上的似然函数就不用啰嗦啦~那就用传统的方法最大化呀~最大化了以后就得到了当前的最优θ。这个过程称为M步 而得到了当前的最优θ以后我们又可以重新计算出隐变量z的取值的后验概率就能……~~~总之就又可以E步然后又M步然后又E又M…… 就这样一直重复一直重复直到似然函数的值不再变化此时每个样本的Qi就是每个样本的标签~而此时的θ就是最终那个最优的θ啦~ 至此理论上的EM算法完成了最终得到的就是我们要估计的最优参数θ顺便得到了每个样本的隐变量的取值。那么工程上看似是跟分类器打交道小夕则说其实是理论的特例又是怎么回事呢敬请期待《机器学习系列-强填EM算法在理论与工程之间的鸿沟下》待小夕华丽丽的填上理论与工程的鸿沟。下一篇没有这一篇这么恐怖2333虽然您可能没有看懂但是看在生敲公式后发现微信编辑器不识别然后又一个个截图的份上_(:з」∠)_