福建住房城乡建设部网站,耒阳网站开发,wordpress直播播放器,汕头市住房和城乡建设局PRML第二章上-概率估计2.1二元变量2.1.1 beta 分布2.2 多项式变量2.3 高斯分布2.3.1条件高斯分布、2.3.2边缘高斯分布2.3.3 高斯变量的贝叶斯定理2.3.4 高斯分布的最大似然估计2.3.5 顺序估计2.3.6 高斯分布的贝叶斯推断2.3.7 学生t分布2.3.8周期性变量2.3.9混合高斯分布2.4 指…
PRML第二章上-概率估计2.1二元变量2.1.1 beta 分布2.2 多项式变量2.3 高斯分布2.3.1条件高斯分布、2.3.2边缘高斯分布2.3.3 高斯变量的贝叶斯定理2.3.4 高斯分布的最大似然估计2.3.5 顺序估计2.3.6 高斯分布的贝叶斯推断2.3.7 学生t分布2.3.8周期性变量2.3.9混合高斯分布2.4 指数族分布简单的模型中讨论一些关键的统计学概念–贝叶斯推断
本章讨论概率分布是为了实现密度估计给定有限次观测x1,...,xN\bm{x}_1,...,\bm{x}_Nx1,...,xN,对随机变量x\bm{x}x的概率分布p(x)p(\bm{x})p(x)建模。
密度估计本来是病态的因为产生观测数据集合的概率分布可能有无限种。
本章主要内容 1.参数分布拥有少量可以调节的参数控制了整个分布。密度估计就是确定参数的过程–离散随机变量的二项分布、多项式分布、连续随机变量的高斯分布
2.共轭性质后验概率分布与先验概率分布有相同的函数形式主要实现方式选取和似然函数结构一致的先验先验需要与似然相乘才会变成后验只要与似然形式相同后验似然和先验三者的形式都是相同的
3.非参数分布直方图最近邻核函数
2.1二元变量
二元随机变量取值只有01 扔硬币的demo损坏的硬币正反面出现的概率不相同。x1,出现正面向上的概率为μ\muμ出现反面向上的概率则为1−μ1-\mu1−μ这个分布为伯努利分布对应的概率密度函数为 Bern(x∣μ)μx(1−μ)(1−x)Bern(x|\mu) \mu^x(1-\mu)^(1-x)Bern(x∣μ)μx(1−μ)(1−x)
假定拥有xxx的观测数据集D{x1,...,xN}\mathcal{D}\{x_1,...,x_N\}D{x1,...,xN}。构造关于μ\muμ的似然函数 p(D∣μ)∏n1Nμxn(1−μ)1−xnp(\mathcal{D|\mu})\prod_{n1}^N\mu^{x_n}(1-\mu)^{1-x_n}p(D∣μ)n1∏Nμxn(1−μ)1−xn
频率学家最大对数似然求解μ\muμ lnp(D∣μ)∑n1N{xnlnμ(1−xn)ln(1−μ)}\ln p(\mathcal{D|\mu})\sum_{n1}^N\{x_n\ln\mu (1-x_n)\ln(1-\mu)\}lnp(D∣μ)n1∑N{xnlnμ(1−xn)ln(1−μ)}
对μ\muμ求导令导数为0得到关于μ\muμ的最大似然估计 μML1N∑n1Nxn\mu_{ML}\frac{1}{N}\sum_{n1}^Nx_nμMLN1n1∑Nxn
最大似然的结果表明μ\muμ的大小依赖于观测数据集中正面朝上的概率当观测样本数量较少时容易出现极端概率现象。后续会看到引入μ\muμ的先验会得到一个更合理的结论
二项分布在二元变量的基础上观测数据集的规模为N求x1出现m次的概率分布。 Bin(m∣N,μ)CNmμm(1−μ)(N−m)Bin(m|N,\mu)C^m_N\mu^m(1-\mu)^(N-m)Bin(m∣N,μ)CNmμm(1−μ)(N−m)
其中的组合数为 CNmN!(N−m)!m!C^m_N\frac{N!}{(N-m)!m!}CNm(N−m)!m!N!
独立事件加和事件的均值单独事件均值的家和加和事件的方差单独事件方差的加和 2.1.1 beta 分布
为了使用贝叶斯的观点看二项式分布中μ\muμ问题的求解需要引入一个与似然形式一致的先验–beta分布 beta(μ∣a,b)Γ(ab)Γ(a)(b)μa−1(1−μ)b−1beta(\mu|a,b)\frac{\Gamma(ab)}{\Gamma(a)(b)}\mu^{a-1}(1-\mu)^{b-1}beta(μ∣a,b)Γ(a)(b)Γ(ab)μa−1(1−μ)b−1
其中gamma分布为:就很抽象呀 Γ(x)∫0∞ux−1e−udu(1.141)\Gamma(x)\int_0^\infty u^{x-1}e^{-u}du\tag{1.141}Γ(x)∫0∞ux−1e−udu(1.141)
用贝叶斯观点作下一次预测核心如何利用前面的公式计算对应的值并解释和最大似然估计的差别 p(x1∣D)∫01p(x1∣μ)p(μ∣D)dμ∫01μp(μ∣D)dμE[μ∣D]p(x1|D)\int_0^1p(x1|\mu)p(\mu|D)d\mu\int_0^1\mu p(\mu|D)d\mu\mathbb{E}[\mu|D]p(x1∣D)∫01p(x1∣μ)p(μ∣D)dμ∫01μp(μ∣D)dμE[μ∣D]
一个非贝叶斯学习公有属性随着观测数据越多后验概率表示的不确定性必然会持续下降。平均意义下在某个特定的观测数据集后可能后验方差大于先验方法 2.2 多项式变量
一个量的可能取值有K种用一个K维向量来表示这个量。one-hot 编码表示方式其中仅有一个元素xk1x_k1xk1其余元素都为0。 ∑k1Kxk1\sum_{k1}^Kx_k1k1∑Kxk1
用μk\mu_kμk表示维度xkx_kxk为1的概率那么该量x\bm{x}x出现的概率为 p(x∣μ)∏k1Kμkp(\bm{x}|\bm{\mu})\prod_{k1}^K\mu_kp(x∣μ)k1∏Kμk
μk\mu_kμk满足归一化约束∑k1Kμk1\sum_{k1}^K\mu_k1∑k1Kμk1
考虑N个独立的观测值x1,x2,...xN\bm{x}_1,\bm{x}_2,...\bm{x}_Nx1,x2,...xN组成的数据集D\mathcal{D}D 该数据集出现的似然函数为 p(D∣μ)∏i1N∏k1Kμkxki∏k1Kμk∑i1Nxki∏k1Nμkmk(2.29)p(D|\bm{\mu})\prod_{i1}^N\prod_{k1}^K\mu_k^{x^i_k}\prod_{k1}^K\mu_k^{\sum_{i1}^Nx_k^i}\prod_{k1}^N\mu_k^{m_k}\tag{2.29}p(D∣μ)i1∏Nk1∏Kμkxkik1∏Kμk∑i1Nxkik1∏Nμkmk(2.29) 其中mkm_kmk为所有样本第k维出现1的次数通过最大化带μk\mu_kμk归一化约束的对数似然函数可求得μk\mu_kμk的最大似然估计为–N次观测种k维出现1的频率值: μkMLmkN\mu_k^{ML}\frac{m_k}{N}μkMLNmk
**多项式分布**考虑m1,m2,...,mkm_1,m_2,...,m_km1,m2,...,mk的概率 Mult(m1,m2,...,mk)N!m1!m2!...mk!∏k1KμkmkMult(m_1,m_2,...,m_k)\frac{N!}{m_1!m_2!...m_k!}\prod_{k1}^K\mu_k^{m_k}Mult(m1,m2,...,mk)m1!m2!...mk!N!k1∏Kμkmk
N!m1!m2!...mk!\frac{N!}{m_1!m_2!...m_k!}m1!m2!...mk!N!为将N个物体划分为m1,m2,...,mkm_1,m_2,...,m_km1,m2,...,mk组数据方案总数。
**狄利克雷分布**多项式分布的共轭先验 Dir(μ∣α)Γ(α0)Γ(α1)Γ(α2)Γ(αK)∏k1Kμkαk−1(2.38)Dir(\bm{\mu}|\bm{\alpha})\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\Gamma(\alpha_K)}\prod_{k1}^K\mu_k^{\alpha_k-1}\tag{2.38}Dir(μ∣α)Γ(α1)Γ(α2)Γ(αK)Γ(α0)k1∏Kμkαk−1(2.38)
贝叶斯上场数据集似然(2.29)乘以参数先验得到参数μ\bm{\mu}μ的后验与狄利克雷分布具有相同的形式狄利克雷分布种的αk\alpha_kαk可以看作k维度出现1次数的先验信息然后通过数据集矫正该先验信息。
2.3 高斯分布
高斯分布产生1-使熵最大的分布通过拉格朗日乘子法求出来的分布就是高斯分布 高斯分布产生2-一组随机变量的和 构成的随机变量在 求和变量数量增多时和随机变量会趋向于高斯分布拉普拉斯提出的中心极限定理
主要考察DDD维高斯分布其通过一下的二次型与x\bm{x}x产生联系 Δ2(x−μ)TΣ−1(x−μ)\Delta^2(\bm{x}-\bm{\mu})^T\Sigma^{-1}(\bm{x}-\bm{\mu})Δ2(x−μ)TΣ−1(x−μ)
通过考虑协方差矩阵的特征向量将二次型变成了椭球二次型(椭球面上为一个常量) Δ2∑i1Dyi2λi\Delta^2\sum_{i1}^D\frac{y_i^2}{\lambda_i}Δ2i1∑Dλiyi2
yiy_iyi实际为xix_ixi经过平移旋转后的新坐标
如果再计算协方差矩阵行列式的平方根 ∣Σ∣12∏j1Dλj12|\Sigma|^{\frac{1}{2}}\prod_{j1}^D\lambda_j^{\frac{1}{2}}∣Σ∣21j1∏Dλj21
那么高斯分布在y\bm{y}y变量表示下就会变成D个高斯分布乘积。特征向量因此定义了一个新的旋转、平移的坐标系。在这个坐标系下联合概率分布可以分解成独立概率分布的乘积。
计算高斯分布的一阶矩(期望)二阶矩协方差。
高斯分布局限1–协方差矩阵关系到高斯模型参数的数量和对应的等概率面形状
对称矩阵-坐标轴不对齐椭球对角矩阵-坐标轴对齐椭球正比于单位阵的矩阵-坐标轴对齐球
高斯分布局限2: 单峰不能近似多峰分布
解决思路–引入隐变量变成混合高斯模型
2.3.1条件高斯分布、2.3.2边缘高斯分布
多元高斯分布的一个重要性质如果两组变量的联合分布是高斯分布那么以一组变量为条件另一组变量同样是高斯分布。一组变量的边缘分布还是高斯分布
令xa\bm{x}_axa为]x]\bm{x}]x的前M个分量令xb\bm{x}_bxb为剩余的D-M个分量对应随机变量均值向量协方差矩阵精度矩阵的划分分别为 x[xaxb]\bm{x} \left[ \begin{array}{ccc} \bm{x}_a \\ \bm{x}_b \\ \end{array} \right] x[xaxb]
μ[μaμb]\bm{\mu} \left[ \begin{array}{ccc} \bm{\mu}_a \\ \bm{\mu}_b \\ \end{array} \right] μ[μaμb]
Σ[ΣaaΣabΣbaΣbb]\bm{\Sigma} \left[ \begin{array}{ccc} \bm{\Sigma}_{aa} \bm{\Sigma}_{ab} \\ \bm{\Sigma}_{ba} \bm{\Sigma}_{bb} \\ \end{array} \right] Σ[ΣaaΣbaΣabΣbb]
Λ[ΛaaΛabΛbaΛbb]\bm{\Lambda} \left[ \begin{array}{ccc} \bm{\Lambda}_{aa} \bm{\Lambda}_{ab} \\ \bm{\Lambda}_{ba} \bm{\Lambda}_{bb} \\ \end{array} \right] Λ[ΛaaΛbaΛabΛbb] Σ\SigmaΣ与Λ\LambdaΛ之间的关系通过分块矩阵的逆矩阵恒等式产生联系。
主要依据二次型来寻找高斯分布的协方差矩阵和均值矩阵。
条件高斯分布使用精度矩阵来表示方便 p(xa∣xb)N(xa∣μa∣b,Λaa−1)(2.96)p(\bm{x}_a|\bm{x}_b)\mathcal{N}(\bm{x}_a|\bm{\mu}_{a|b},\bm{\Lambda^{-1}_{aa}})\tag{2.96}p(xa∣xb)N(xa∣μa∣b,Λaa−1)(2.96)
边缘高斯分布使用协方差矩阵表示方便 p(xa)N(xa∣μa,Σaa)(2.98)p(\bm{x}_a)\mathcal{N}(\bm{x}_a|\bm{\mu}_a,\bm{\Sigma}_{aa})\tag{2.98}p(xa)N(xa∣μa,Σaa)(2.98) 2.3.3 高斯变量的贝叶斯定理
给定一个边缘高斯分布p(x)p(\bm{x})p(x)和条件高斯分布p(y∣x)p(\bm{y}|\bm{x})p(y∣x)求另一边缘高斯分布p(y)p(\bm{y})p(y)和条件高斯分布p(x∣y)p(\bm{x}|\bm{y})p(x∣y)。
重要特点p(y∣x)p(\bm{y}|\bm{x})p(y∣x) 的均值为x\bm{x}x线性函数协方差与x\bm{x}x无关。
利用贝叶斯定理p(z)p(x)∗p(y∣x)p(z)p(\bm{x})*p(\bm{y}|\bm{x})p(z)p(x)∗p(y∣x)寻找二次型中与zzz相关项求出对应的协方差和均值矩阵。 E(z)[μAμb]\mathbb{E}(z) \left[ \begin{array}{ccc} \bm{\mu} \\ \bm{A\mu}\bm{b} \\ \end{array} \right] E(z)[μAμb]
Λ[Λ−1Λ−1ATAΛ−1L−1AΛ−1AT]\bm{\Lambda} \left[ \begin{array}{ccc} \bm{\Lambda}^{-1} \bm{\Lambda}^{-1}\bm{A}^T \\ \bm{\bm{A}\Lambda}_{-1} \bm{L}^{-1} \bm{A}\bm{\Lambda}^{-1}\bm{A}^{T} \\ \end{array} \right] Λ[Λ−1AΛ−1Λ−1ATL−1AΛ−1AT] 依据多元高斯变量中一组随机变量边缘分布依旧是高斯分布以及均值和方差的关系式(2.98)式可得 E(y)Aμb\mathbb{E}(\bm{y})\bm{A\mu}\bm{b}E(y)Aμb
cov[y]L−1AΛ−1ATcov[\bm{y}]\bm{L}^{-1} \bm{A}\bm{\Lambda}^{-1}\bm{A}^{T}cov[y]L−1AΛ−1AT
依据贝叶斯定理能够求出条件高斯分布(联合分布p(x,y)除以边缘分布p(y)) p(x∣y)N(x∣Σ{ATL(y−b)Λμ},Σ)p(\bm{x}|\bm{y})\mathcal{N}(\bm{x}|\mathcal{\Sigma}\{\bm{A}^T\bm{L}(\bm{y}-\bm{b})\Lambda\mu \},\bm{\Sigma})p(x∣y)N(x∣Σ{ATL(y−b)Λμ},Σ)
2.3.4 高斯分布的最大似然估计
这一节主要讲多元高斯分布均值和协方差矩阵的最大似似然估计均值是无偏估计协方差矩阵估计是有偏估计会小于实际值 μML1N∑n1Nxn\bm{\mu}_{ML}\frac{1}{N}\sum_{n1}^N\bm{x}_nμMLN1n1∑Nxn
ΣML1N∑n1N(xn−μML)(xn−μML)T\bm{\Sigma}_{ML}\frac{1}{N}\sum_{n1}^N(\bm{x}_n-\bm{\mu}_{ML})(\bm{x}_n-\bm{\mu}_{ML})^TΣMLN1n1∑N(xn−μML)(xn−μML)T
2.3.5 顺序估计
最大似然的顺序估计允许每次处理一个数据点然后丢弃这个点。对于在线学习具有十分重要的意义。
最大似然均值估计探索μML(N)\bm{\mu}_{ML}^{(N)}μML(N)与μML(N−1)\bm{\mu}_{ML}^{(N-1)}μML(N−1)以及xN\bm{x}_NxN的关系 μML(N)1N∑n1NxnμML(N−1)1N(xN−μMLN−1)(2.126)\bm{\mu}_{ML}^{(N)}\frac{1}{N}\sum_{n1}^N\bm{x}_n\\ \bm{\mu}_{ML}^{(N-1)}\frac{1}{N}(\bm{x}_N-\bm{\mu}_{ML}^{N-1})\tag{2.126} μML(N)N1n1∑NxnμML(N−1)N1(xN−μMLN−1)(2.126)
引出更一般的顺序算法Robbins-Monro算法一对随机变量z和θ\thetaθ当θ\thetaθ已知时z的条件期望定义了一个确定的函数f(θ)f(\theta)f(θ)。目标是寻找使f(θ)0f(\theta)0f(θ)0的根值θ∗\theta^*θ∗为啥目标是这个
假定每次观测到一个z值如何使用顺序估计的方法来将θ\thetaθ估计出来呢 Robbins-Monro顺序估计序列 θNθN−1−αN−1z(θ)\theta^{N}\theta^{N-1}-\alpha_{N-1}z(\theta)θNθN−1−αN−1z(θ)
实际应用中最大似然估计求解过程中最大似然解其实是负对数似然函数的的驻点。套用公式最后能够得到式(2.126)一样的结果。 2.3.6 高斯分布的贝叶斯推断
高斯分布的均值和方差是一个分布这个分布通过选择合适的先验信息可以构成成高斯分布该高斯分布的均值由先验均值和最大似然估计给出方差由先验精度和最大似然精度加和给出。
2.3.7 学生t分布
高斯分布和精度的伽马分布相乘对精度进行积分通过变量代换后得到学生t 分布。
学生t分布又一个重要的性质鲁棒性使用t分布对数据建模时对数据集里的离群点不敏感。高斯分布就比较敏感。表现为多几个离群点分布就严重变形
2.3.8周期性变量
使用正常的高斯分布建模并不合适周期性变量θ\thetaθ其概率密度函数要满足一下三个条件。 p(θ)≥0p(\theta)\geq0p(θ)≥0
∫02πp(θ)dθ1\int_0^{2\pi}p(\theta)d\theta1∫02πp(θ)dθ1
p(θ2π)p(θ)p(\theta 2\pi) p(\theta)p(θ2π)p(θ)
二元高斯变量当协方差矩阵为单位阵时通过概率密度为确定数的轮廓线是圆形。通过构造可以得到想要的高斯分布(具体构造过程过) 2.3.9混合高斯分布
K个高斯密度的叠加: p(x)∑k1KπkN(x∣μk,Σk)p(\bm{x})\sum_{k1}^K\pi_k\mathcal{N}(\bm{x}|\bm{\mu}_k,\bm{\Sigma}_k)p(x)k1∑KπkN(x∣μk,Σk)
依据概率密度归一化要求∑k1Kπk1\sum_{k1}^K\pi_k1∑k1Kπk1,0≤πk≤10\le\pi_k\le10≤πk≤1。
πk\pi_kπk可以看作选择第k个成分的先验概率。
混合高斯模型由于似然函数取对数操作中存在求和式子所以参数的最大似然估计不再有闭式解。两种最大化混合高斯分布似然函数的方法1.迭代数值优化方法2.期望最大法。
2.4 指数族分布
伯努利分布多项式分布高斯分布都是指数族分布 指数族分布 p(x∣μ)h(x)g(η)exp{ηTu(x)}p(\bm{x}|\bm{\mu})h(\bm{x})g(\bm{\eta})exp\{\eta^Tu(\bm{x})\}p(x∣μ)h(x)g(η)exp{ηTu(x)} 其中η\bm{\eta}η为变量x\bm{x}x的参数被称作概率分布的自然参数 g(η)g(\bm{\eta})g(η)可以被看成系数确保概率是归一化的 。
通过变化能够找到伯努利分布、多项式分布、高斯分布中h(x)h(\bm{x})h(x), g(η)g(\bm{\eta})g(η),u(x)u(\bm{x})u(x)的具体表现形式。
其中推到的过程中推出了logistic sigmoid 函数和softmax 函数还是蛮意外的。 2.4.1-最大似然估计与充分统计量 2.4.2-共轭先验 2.4.3-无信息先验 在某些情况下我们可能对分布应该具有的形式几乎完全不知道这时我们可以寻找一种形式先验分布其目的是尽可能对后验分布产生较小的影响。–无信息先验
例如将先验分布p(λ)常数p(\lambda)常数p(λ)常数设置为一个常数