cms管理手机网站模板,济南网站建设公司送400,做网站的成本费用,上海网站设计与制作文章目录目录1.概率与统计1.1 机器学习与概率统计之间的关系1.2 重要的统计量1.2.1 期望1.2.2 方差1.2.3 协方差#xff0c;相关系数协方差相关系数1.2.4 矩1.3 重要的定理与不等式1.4 用样本估计参数目录
1.概率与统计
1.1 机器学习与概率统计之间的关系
1.什么是概率问题…
文章目录目录1.概率与统计1.1 机器学习与概率统计之间的关系1.2 重要的统计量1.2.1 期望1.2.2 方差1.2.3 协方差相关系数协方差相关系数1.2.4 矩1.3 重要的定理与不等式1.4 用样本估计参数目录
1.概率与统计
1.1 机器学习与概率统计之间的关系
1.什么是概率问题和统计问题
概率问题已知数据的整体分布然后求取抽样数据的概率。统计问题是概率问题的逆过程即已知抽样数据的概率求数据的整体分布。
2.监督学习----概率统计
训练过程统计的过程预测过程概率的过程
3.机器学习与概率统计的关系
统计估计的是一个分布机器学习训练出来的是一个模型模型可以包含多个分布。训练和预测的核心评价指标是模型的误差误差本身可以为概率的形式对误差的不同定义方式可以转换为对不同损失函数的定义。机器学习是概率与统计的进阶版本不严谨的说法
1.2 重要的统计量
1.2.1 期望
1.离散型E(x) ∑ixipi\sum_{i}x_ip_i∑ixipi 2.连续型E(x) ∫−xf(x)dx\int _-^xf(x)d_x∫−xf(x)dx 期望可以理解为数据加权下的平均值 3.性质
无条件成立E(kx) kE(x) E(x y) E(x) E(y)如果x,y为相互独立E(XY) E(X) E(Y) 独立P(AB) P(A)*P(B) 互斥P(AB) 0 P(AB) P(A) P(B) 若E(XY) E(X)E(Y)只能说明X和Y不相关。
1.2.2 方差
1.定义 var(x) E(x−E(x))2E(x2)−E2(x)E{(x - E(x))^2}E(x^2)-E^2(x)E(x−E(x))2E(x2)−E2(x)
2.性质
无条件成立 var(c)0var(c) 0var(c)0var(xc)var(c)var(xc) var(c)var(xc)var(c)var(kx)k2var(x)var(kx) k^2var(x)var(kx)k2var(x) 当x和y相互独立的时候 var(xy)var(x)var(y)var(xy) var(x) var(y)var(xy)var(x)var(y)
方差的平方根称为标准差 方差可以理解为整体数据偏移平均值的一个程度。 1.2.3 协方差相关系数
协方差
1.定义 cov(x,y) E{[x-E(x)]*[y-E(y)]} 从定义可以看出协方差是从方差定义扩张而来的方差只针对的单变量而协方差则考量的是2个变量之间的关系。 x和y如果是离散的变量则x和y的维度必须相等。
2.性质
无条件成立 cov(x,y)cov(y,x)对称性cov(x,y) cov(y,x) 对称性cov(x,y)cov(y,x)对称性cov(axb,cyd)accov(x,y)cov(axb , cyd) accov(x,y)cov(axb,cyd)accov(x,y)cov(x1x2,y)cov(x1,y)cov(x2,y)cov(x_1x_2,y) cov(x_1,y) cov(x_2,y)cov(x1x2,y)cov(x1,y)cov(x2,y)cov(x,y)E(xy)−E(x)∗E(y)cov(x,y) E(xy) - E(x)*E(y)cov(x,y)E(xy)−E(x)∗E(y) 当x,y相互独立的时候cov(x,y)0
cov(x,y)0 只能得出变量x,y是不相关无法得出独立的结论
3.意义 协方差可以度量两个变量具在相同方向上的变化趋势。
如果cov(x,y) 0: x,y的变化趋势相同如果cov(x,y) 0: x,y的变化趋势相反如果cov(x,y) 0: x,y不相关 可以使用协方差来衡量特征和特征特征和标签之间的相关性即可以基于协方差来进行特征的筛选。 协方差只能用于衡量2个变量之间的相关性衡量多个变量之间的相关性需要协方差矩阵。 4.协方差的上界 如果var(x)θ12var(x) \theta_1^2var(x)θ12 var(y)θ22var(y) \theta_2^2var(y)θ22 则|cov(x,y) ≤θ1∗θ2\le\theta_1*\theta_2≤θ1∗θ2|
5.协方差矩阵 对于n个随机变量{x1,x2,....,xnx_1,x_2,....,x_nx1,x2,....,xn},任意两个元素xi,xjx_i , x_jxi,xj都可以得到一个协方差从而形成一个n*n的矩阵其中协方差矩阵是对称阵。
相关系数
1.peason相关系数
定义Px,ycov(x,y)/(var(x)∗var(y))P_{x,y}cov(x,y)/\sqrt(var(x)*var(y))Px,ycov(x,y)/(var(x)∗var(y))性质 由协方差的上界可知|P|$\le$1当且仅当x,y线性相关时等号成立相关系数是标准尺度下的协方差。上面关于协方差的性质也适用于相关系数。相关系数取值在0,1之间越接近1则说明两变量的相关性越大越接近0则说明相关性越低。线性相关。
2.相关系数矩阵可画出热图 对多个变量两两之间求取相关系数并组成矩阵则为相关系数矩阵
相关系数矩阵可以发现特征之间的相关性协方差矩阵归一化后便可以得到相关系数矩阵实际中使用较多的是相关系数矩阵而非协方差矩阵因为协方差矩阵取值范围较大表现不明显使用相关系数矩阵的目的是为了进行特征的选择。负相关也是相关。当两个特征向量之间的相关系数为1则可以去除其中的某一个。
3.独立和不相关
一般指的不相关指的是线性独立如果x,y不相关则x,y没有线性关系但是可以有其他函数关系。
1.2.4 矩
1.定义对于随机变量XX的K阶原点矩为E(XK)E(X^K)E(XK) X的K阶中心矩为E[X−E(X)]KE[X-E(X)]^KE[X−E(X)]K 从上面给出的矩的定义我们可以看出期望是一阶原点矩 方差是二阶中心距 变异系数标准差和均值的比值为变异系数偏度(skewness):三阶矩峰度kurtosis:四阶矩 1.3 重要的定理与不等式
1.jenson不等式函数f凸函数
基本jenson不等式定义 f(θx(1−θ)y)≤θf(x)(1−θ)f(y)f(\theta x (1-\theta)y)\le\theta f(x) (1-\theta)f(y)f(θx(1−θ)y)≤θf(x)(1−θ)f(y)
2.如果θ1,θ2,...,θk≥0\theta _1,\theta_2,...,\theta_k \ge0θ1,θ2,...,θk≥0 且 θ1θ2...θk1\theta_1\theta_2...\theta_k1θ1θ2...θk1 则f(θ1x1...θkxk)≤θ1f(x1)...θkf(xk)f(\theta_1x_1 ...\theta_kx_k) \le\theta_1f(x_1)...\theta_kf(x_k)f(θ1x1...θkxk)≤θ1f(x1)...θkf(xk)
2.切比雪夫不等式 度量两个变量之间的距离方法有很多但是要满足一些条件。同时也可以度量两个分布之间的距离即度量两个分布之间的相关性这个对于机器学习是非常有用的常常可以作为损失函数。 定义设随机变量X的期望为u ,方差为θ2\theta^2θ2对于任意的正数ξ\xiξ有P(∣X−u∣≤ξ)≤θ2/ξ2P(|X-u|\le\xi)\le\theta^2/\xi^2P(∣X−u∣≤ξ)≤θ2/ξ2意义切比雪夫不等式说明X的方差越小事件(∣X−u∣≤ξ)(|X-u|\le\xi)(∣X−u∣≤ξ)的发生概率越大。该不等式证明了方差的意义。该不等式可以证明大数定理。
3.大数定理
定义设随机变量x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn相互独立并且具有相同的期望u和方差θ2\theta^2θ2取前K个随机变量且该K个随机变量的期望为Yn1/k∑i1kxiY_n 1/k\sum_{i1}^kx_iYn1/k∑i1kxi,则有limn−gt;∝p(∣Yn−u∣lt;ξ)1lim_{n-gt;\propto}p(|Y_n - u| lt; \xi)1limn−∝p(∣Yn−u∣ξ)1意义当样本的数目足够大时样本的期望逼近于整体的期望这是统计方法的基石。 4.中心极限定理定义设随机变量x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn相互独立且服从同一分布具有相同的期望u和方差θ2\theta^2θ2则有Yn∑i1n(xi−n∗u)/((n)∗θ)Y_n\sum_{i1}^n(x_i-n*u)/(\sqrt(n)*\theta)Yn∑i1n(xi−n∗u)/((n)∗θ)意义实际问题中很多随机变量现象可以看成很多独立影响的综合反应且这些独立因素服从正太分布。
1.4 用样本估计参数
1.矩估计
基本思想首先假设整体的满足某个分布其中给分布中有n个未知的参数。然后由样本求出n对中心距和原点矩接着由假设的分布公式求出这n对中心距和原点矩通过等式关系解出这n个参数得出整体的分布。 该方法的计算量比较大在实践过程中用的比较少。常用于两个分布相关性的比较。 2.最大似然估计
贝叶斯公式P(D/A)(P(A/D)∗P(A))/P(D)P(D/A) (P(A/D)*P(A))/P(D)P(D/A)(P(A/D)∗P(A))/P(D)物理意义公式中D为样本数据A为模型参数或者随机事件。则P(D/A)P(D/A)P(D/A)表示A在数据D上的后验概率P(A/D)为A在数据D上的条件概率P(A)为A的先验概率 发生过的概率就是最大的设问题A中的模型有3个m1,m2,m3m_1,m_2,m_3m1,m2,m3抽取的样本数为Kx1,x2,...,xkx_1,x_2,...,x_kx1,x2,...,xk设3个模型的分布为f(m1),f(m2),f(m3)f(m_1),f(m_2),f(m_3)f(m1),f(m2),f(m3)则已将抽取样本的概率为P∑i1kfi(m1)∗fi(m2)∗fi(m3)P\sum_{i1}^kf_i(m_1)*f_i(m_2)*f_i(m_3)P∑i1kfi(m1)∗fi(m2)∗fi(m3)然后求概率P最大时对应的参数既可以求出整体的分布。