网站开发 案例,青岛网络工程优化,哪个网站可以卖自己做的模型,docker查看wordpress转载自 通俗理解条件熵
通俗理解条件熵
前面我们总结了信息熵的概念通俗理解信息熵,这次我们来理解一下条件熵。
1、信息熵以及引出条件熵
我们首先知道信息熵是考虑该随机变量的所有可能取值#xff0c;即所有可能发生事件所带来的信息量的期望。公式如下#xff1a; 我…转载自 通俗理解条件熵
通俗理解条件熵
前面我们总结了信息熵的概念通俗理解信息熵,这次我们来理解一下条件熵。
1、信息熵以及引出条件熵
我们首先知道信息熵是考虑该随机变量的所有可能取值即所有可能发生事件所带来的信息量的期望。公式如下 我们的条件熵的定义是定义为X给定条件下Y的条件概率分布的熵对X的数学期望
这个还是比较抽象下面我们解释一下
设有随机变量X,Y其联合概率分布为 条件熵HY|X表示在已知随机变量X的条件下随机变量Y的不确定性。
随机变量X给定的条件下随机变量Y的条件熵H(Y|X) 2、公式
下面推导一下条件熵的公式 3、注意
注意这个条件熵不是指在给定某个数某个变量为某个值的情况下另一个变量的熵是多少变量的不确定性是多少而是期望
因为条件熵中X也是一个变量意思是在一个变量X的条件下变量X的每个值都会取另一个变量Y熵对X的期望。
这是最容易错的 4、例子
下面通过例子来解释一下 假如我们有上面数据
设随机变量Y{嫁不嫁}
我们可以统计出嫁的个数为6/12 1/2
不嫁的个数为6/12 1/2
那么Y的熵根据熵的公式来算可以得到HY -1/2log1/2 -1/2log1/2
为了引出条件熵我们现在还有一个变量X代表长相是帅还是帅当长相是不帅的时候统计如下红色所示 可以得出当已知不帅的条件下满足条件的只有4个数据了这四个数据中不嫁的个数为1个占1/4
嫁的个数为3个占3/4
那么此时的HY|X 不帅 -1/4log1/4-3/4log3/4
p(X 不帅) 4/12 1/3
同理我们可以得到
当已知帅的条件下满足条件的有8个数据了这八个数据中不嫁的个数为5个占5/8
嫁的个数为3个占3/8
那么此时的HY|X 帅 -5/8log5/8-3/8log3/8
p(X 帅) 8/12 2/3 5、计算结果
有了上面的铺垫之后我们终于可以计算我们的条件熵了我们现在需要求
HY|X 长相
也就是说我们想要求出当已知长相的条件下的条件熵。
根据公式我们可以知道长相可以取帅与不帅俩种
条件熵是另一个变量Y熵对X条件的期望。
公式为 HY|X长相 p(X 帅)*HY|X帅p(X 不帅)*HY|X不帅
然后将上面已经求得的答案带入即可求出条件熵
这里比较容易错误就是忽略了X也是可以取多个值然后对其求期望 6、总结
其实条件熵意思是按一个新的变量的每个值对原变量进行分类比如上面这个题把嫁与不嫁按帅不帅分成了俩类。
然后在每一个小类里面都计算一个小熵然后每一个小熵乘以各个类别的概率然后求和。
我们用另一个变量对原变量分类后原变量的不确定性就会减小了因为新增了Y的信息可以感受一下。不确定程度减少了多少就是信息的增益。 后面会讲信息增益的概念信息增益也是决策树算法的关键。