熵 熵减

信息量和香农熵

一个变量取值的信息量可以看作是它带来的“使人惊讶的程度”,一个必然事件没有任何信息量,而一个极其偶然的事件的发生则会使人非常“惊讶”,因而包括大量信息。

自然地,信息量的概率就与变量的概率分布联系在了一起。香农熵(ShannonEntropy)成功表【】达了一个离散型变量所带来的平均信息量:

注意到,因此计算某个变量的香农熵时只考虑非零取值即可。另外,香农熵是非负的。

无噪声编码定理:香农熵是传递一个变量状态所需要的比特数的下界。也就是说,在期望意义下,对一个变量的取值进行编码所需要的最小的比特数即为香农熵。一般情况下,香农熵对数的底取2。

对于一个概率分布,当概率集中于较少的某几个取值时(绝大多数情况下变量会取少数的几个值之一),香农熵的值会较低,相反地,如果概率在各种取值上比较平均(几乎无法判断变量会取哪个值),那么香农熵会较高。使用拉格朗日乘子法(约束概率分布的归一化)计算香农熵的最大值,可知当概率分布是均匀分布时,香农熵可取到最大值,其中M为变量的状态总数(所有可能取值的个数)。因此,香农熵也可以看作是一个变量不确定度的度量。

物理上关于香农熵的解释:mulitplicity, microstate, macrostate, weight

连续型变量的微分熵

对于一个连续型变量,无法直接使用上面香农熵的定义。可以近似地对连续型变量的取值进行离散化,将整个取值范围划分成宽度为的小区域。均值定值告诉我们,在每个小区域内总存在一个值,使得以下等式成立

因此,我们可以把每个落入第i个小区域的的点赋予。这样,我们就可以套用离散型变量的香农熵公式

而当趋近于0时,上式最右侧第二项趋近于0,而第一个项则趋近的表达式称为微分熵(differentialentropy):

仍然使用拉格朗日乘子法,约束均值和方差,以及概率分布的归一化,可知在均值和方差一定的情况下,使微分熵最大的概率分布为正态分布。而正态分布的微分熵表达式为

由以上的表达式可知,香农熵随着方差而增大。同时,我们也可以看出,与离散型变量的香农熵不同,微分熵可以是负的。

条件熵(conditional entropy)

相对熵(relative entropy)

依然从编码角度来考虑,若一个变量的真实分布为,而我们实际上使用了来对这个变量进行编码,那么由此而使用了的多余的比特数定义为相对熵或者KL距离(Kullback-Leiblerdivergence)

注意到,虽然名为距离,但是KL距离(相对熵)没有对称性。另外,相对熵是非负的,当且仅当时相对熵取零。其证明用到了以下内容:

凸函数定义为。等价地,函数的二阶导数各处均非负。如果仅当时等号成立,那个这个函数称为严格凸函数。凸函数的相反数为凹函数。香农熵为凹函数。

简森不等式(Jensen's inequality)

,其中,为凸函数

如果,那么有

于是,可证相对熵的非负性

其中严格凸函数,因而当且仅当时取等号。

相对熵与似然函数的关系

假设未知真实分布为,我们希望使用一个参数模型结合N个观测数据来确定一个最优的来模拟真实分布。一种自然的方法是使用KL距离做为误差函数,以最小化和的KL距离为标准来确定最优的参数值。

将上面的误差函数相对于参数求导,可知:最小化KL距离等价于最大化似然函数

互信息(mutual information)

互信息描述了两个变量之间互相包含关于对方的信息量。定义为两个分布和之间的KL距离

根据相对熵的非负性可知,互信息是非负的,当仅且当两个变量相互独立时互信息为零。

由此可知,互信息可以看作,当已知一个变量的情况下,另一个变量不确定性降低的程度。

熵 熵减

  

爱华网本文地址 » http://www.aihuau.com/a/25101015/266845.html

更多阅读

转 笞刑探幽 打板子贴图 溯源探幽 熵的世界

【笞刑探幽】打板子(贴图)笞刑,也叫杖刑,是一种原始而古老的刑罚,现在有的地方还保留着这种刑罚。我国汉以前也有笞刑,但它并非主要的刑种。汉文帝时实行刑法改革,笞刑得以成为常用的刑种。汉景帝八年,景帝颁布《箠令》,定规定了刑具规格,规定

二维最大熵阈值分割 图像区域分割

二维最大熵阈值分割算法若一幅图像的灰度级数为L,总的象素点数为N(m×n),设fi,j为图像中点灰度为i及其区域灰度均值为j的象素点数,pi,j为点灰度-区域灰度均值对(i,j)发生的概率,即:pi,j=fi,j/N,其中N(m×n)为图像的总象素数,则{pi,j,i,j=1,2,…,L}是该图像关于点灰

(转)熵编码——哈夫曼编码 二进制哈夫曼编码

原文地址:熵编码——哈夫曼编码(转载)作者:吴双转载:用于学习参考,望原文作者海涵!数据压缩技术的理论基础是信息论。根据信息论的原理,可以找到最佳数据压缩编码方法,数据压缩的理论极限是信息熵。如果要求在编码过程中不丢失信息量,即要求

基于MATLAB的图像阈值分割算法的研究 最大熵阈值分割算法

[摘要]:图像分割是一种重要的数字图像处理技术。本文首先介绍了图像分割技术,其次总结了目前图像分割技术中所用到的阈值、边缘检测、区域提取等方法以及分水岭算法。针对各种阈值分割算法,本文在最后做了详细的研究,并给出了相应的MATL

08年次贷危机 从熵的内涵理解次贷危机

【内容摘要】愈演愈烈的美国次级房贷危机向全球金融市场蔓延,最终酿成了席卷全球的金融风暴。这次危机波及面之广,对世界的经济影响之深超出各方预期。危机的程度究竟有多大,一时尚难定论。因此,研究美国次贷危机的产生,意义重大。文章

声明:《熵 熵减》为网友唯爱衬衣少年分享!如侵犯到您的合法权益请联系我们删除