今天我们讨论一下关于Conjugate Prior的一点事情,Conjugate Prior是BayesianMethod常用的一个东西,所谓ConjugatePrior是指一个概率分布的参数的先验分布和观测到一些数据之后的参数的后验分布同属于同一个FunctionFamily。根据Bayes定理,我们对于一个参数可以在获取一些数据后计算参数的后验概率:
采用Conjugate Prior后,后验概率可以有closed-form,这为计算带来了很大方便。
Conjugate Prior的应用非常广泛,这个专题的主要目的是介绍一些常用概率分布的ConjugatePrior,首先我们熟知的Bernoulli分布的Conjugate Prior是Beta Distribution:
Beta Distribution有如下形式:
然后对应的后验概率是:
Bernoulli Distribution的自然扩展就是Multinomial Distribution,其ConjugatePrior也是我们熟知的Dirichlet Distribution:
Dirichlet Distribution有如下形式:
对应的后验概率是:
接下来我们介绍Poisson Distribution的Conjugate Prior,其对应ConjugatePrior是Gamma Distribution:
Gamma Distribution有如下形式:
对应的后验概率是:
写到这里的时候我忽然有些困惑,因为上一次接触PoissonDistribution已经是很早很早之前的事情,所以这里再深入讨论一下,Poisson分布是指单位时间内发生一个独立事件的次数的概率分布,lambda是单位时间发生事件次数的期望,也就是频率。在GammaDistribution中两个参数和Poisson分布的定义十分相关,其中显而易见k是一段时间内发生事件的总数,而1/theta则是总的时间跨度。
下面我们来看看高斯函数的ConjugatePrior,这件事情并不是特别容易推导的。我们先推导一维的情形,然后再向高维扩展,由Bayes定理:
其中,
如果我们要定义一个函数族在乘上这样一个因子之后还属于同一个函数族,那么最简单的方式就是定义:
这个概率分布族被称为Normal-Inverse Gammadistribution,细心观察的话可以发现上式可以拆分成两个概率分布的乘积,其中mu关于sigma的条件概率分布是一个高斯分布,而1/sigma^2的边缘分布则是一个Gamma分布,这也是这个概率分布的名称由来。
Normal-Inverse Gamma分布的正式定义如下,假设:
那么,
其中,
对应的后验概率是:
下面我们看看高维高斯函数,同样由Bayes定理:
这个式子并不像一维情形下那样一眼就可以看出函数所属的族,但仍然可以证明Normal-InverseWishart是高维高斯分布的Conjugate Prior:
其中Inverse Wishart Distribution定义如下:
式中p为数据的维度,另外其中的高维Gamma函数定义如下:
当然实际应用中我们往往并不关注归一化常数,因此这些可怕的系数也并不是那么重要,最后我们需要提到Normal-InverseWishart的后验概率: