指数族分布形式为

p(x|η)=h(x)g(η)exp{ηTu(x)}        (1)

总满足

g(η)h(x)exp{ηTu(x)}dx=1        (2)
  • 变量 x 可以为离散或者连续的标量或向量
  • η the natural parameter 自然参数
  • u(x) the sufficient statistics 充分统计量
  • g(η) the normalizer 归一化系数
  • h(x) the base density

有时候也把 g(η) 求对数放在指数项里。许多分布均为指数族分布,如二项分布、多项分布、高斯分布等,调整后可以化出以上的标准形式。因此只要讨论指数族分布的一般性质,可以将它应用到多种分布之中。

例子:一元高斯分布

p(x|μ,σ2)=1(2πσ2)12exp{12σ2(xμ)2}=1(2πσ2)12exp{12σ2x2+μσ2x12σ2μ2}{η=(μσ212σ2)u(x)=(xx2)h(x)=(2π)12g(η)=(2η2)12exp(η214η2)

凑参数的顺序一般是:

  1. 先分解出指数上 u(x) 和对应的系数 η
  2. 将非指数的系数中不包括 η 的部分写成 h(x)
  3. 剩余带 η 的部分写入 g(η)
  4. 归一化,将剩余的系数都乘入 g(η)

求期望

对 (2)式 关于 η 求导,即可得

lng(η)=E[u(x)]

(具体的推导可以看Reference)。因此如果可以算出归一化项 g(η),那就可以用它的梯度来计算统计量的期望。 u(x) 的协方差可以根据 g(η) 的二阶导数表达,对于高阶矩的情形也类似。

充分统计量

当有多个独立样本时,对 (1)式 求最大似然下的参数

lng(ηML)=1Nu(xn)

可以根据充分统计量来计算归一化项的梯度。在伯努利分布中有 u(x)=x,在高斯分布里有 u(x)=(x,x2)T,只需计算出数据集中的这些量,就可以代替整个数据集去估计参数。因此称之为充分统计量。

共轭先验

一般情况下,对于一个给定的概率分布 p(x|μ),我们能够寻找一个先验 p(η) 使其与似然函数共轭,从而 后验分布的函数形式与先验分布相同,因此使得贝叶斯分析得到了极大的简化。

多项式分布的参数的共轭先验是狄利克雷分布 (Dirichlet distribution),而高斯分布的均值的共轭先验是另一个高斯分布。所有这些分布都是指数族 (exponential family) 分布的特例。

共轭贝叶斯推理

假设有先验形式为

p0(x|η)=h(x)g0(η0)exp{ηT0u(x)}

似然形式为

pl(x|η)=exp{λTu(x)}

则后验的形式为

p(x|η)=h(x)g(η)exp{ηTu(x)}

其中 η=η0+λg(η) 为凑出来的归一化项。

求 KL 散度

当要计算 ELBO 时,其中有一项为后验与先验的 KL 散度。由于共轭先验形式一致,容易得到

KL(p(x)||p0(x))=Ep(x)[lnp(x)p0(x)]=Ep(x)[lng(η)g0(η0)+(ηTηT0)u(x)]=lng(η)lng0(η0)+(ηTηT0)Ep(x)[u(x)]

Reference

Bishop CM (2006) In: Pattern Recognition and Machine Learning, Springer, chap 2.