指数族分布形式为
p(x|η)=h(x)g(η)exp{ηTu(x)} (1)总满足
g(η)∫h(x)exp{ηTu(x)}dx=1 (2)- 变量 x 可以为离散或者连续的标量或向量
- η the natural parameter 自然参数
- u(x) the sufficient statistics 充分统计量
- g(η) the normalizer 归一化系数
- h(x) the base density
有时候也把 g(η) 求对数放在指数项里。许多分布均为指数族分布,如二项分布、多项分布、高斯分布等,调整后可以化出以上的标准形式。因此只要讨论指数族分布的一般性质,可以将它应用到多种分布之中。
例子:一元高斯分布
p(x|μ,σ2)=1(2πσ2)12exp{−12σ2(x−μ)2}=1(2πσ2)12exp{−12σ2x2+μσ2x−12σ2μ2}{η=(μσ2−12σ2)u(x)=(xx2)h(x)=(2π)−12g(η)=(−2η2)12exp(η214η2)凑参数的顺序一般是:
- 先分解出指数上 u(x) 和对应的系数 η
- 将非指数的系数中不包括 η 的部分写成 h(x)
- 剩余带 η 的部分写入 g(η)
- 归一化,将剩余的系数都乘入 g(η)
求期望
对 (2)式 关于 η 求导,即可得
−∇lng(η)=E[u(x)](具体的推导可以看Reference)。因此如果可以算出归一化项 g(η),那就可以用它的梯度来计算统计量的期望。 u(x) 的协方差可以根据 g(η) 的二阶导数表达,对于高阶矩的情形也类似。
充分统计量
当有多个独立样本时,对 (1)式 求最大似然下的参数
−∇lng(ηML)=1N∑u(xn)可以根据充分统计量来计算归一化项的梯度。在伯努利分布中有 u(x)=x,在高斯分布里有 u(x)=(x,x2)T,只需计算出数据集中的这些量,就可以代替整个数据集去估计参数。因此称之为充分统计量。
共轭先验
一般情况下,对于一个给定的概率分布 p(x|μ),我们能够寻找一个先验 p(η) 使其与似然函数共轭,从而 后验分布的函数形式与先验分布相同,因此使得贝叶斯分析得到了极大的简化。
多项式分布的参数的共轭先验是狄利克雷分布 (Dirichlet distribution),而高斯分布的均值的共轭先验是另一个高斯分布。所有这些分布都是指数族 (exponential family) 分布的特例。
共轭贝叶斯推理
假设有先验形式为
p0(x|η)=h(x)g0(η0)exp{ηT0u(x)}似然形式为
pl(x|η)=exp{λTu(x)}则后验的形式为
p(x|η)=h(x)g(η)exp{ηTu(x)}其中 η=η0+λ,g(η) 为凑出来的归一化项。
求 KL 散度
当要计算 ELBO 时,其中有一项为后验与先验的 KL 散度。由于共轭先验形式一致,容易得到
KL(p(x)||p0(x))=Ep(x)[lnp(x)p0(x)]=Ep(x)[lng(η)g0(η0)+(ηT−ηT0)u(x)]=lng(η)−lng0(η0)+(ηT−ηT0)Ep(x)[u(x)]Reference
Bishop CM (2006) In: Pattern Recognition and Machine Learning, Springer, chap 2.