指数族分布形式为
总满足
- 变量 $x$ 可以为离散或者连续的标量或向量
- $\eta$ the natural parameter 自然参数
- $u(x)$ the sufficient statistics 充分统计量
- $g(\eta)$ the normalizer 归一化系数
- $h(x)$ the base density
有时候也把 $g(\eta)$ 求对数放在指数项里。许多分布均为指数族分布,如二项分布、多项分布、高斯分布等,调整后可以化出以上的标准形式。因此只要讨论指数族分布的一般性质,可以将它应用到多种分布之中。
例子:一元高斯分布
凑参数的顺序一般是:
- 先分解出指数上 $u(x)$ 和对应的系数 $\eta$
- 将非指数的系数中不包括 $\eta$ 的部分写成 $h(x)$
- 剩余带 $\eta$ 的部分写入 $g(\eta)$
- 归一化,将剩余的系数都乘入 $g(\eta)$
求期望
对 (2)式 关于 $\eta$ 求导,即可得
(具体的推导可以看Reference)。因此如果可以算出归一化项 $g(\eta)$,那就可以用它的梯度来计算统计量的期望。 $u(x)$ 的协方差可以根据 $g(\eta)$ 的二阶导数表达,对于高阶矩的情形也类似。
充分统计量
当有多个独立样本时,对 (1)式 求最大似然下的参数
可以根据充分统计量来计算归一化项的梯度。在伯努利分布中有 $u(x)=x$,在高斯分布里有 $u(x)=(x,x^2)^T$,只需计算出数据集中的这些量,就可以代替整个数据集去估计参数。因此称之为充分统计量。
共轭先验
一般情况下,对于一个给定的概率分布 $p(x|\mu)$,我们能够寻找一个先验 $p(\eta)$ 使其与似然函数共轭,从而 后验分布的函数形式与先验分布相同,因此使得贝叶斯分析得到了极大的简化。
多项式分布的参数的共轭先验是狄利克雷分布 (Dirichlet distribution),而高斯分布的均值的共轭先验是另一个高斯分布。所有这些分布都是指数族 (exponential family) 分布的特例。
共轭贝叶斯推理
假设有先验形式为
似然形式为
则后验的形式为
其中 $\eta=\eta_0+\lambda$,$g(\eta)$ 为凑出来的归一化项。
求 KL 散度
当要计算 ELBO 时,其中有一项为后验与先验的 KL 散度。由于共轭先验形式一致,容易得到
Reference
Bishop CM (2006) In: Pattern Recognition and Machine Learning, Springer, chap 2.