1. 介绍

用简单的分布 $q$ 去近似复杂分布 $p$ 。这个简单的分布一般选用平均场(mean field)，因为这个砍断了所有变量的依赖关系，这样多个变量的分布 $p$ 积分就可以用简单的一元积分代替。
原因是后验概率分布难求，否则直接使用EM。

2. 推导过程

有一个EM的式子：

\log p (X) = L (q) + K L (q ‖ p)

其中：

L (q) = \int q (Z) \log \frac{p (X, Z)}{q (Z)} d Z

K L (q ‖ p) = - \int q (Z) \log \frac{p (Z | X)}{q (Z)} d Z

然后我们最大化 $L$ ，这样保证 $K L$ 散度最小。 $K L (q ‖ p) \geq 0$ 。

max_q_j L (q) = min_q_j K L (q ‖ \tilde{p})

这里的 $L$ 就是ELBO(evidence lower boud)，下面从 $p (X)$ 从另一个方面推导一下。也就是ELBO。

\begin{aligned} \log p (X) & = \log \int p (X, Z) d Z \\ = \log \int p (X, Z) q (Z) / q (Z) d Z \\ = \log E_q [\frac{p (X, Z)}{q (Z)}] \\ \geq E_q [\log \frac{p (X, Z)}{q (Z)}] \\ = \int q (Z) \log \frac{p (X, Z)}{q (Z)} d Z \\ = L (q) \end{aligned}

然后对于 $K L$ 散度推导一下第一个EM的式子：

\begin{aligned} K L (q ‖ p) & = E_q [\log \frac{q (Z)}{p (Z | X)}] \\ = E_q [\log \frac{q (Z) p (X)}{p (Z, X)}] \\ = E_q [\log \frac{q (Z)}{p (Z, X)}] + \log p (X) \\ = - L (q) + \log p (X) \end{aligned}

求变分的过程就变成了：

将所有的隐藏变量和参数都放到 $Z$ 中，但是实际情况中，隐藏变量和参数往往是不同的，所以我们其实可以采用与EM很相似的过程，将隐藏变量与参数也分开优化，这就是所谓的变分EM算法。

这里 $Z$ 需要使用mean field认为 $Z_{i}$ 是独立的。也就是把 $Z$ 分成 $M$ 组：

q (Z) ＝ \prod_{i = 1}^{M} q_i (Z_i)

同时由于 $K L$ 非convex要转换成求ELBO。

相当于把隐藏变量和参数优化分开。然后使用类似EM的方法。

\begin{aligned} L (q) & = \int q (Z) \log \frac{p (X, Z)}{q (Z)} d Z \\ = \int \prod_j q_j [\log p (X, Z) - \log \prod_i^{M} q_i] d Z \end{aligned}

只考虑一个 $q_{j} (Z_{j})$ 的情况。

Missing \left or extra \right

其中：

\begin{array}{r} \log \tilde{p} (X, Z_j) = \int \log p (X, Z) \prod_i \neq j q_i d Z_j = E_i \neq j [\log p (X, Z)] \end{array}

因为我们是朋友，所以你可以使用我的文字，但请注明出处：http://alwa.info