動く混合ガウス分布（導出編）- 動く PRML シリーズ（１）

はじめに

混合ガウス分布 (Gaussian Mixture Model, GMM) は、多次元の特徴量を持つデータ点の集合を機械学習により分類するための重要な手法です。特に、GMM は応用範囲が広く、様々な手法の基礎となっているため、自ら更新式を導出するなどして特性をよく理解することが重要です。

本記事ではこれに加え、GMM の長所と短所を視覚的に確認する方法を提案し、実装します。GMM の更新式は「どう動くか」の説明にはなりますが、「長所と短所は何か」を直接教えてはくれません。たとえば、

どんな初期値から、どんな収束値が得られるのか。(初期値に対する特性)
変な初期値を与えるとどうなるのか。(局所解頑健性)
どれぐらいの速さで収束するのか。(収束性能)

といった疑問にこたえるためには、EM アルゴリズムの各イテレーションでの中間状態をグラフにプロットし、アニメーションとして見る必要があります。

本記事では、まず簡単に更新式を導出し、次に動く GMM の実装方法について詳しく説明します。実装編の最後に添付したソースコードを実際に動かしながら、本記事や PRML を読むのがオススメです。

生成モデル

N 個のデータ点で構成された観測データを考えます。個々のデータ点はそれぞれ、K 個あるクラスター（クラス）のいずれかに属していると仮定します。n 番目のデータ点が k 番目のクラスから生成されたことを、 $z_{nk}\;=\;1$ であらわします。各データ点は多項分布で各クラスに割り当てられ、各クラス固有のガウス分布により観測値が生成されます。この観測モデルの尤度は、

　　 $p(X|Z,\;\;\mu,\;\;\lambda)\;\;=\;\;\prod_{nk}\mathcal{N}(x_n|\mu_k,\;\;\lambda_k)^{z_{nk}}$
　　 $p(Z|\pi)\;\;=\;\;\prod_{nk}\pi_k^{z_{nk}}$

と書けます。EM アルゴリズムの目標は、観測データにとって最も適切なモデルパラメータの組み合わせを、E-Step と M-Step という二種類の計算の繰り返しによって再帰的に推定することです。

E-Step

E-Step では、潜在クラス割り当ての期待値を、現在のパラメータの値に基づいて決定します。

　　 $p(z_{nk}\;\;=\;\;1|x_n,\;\;\pi,\;\;\mu,\;\;\lambda)\;\;=\;\; \frac{\pi_k\mathcal{N}(x|\mu_k,\;\;\lambda_k)} {\sum_j\pi_j\mathcal{N}(x|\mu_k,\;\;\lambda_k)}$

M-Step

M-Step では、観測データ X と得られた期待値 E[Z] の同時分布を最大化するようにモデルパラメータを決定します。
以下では、 $\mathbb{E}[z_{nk}] \;\;=\;\;p(z_{nk}\;\;=\;\;1|x_n,\;\;\pi,\;\;\mu,\;\;\lambda)$ を $\gamma_{nk}$ と書きます。

クラス平均と分散（精度）の更新

完全データの対数尤度は

　　 $\ln p(X,\;\;\mathbb{E}[Z]|\pi,\;\;\mu,\;\;\lambda)\;\;=\;\; \sum_{nk}\gamma_{nk} \{\ln \pi_k\;+\;\ln \mathcal{N}(x_n|\mu_k,\;\;\lambda_k)\}$

となり、これを $\mu_k$ で微分した結果を 0 と置くことで、 $\mu_k$ に対する次の更新式

　　 $N_k\;\;=\;\;\sum_n \gamma_{nk}$
　　 $\mu_k\;\;=\;\;\frac{1}{N_k}\sum_n \gamma_{nk}x_n$

を得ます。同様に、分散（精度）で偏微分することで、分散に対する次の更新式
　　 $\lambda_k^{-1}\;\;=\;\;\frac{1}{N_k}\sum_n \gamma_{nk}(x_n\;-\;\mu_k)^2$
を得ます。

多次元の場合は省略しますが、PRML の結果を引用すると

　　 $\lambda_k^{-1}\;\;=\;\;\frac{1}{N_k}\sum_n \gamma_{nk}(x_n\;-\;\mu_k)(x_n\;-\;\mu_k)^T$

となります。

クラス混合比の更新

クラス混合比には $\sum_k \pi_k\;\;=\;\;1$ という制約があるので、ラグランジュの未定乗数法を使って更新します。

目的関数を
　　 $Q\;\;=\;\;\ln p(X,\;\mathbb{E}[Z]|\pi,\;\mu,\;\lambda)\;+\;\chi g$
　　 $g\;\;=\;\;\sum_k \pi_k\;-\;1$
とすると、ラグランジュの未定乗数法より、制約付き極値問題は $\partial Q / \partial \pi_k\;\;=\;\;0$ と $g\;\;=\;\;0$ の連立方程式と同値になるので、
　　 $\frac{\partial Q}{\partial \pi_k}\;\;=\;\;\sum_n \gamma_{nk} \frac{1}{\pi_k} \;+\;\chi\;\;=\;\;0$
　　 $\sum_k \pi_k \frac{\partial Q}{\partial \pi_k}\;\;=\;\;N\;+\;\chi\;\;=\;\;0$
従って、
　　 $\pi_k\;\;=\;\;\frac{N_k}{N}$
を得ます。

動く混合ガウス分布（実装編）