隠れマルコフモデルについて

隠れマルコフモデル

系列データに対して、次数をもつマルコフ性の仮定に制限されず、なおかつ自由パラメータの数が制限されたモデルを作ることを考える。これは潜在変数を導入することで、実現される。図のようにマルコフ連鎖を構成するのが潜在変数であると仮定することで状態空間モデルと呼ばれるグラフ構造が得られる。

このモデルの同時分布は以下で与えられる。

もし潜在変数が離散変数である場合、このモデルを隠れマルコフモデルと呼ぶ。

潜在変数は過去の情報を「要約」しており、その情報を元にして次の状態の遷移や予測が行われるため、予測はすべての過去の観測値に依存する。例えば、天気の例で例えると、気象状態(高気圧、低気圧など)が潜在変数といえる。直接的な観測データ(例:連続する晴れの日)から、間接的に、隠れ状態(高気圧)の遷移パターンを推定し、その情報を元に明日の天気を予測する。

ここで潜在変数$z$は1対K符号化法(高気圧、低気圧の状態がある場合、高気圧[1,0] 低気圧[0,1]と表す方法)によるK次元の2値変数で表すことにする。時刻nにおける潜在変数$z_n$の状態は、その1つ前の時刻の状態$z_{n-1}$に依存する。この状態の遷移を表す条件付き分布は遷移確率(transition probability)行列$A$で表される。

時刻$n-1$で$j$の状態から、時刻$n$で$k$の状態になる遷移確率は$A_{jk}\equiv p(z_{n,k}=1|z_{n-1,j}=1)$で定義される。遷移確率行列Aは$K×K$の行列となるが、$\sum_k A_{jk}=1$なので、パラメータの数は$K(K-1)$となる。

遷移確率行列を用いて、条件付き分布は以下の形でかける。

$$ p(z_n | z_{n-1}, A) = \prod_{k=1}^{K} \prod_{j=1}^{K} A_{jk}^{z_{n-1,j},z_{n,k}} $$

最初の潜在ノード$z_1$は、その前の時刻を持たないので、その分布は初期状態分布$\pi$によって与えらえる。

$$ p(z_1 | \pi) = \prod_{k=1}^{K} \pi_k^{z_{1k}} $$

πの要素の合計は1である。 K=3の時の状態遷移を表す図は以下のようになる。 確率モデルを指定するため、観測変数の条件付き確率分布$p(x_n|z_n, \phi)$を定義する。ここで$\phi$は分布を支配するパラメータの集合となり、出力確率(emission probability)と呼ばれる。出力確率は以下の形式で表される。

$$ p(x_n | z_n, \phi) = \sum_{k=1}^{K} p(x_n | \phi_k) z_{nk} $$

このとき潜在変数を支配するすべての条件付き分布が同じ遷移確率行列Aを共有し、すべての出力分布が同一のパラメータ\phiを共有しているとする、均一なモデルを考えると、潜在変数と観測変数の同時分布は以下のようになる。 HMMの目的は観測結果$ X=x_1,\ldots,x_N$から未知のパラメータ$\theta={ϕ,A,π}$を最適化することであり、尤度関数は同時分布の式を潜在変数について周辺化することで得られる。 $$ p\left(X\middle|\theta\right)=\sum_{Z}{p\left(X,Z\middle|\theta\right)} $$ この尤度関数の最大化にはEMアルゴリズムを用いることになる。それについては今後記事を作成予定。

前の記事 マルコフモデルについて

図面は以下から引用  https://www.microsoft.com/en-us/research/uploads/prod/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf