スポンサーリンク

主成分分析の考え方(解法)

スポンサーリンク
 
投稿統計学中級
主成分分析の考え方について、解法を追いながら説明しています。
スポンサーリンク
スポンサーリンク
スポンサーリンク

はじめに

 主成分分析においては、いくつかの変量を与えると、第1主成分、第2主成分などの主成分が得られ、それぞれの主成分の意味を解釈することになります。

 例えば、あるテストにおいて、国語、英語、数学の3科目を受けたとき、それらの点数をもとに主成分分析を行えば、第1主成分が総合力、第2主成分は数学能力を示すなどといったことが分かります。

 ところで、主成分分析自体、何をやっているのかを知るために、その解法を追いながら、説明したいと思います。

主成分分析

総合点

 データ数が$n$で、$k$個の変量があるものとし、それぞれの変量のデータを$x_i (i= 1 \, , \, \cdots \, , \, k)$。
 上記のテストの例でいえば、$k=3$です。

 主成分分析においては、次のような合成変量(モデル)を考えます。

  $Z = a_1 x_1 + \cdots + a_k x_k \quad \cdots \quad (1)$

 各変量$x_i$に対して、$a_i$で加重平均して、$Z$という合成変量を算出するという式になっています。合成変量というと分かりにくいのですが、簡単な言葉でいえば、総合点といったところでしょう。

 この式は直観的には分かりやすい形です。上記のテストにおいて、単純に3科目の合計点でテストの合格・不合格を決めるということはよくあると思いますが、これは、$a_1=a_2=a_3=1$とした場合のもので、合計点は合成変数$Z$はなります。

 ただ、単純に足すのではなく、ウエイト$a_i$をつけ、そのウエイトを変えることで、様々な総合点を生み出すことができます。

 上記のテストの例で言えば、単純に3科目の合計点で考えることもあれば、英語は2倍するや国語は1.5倍するなど、点数配分を変えて、テストの合格・不合格を決めることがあるようなものです。

 すなわち、主成分分析とは、各変量に対して、いくつかのウエイトという評価方法を変えて、いくつもの総合点をつける方法であると言えます。
 そして、主成分分析によって得られた主成分とは、総合点のつけ方を示しています。第1主成分は、総合点のつけ方のパターン1、第2主成分は総合点のつけ方のパターン2という具合です。

ウエイト

 次に、重要となってくるのが、$(1)$式において、そのウエイトである$a_i$をどうするかという問題です。

 いくつかのパターンの総合点を出そうというのが主成分分析の考え方ですが、似たような総合点のパターンをいくつ考えても、あまり意味はないでしょう。

 このとき、総合点である合成変量の分散を大きくしたときに、そのパターンは特徴づけられるはずです。そして、その分散を最大化するようなウエイトを考えることになります。

 $(1)$式の$Y$について、分散をとると、

  $\displaystyle Var(Y) = \dfrac{1}{n} \sum_{j=1}^n (Y_j \; – \; \bar{Y})^2$

       $\displaystyle = \dfrac{1}{n} \sum_{j=1}^n [ a_1(x_{1j} \; – \; \bar{x}_1) + a_2(x_{2j} \; – \; \bar{x}_2) + \cdots + a_k(x_{kj} \; – \; \bar{x}_k ] = \mathbf{a} \mathbf{\Sigma} \mathbf{a}^t \quad \cdots \quad (2)$

となります。

 なおここで、$\mathbf{a}$は$a_i$のベクトル、$\mathbf{a}^t$はその転置行列、$\mathbf{\Sigma}$は分散共分散行列です。

 他方、ウエイト$a_i$については、次が成立します。

  $a_1^2 + a_2^2 + \cdots + a_k^2 =1 \quad \cdots \quad (3)$

 すなわち、$(3)$式の制約のもと、$(2)$式の分散を最大化することになります。

主成分

 分散を最大化したとき、固有値$\lambda_m$を$k$個得ることができますが、この固有値が大きいほど、分散が大きくなります。

 そして、分散が最も大きい場合の合成変量$Y$を第1主成分、次に大きいものを第2主成分などと言います。

 基本的には、いくつもある主成分の中から、上記で得られた固有値$\lambda_m$が大きいものから、主成分として採用していくことになります。
 固有値が大きければ、分散が大きく、総合点である合成変量も特徴づけられていると考えられるからです。

 なお、$Y_m$を第$m$主成分、そのときのウエイトを$a_{im}$とすると、

  $Y_1 = a_{11}x_1 + a_{21}x_2 + \cdots + a_{k1} x_k$

  $Y_2 = a_{12}x_1 + a_{22}x_2 + \cdots + a_{k2} x_k$

   $\vdots$

  $Y_k = a_{1k}x_1 + a_{2k}x_2 + \cdots + a_{kk} x_k$

です。

寄与度

 基本的には、固有値の大小で、どの主成分を重視するかを考えればいいのですが、それでは分かりにくい面があります。

 そこで、固有値すべての合計に対して、ある主成分の固有値の割合をとれば、その重要度が分かりやすくなります。
 この割合を寄与度といい、

  $K_m = \dfrac{\lambda_m}{\sum_{l=1}^k \lambda_l}$

のように定義されます。

 そしてこの寄与度をみれば、元のデータの反映度が分かることになります。

参考

  木下栄蔵『わかりやすい数学モデルによる多変量解析入門

  田中豊・脇本和昌『多変量統計解析法

スポンサーリンク
タイトルとURLをコピーしました