24日はアルファモス社主催のセミナーに参加してきました。セミナーの最後はQDAの開発者でTragon社の創業者であるDr.Herbert Stone氏の講演でした。
米国小売業における官能評価の利用状況のお話は興味深かったです。
主成分分析がわかりにくい理由
さて、今回は主成分分析についてです。
主成分分析は多変量解析でもポピュラーな手法です。
しかし、いざ結果を読み取るとなると難しいという声を聴きます。
そんな主成分分析ですが、まずは基本を確認してみたいと思います。
主成分分析が行っていることは、サンプル間の分散を最大にする係数を求めている、ということです。
その結果から、ポジショニング、グルーピング、外れ値の発見、新たな合成変数の構築に利用されます。
しかし、元は一つです。
元は一つなのになぜ主成分分析がわかりにくいのか。弊社では過去に「主成分分析だけのセミナー」を実施しておりますが、参加された方のお声を伺って気が付いたことがあります。
それは、目的に沿った結果の読み方を知らない、ということです。
主成分分析における目的別の寄与率の読み方
Aマッピングをする場合の寄与率の見方は、Bサンプル間の違いを見つけるための読み方と異なります。
セミナーで耳にした、寄与率についての誤解Top2を紹介します。
・寄与率は2軸を合わせて●%以上必要(%数は諸説あります)
・寄与率が非常に小さい場合は意味がない
上記の誤解に対する私の回答は、
「この2つは正しい場合もあるし、正しくない場合もある。そして、正しいか否かは分析目的による。」
です。
Aマッピングをする場合の寄与率の見方としては、投入した変数の情報量を多く持っている方が良いと考えるので累積した寄与率が高い方が良いと考えます。
一方、Bサンプル間の違いを見つけるような場合は投入した情報量を多く持つかどうかは関係ありません。仮に投入した100変数のうち1変数でサンプルの違いを見分けられるのであれば、他の変数は捨ててしまってもよいのです。このような場合は、寄与率の高さは関係ありません。非常に寄与率が低い場合でもサンプル間の差を識別する変数が見つかればよいのです。
ガスクロデータの成分分析を主成分分析する場合にはこちらの視点で見ることが多いでしょう。
主成分分析の結果を読む時のポイント
寄与率の基本的な意味合いは、「投入したデータのうち、その軸(主成分)が何%の情報量を示しているか」を示しています。
このことを念頭に置いて、次の二つを意識して結果を読むと自信が持てるようになります。
1.自分の解析目的が何か。
2.その場合、寄与率はどのような意味を持つのか
寄与率とは違いますが、主成分分析はバイプロットを読みこなせるようになると、飛躍的に使えるようになります。また、応用としてSIMCAや主成分回帰分析も使えるようになります。
ぜひ、主成分分析を使い倒してください。