■□■□■□■官能評価TT通信No.18■□■□■□■
さて、今回のテーマは「探索的データ解析法(EDA)」です。
一般に「統計学」というと確証的データ解析法(Confirmatory data analysis; CDA)のことを指します。CDAは仮説やモデルを立て、データで検証するのが基本的な考え方です。しかしながら、CDAはモデルが必要であることや外れ 値に対する影響が強い(抵抗性が弱い)ことなどの弱点もあります。そもそも情報の少ない初期のフェーズでは最適なモデルを作ること自体が困難です。
そんな中で柔軟にデータを解析する方法が模索されてきました。
1960年頃にJohn.W.Tukeyによって提唱され「Exploratory Data Analysis」(1977, Addison-Wesley Publishing Co.)というそのものタイトルで探索的データ解析法(Exploratory Data Analysis;EDA)が出版されました。
近年の統計ソフトの機能向上と低価格化に伴い、EDAが急速に発達してきました。「データマイニング」にもつうじる考え方で、ビジネスの現場では急速に取り入れられています。
EDAの特徴は4つです。
1.ロバストネス(抵抗性が強く、強健な手法)・・・異常値の影響を受け難い「中央値」を使う。例)中央値分散分析
2.残差分析・・・モデルへの当てはまり度合いを評価した後、残差を分析することによってより良いモデルを構築する
3.データ変換による再表現・・・べき乗や対数、比率変換などのデータ変換によってデータの潜在的パターンを見つけ出しやすいよう構造を再表現する
4.データの視覚化(ビジュアル化)・・・データの視覚化によって妥当性の確認や新たなパターンの発見に役立ちます。
官能評価に限らず、ビジネスでは仮説検証型(CDA型)のデータ解析よりもEDAやデータマイニングのように探索型の需要が高まっています。商品 が多様化し、プロダクトライフサイクルが短くなり、モデル(仮説)を作って検証してから商品化というのでは遅いと考えられているからかもしれません。
最近の統計ソフトは探索型を指向したものが多く出回っています。例えば、SPSSではメニューに【分析】→【記述統計】→【探索的】というコマンドがあります。またSAS社のJMPは探索的データ分析ツールであることを前面に押し出しています。
各社様々な手法やグラフを提案していますが、奥野忠一氏が7つ道具として次の手法を挙げています(もとはTukey【前述】が提唱したものですが奥野氏がまとめたものを引用いたしました)。
1.幹葉表示(Stem and Leaf display)・・・ヒストグラムに代わる手法
2.要約値(Letter value display)・・・平均値・標準偏差に代わるもの
3.箱ヒゲ図(Box whisker plots/Box plots)・・・分布形と“外れ値”の図的表現
4.X-Y表示(X-Y plotting)・・・散布図に代わるもの
5.抵抗性のある直線回帰(Registant line)・・・回帰直線の代用
6.中央値分散分析(Median polish)・・・二元配置分散分析に代わるもの
7.時系列データのならし(Smoothing)・・・移動平均に代わるもの
(出典:奥野忠一著「現代統計実務講座別冊テキスト-探索的データ解析法-」p15)
EDAをやってみたいという方、厳密な手法についての議論は脇に置いて、まずはデータをグラフ化して、いろんな視点で眺めるのが良いと思います。
グラフィカルな統計ソフトを用いて、その中で習得していくのが得策です。
但し、EDAは統計知識があって初めて活用できる手法だと思います。CDA(確証的データ解析法)を補完する手法として取り入れていくのが良いでしょう。
官能評価でも探索的な評価の需要が高まっています。今後の流れとして目が離せません。
ではまた!