■□■□■□■官能評価TT通信No.23■□■□■□■
今回のテーマは「基礎解析」です。
「基礎解析」といっても数学の科目ではありません。
官能評価に限らずあらゆるリサーチなどは解析し、何らかの知見を得るためにデータを取ります。ところが苦労して取ったデータも解析如何で間違った結論が導 かれてしまうことがあります。データの取りっぱなしは資源のムダですが、間違った結論は大きな損失を生み出すことがあります。調査の結果を信じて新しい製 造ラインを造って新商品の発売をしたのに、まるっきり売れないとなったら、まだデータの取りっぱなしの方がましです。
そんなことにならないよう、解析の基礎的なところを押さえておくことが大切です。
ここで解析全てについて語ることは出来ないので、今回は解析を始めるにあたってのポイントを述べたいと思います。もちろん調査の狙いや方法によって様々なバリエーションがありますが、一般論としてお読みください。
大原則は「『単純』から『複雑』へ」です。
解析の原則はシンプルな解析から始めることです。具体的には1つの変数について基礎統計量を分析するところから始めます。以前データの種類にはい くつかあるとお話しましたが、今回は2つに分けて説明します。1つは数量データ、もう1つはカテゴリデータです。まず、得られたデータが数量データなら3 つの数値を把握しましょう。
1.平均値(Mean)
2.中央値(Median)
3.最頻値(Mode)
ご覧の通り英語にすると頭にMがつくので私たちは「3M」と呼んでいます。「スリーエム」だとポストイットの方を思い浮かべてしまうので、「さんえむ」と読んでます。解析担当者からレポートがあがってきたとき、
「この項目の3Mはどうだった?」
なんて使い方をしています。
この3つ数値は特色や特徴を大雑把につかむのに適しています。我々がよく目にする例は、クラスの男女の身長を比較する時なんか「平均」を使 いますね。平均といっても計算方法によって算術平均や幾何平均、調和平均があります。我々が一般に言う「平均」は算術平均といって、全部足して、データの 数で割ったものです。他の平均については、統計入門の本には書いてあると思いますので、算出方法や特徴などを調べてみてください。
この他、中央値や最頻値も見逃せない数値です。中央値はデータを大きさの順番に並べた時、真中に来る数値です。 偶数の時は真中2つの平均値をつかいます。最頻値はもっとも多い数値です。例えば、5カテゴリスケールで評価をしたら (1,1,2,2,3,4,4,4,4,4,5)だったとしましょう。4が最も多いので最頻値は「4」になります。
以前、EDA(探索的データ解析法)でお話しましたが、探索的に解析を進める場合は中央値が有効です。パネルにばらつきがあるときなど平均値を使うと大きく数字を振ったパネルの影響を強く受けてしまいますが、中央値だと影響が小さくなります。
さて、データの特色をつかむ方法がもう一つあります。皆さんもよく使っていると思います。先の3つ数値(3M)は「数量データ」にしか使えませんが、この方法はカテゴリデータにもつかえます。というか、カテゴリデータはこの方法しかありません。
それは「比率」です。「パーセント(%)」ともいいますね。
パーセントの計算は説明するまでも無いでしょう。これによってデータの大雑把な特徴をつかむことが出来ます。
このような数値でデータの大雑把な特徴をつかんだら、もうちょっとミクロの視点でデータを見てみましょう。つまり、「ばらつき」です。仮に平均が同じでも(5,5,5)と(4,5,6)では内容が違います。
このバラツキを表わす数値には標準偏差や変動係数などいろいろなものがあります。
が、ここでは「ヒストグラム」だけを取り上げます。
何はともあれ「ヒストグラム」を作りましょう。そして「眺め」ましょう。
なぜ「眺め」るのか?
実はこの後の解析を進めるときに「何か変だな」と気がつくための準備なのです。
例えば、正規性を前提とした分析を行なう際にデータが正規分布しているかどうかを確認します。機械的に「正規性の検定」をすることは出来ますが、 それだけで良い分析になる訳ではありません。ヒストグラムを見て、パラメトリック分析でやるのかノンパラメトリック分析でやるのか、検定の結果を参考にす ることは出来ますが最後に決めるのは人間にしか出来ません。
統計ソフトはボタン一つでずらーーーっと計算結果が出てきます。何らかのミスでデータが書き換えられてしまっても気が付かないことがあります。以 前、未熟な私は手で遊んでいたボールペンの先でキーボードを押してしまって、データに無駄な数字が加わったのに気が付かずに分析したことがあります。これ に気がついたのは、1変数での基礎統計量とヒストグラムの傾向がイメージに残っており、分析の結論に違和感を感じたからでした。
基礎分析は後々まで大きな影響をもってきます。そして後の分析手法の選択の鍵を握っています。
結果知りたさに、この基礎分析をないがしろにしてしまう場面に遭遇します。私も他人のことは言えず「とりあえずピーシーエー!」など、ついやってしまいます。
※ピーシーエー・・・Principal Component analysisの略でPCAと表記する。主成分分析のこと。
しかし、基礎分析はデータを有効活用するために、そして分析の無駄を省くために必要です。
最後に原則をもう一度。
「『単純』から『複雑』へ」
単純に1変量で分析を始め、
もうちょっと複雑になって2変量、
さらに複雑に多変量。
というようにシンプルな解析を積み重ねていけば多変量解析などの複雑な解析でも恐れることはありません。場合によっては知りたいことはシンプルな解析だけでわかってしまうこともあります。
恐いのは「ブラックボックスに踊らされること」です。
今回は解析始まり「基礎解析」のポイントを述べました。
では、また!