仮説検定の手法一覧と、それらの使い分け方
「仮説検定」というのは、「ある仮説」が正しいのか間違えているのかを統計学的に検証する方法の事を言います。
調べたい事柄がどんな事でも同じ手法を適用すれば良い訳ではなく、一体どんな仮説を検証したいかによって適切な手法は変わってきます。
そこで、タスクに応じた適材適所な仮説検定手法を選べるように、手法を整理してみました。
仮説検定の種類
仮説検定は、基本的に「事象A」と「事象B」に差があるかどうかを調べます。
一例として、「2クラスの試験の成績は異なるのか?」という事を調べたいとします。
A組の試験の点数「80点」「78点」「79点」・・・といった数値と、
B組の試験の点数「82点」「89点」「67点」・・・といった数値を比較します。
平均点に差が出ていたとしても、果たしてその「差」は明確なものなのか、それとも偶然のブレにより発生したものなのか、という事を調べる必要があります。
もう一例、「あるお菓子の重量は全て50gと言えるか?」という事を調べたいとします。
これは2群の比較では無いように思えますが、
実際の重量「49.8g」「50.1g」「50.2g」・・・といった数値と、
「理想的な重量」である「50.0g」「50.0g」「50.0g」・・・といった数値を比較し、この2群の平均値に差があるかを調べる、という手順を踏みます。
上記の例では、どちらも「平均値の差」を調べています。
そして、「何の差を調べたいのか」によって適切な仮説検定の手法は変わってきます。
ここからは、「何の差を調べたいのか」によって章を分けて詳しく見てきます。
平均値の差を検定する
まずは、複数のデータの平均値が異なるかどうか調べたい場合です。
上の例でも出しましたが、実際一番使う機会が多いのはこの「平均値の検定」かと思います。
ここで、データが対応しているかいないかによって適切な方法は異なります。
「対応」というのは、比較対象が同じ場合。
たとえば、同じメンバで50m走を2回やって、1回目と2回目のタイムに差があると言えるか?などと言うときに使います。
「非対応」というのは、比較対象が違う場合。
たとえば、1組と2組で50m走をやって、1組と2組のタイムに差があると言えるか?などと言うときに使います。
それさえ定めれば、下表の通りに手法を選ぶことができます。
比較するデータ数 | ||
---|---|---|
2群 | 対応t検定 |
【等分散】非対応t検定 【異分散】ウェルチのt検定 |
3群以上 | 反復測定分散分析 | 要因分散分析 |
中央値の差を検定する
続いては、複数データの中央値が等しいかどうかを検定する手法です。
元データが正規分布に従っていないときや、外れ値が多い時などはこちらが良いでしょう。
いずれも値がめちゃくちゃな場合でも「その値の順位」に着目すれば良い、という発想に基づいた手法です。
こちらも母平均と同様、比較対象が2群の時と3群以上の時、そして対応or非対応で適切な手法が変わります。
比較するデータ数 | ||
---|---|---|
2群 | ウィルコクソンの符号順位検定 | ウィルコクソンの順位和検定 (マン・ホイットニーのU検定) |
3群以上 | フリードマン検定 | クラスカル・ウォリス検定 |
独立性を検定する
いわゆるA/Bテストなどの、クロス集計表の比較です。
平均値の検定に次いで、こちらも使われる機会が多いかと思われます。
マクネマー検定 |
【データ多】カイ二乗検定 【データ少】フィッシャーの正確確率検定 |
データの「多い」「少ない」というラインが幾つなのかというのは難しい問題ですが、クロス集計表の中に10以下の数値が含まれ、かつ全ての数値が100以下の場合は「データ少」と考え、フィッシャーの正確確率検定を用いた方が良いでしょう。
(分析者により感覚は異なりますので、あくまでも私の見解です。)
A/Bテストにおいては一般的にデータは対応しておらず、そこそこのデータ量がある事が多いので、大抵の場合はカイ二乗検定で良いでしょう。
また、上記の手法はすべて3群以上にも応用できます。
(3群以上専用の手法は無いように思います。)
母分散の差を検定する
最後は、分散が等しいかどうかの比較です。
これは状況に依らず、基本的に「F検定」を使うことになります。
t検定においてデータが等分散か異分散かで適切な手法が異なる場合があるので、t検定を行う前段階として用いるパターンが多いです。
おわりに
以上が、仮説検定の手法についてでした。
これで全てではありませんが、よく使われる手法についてはおおよそ納められたかと思っております。
場合場合によって、適切な仮説検定手法を適用できる手助けになりましたら幸いです。