仮説検定の手法一覧と、それらの使い分け方

2019年10月6日2025年6月8日

「仮説検定」というのは、「ある仮説」が正しいのか間違えているのかを統計学的に検証する方法の事を言います。

調べたい事柄がどんな事でも同じ手法を適用すれば良い訳ではなく、一体どんな仮説を検証したいかによって適切な手法は変わってきます。

そこで、タスクに応じた適材適所な仮説検定手法を選べるように、手法を整理してみました。

仮説検定の種類

仮説検定は、基本的に「事象A」と「事象B」に差があるかどうかを調べます。

一例として、「2クラスの試験の成績は異なるのか？」という事を調べたいとします。
A組の試験の点数「80点」「78点」「79点」・・・といった数値と、
B組の試験の点数「82点」「89点」「67点」・・・といった数値を比較します。
平均点に差が出ていたとしても、果たしてその「差」は明確なものなのか、それとも偶然のブレにより発生したものなのか、という事を調べる必要があります。

もう一例、「あるお菓子の重量は全て50gと言えるか？」という事を調べたいとします。
これは2群の比較では無いように思えますが、
実際の重量「49.8g」「50.1g」「50.2g」・・・といった数値と、
「理想的な重量」である「50.0g」「50.0g」「50.0g」・・・といった数値を比較し、この2群の平均値に差があるかを調べる、という手順を踏みます。

上記の例では、どちらも「平均値の差」を調べています。
そして、「何の差を調べたいのか」によって適切な仮説検定の手法は変わってきます。
ここからは、「何の差を調べたいのか」によって章を分けて詳しく見てきます。

平均値の差を検定する

まずは、複数のデータの平均値が異なるかどうか調べたい場合です。
上の例でも出しましたが、実際一番使う機会が多いのはこの「平均値の検定」かと思います。

ここで、データが対応しているかいないかによって適切な方法は異なります。
「対応」というのは、比較対象が同じ場合。
たとえば、同じメンバで50m走を2回やって、1回目と2回目のタイムに差があると言えるか？などと言うときに使います。
「非対応」というのは、比較対象が違う場合。
たとえば、1組と2組で50m走をやって、1組と2組のタイムに差があると言えるか？などと言うときに使います。

それさえ定めれば、下表の通りに手法を選ぶことができます。

比較するデータ数	対応	非対応
2群	対応t検定	【等分散】非対応t検定【異分散】ウェルチのt検定
3群以上	反復測定分散分析	要因分散分析

中央値の差を検定する

続いては、複数データの中央値が等しいかどうかを検定する手法です。
元データが正規分布に従っていないときや、外れ値が多い時などはこちらが良いでしょう。
いずれも値がめちゃくちゃな場合でも「その値の順位」に着目すれば良い、という発想に基づいた手法です。

こちらも母平均と同様、比較対象が2群の時と3群以上の時、そして対応or非対応で適切な手法が変わります。

比較するデータ数	対応	非対応
2群	ウィルコクソンの符号順位検定	ウィルコクソンの順位和検定（マン・ホイットニーのU検定）
3群以上	フリードマン検定	クラスカル・ウォリス検定