ABテスト有意差判定ツール

2つの施策の結果について、統計的に有意な差があるかどうかブラウザ上で検定できます。A、Bそれぞれの「試行回数」と「成功数」を入力し、「計算」ボタンをクリックしてください。

検定手法はカイ二乗検定を採用しています。また有意水準は多くの場合95%を使用しますが、より厳密な結果を得たい場合は99%、やや緩い基準で良い場合は90%を選択してください。

A/Bテスト有意差計算機




結果

有意差:

p値:

Aの成功率:

Bの成功率:


解説

ABテストとは、2つの方法(AとB)のどちらがよりベターなのか、統計的に調べる方法です。
例えば、お店のウェブサイトで「赤いボタン」と「青いボタン」のどちらがクリックされやすいか。
文章をしっかり長く書くか、端的に短く書くか、どちらがユーザーの好感度が高いかなど、様々な場面で際に使います。

有意差とは

「有意差」とは、AとBの結果に「偶然ではない」違いがあるかどうかを示すものです。
例えば、コインを100回投げて「表が60回、裏が40回」出たとしてもこれは「偶然、表が多かっただけ」かもしれません。
ですが「表が95回、裏が5回」だったら「偶然、表が多かっただけ」とは言い難く、そのコインは何かがおかしい、つまり偶然ではない違いがある気がします。
これを感覚的でなくきちんと数字で示す、というのが「有意差」の考え方です。

p値/有意水準とは

p値とは、「AとBに差がない」と仮定したときに、今出ている結果(またはもっと極端な結果)が起こる確率です。この値が小さいほど、「AとBには本当に差がある」と考えられます。
多くの場合、p値が5%より小さいときに「統計的に意味のある」差がある、と判断します。この5%を「有意水準」と言います。
有意水準は5%に設定することが多いですが、新薬の効果測定など厳密な結果を得る必要がある場面では1%にしたり、迅速な判断が求められるマーケティング領域で「少しでも効果がありそうなら実行に移す」ような場面では10%に設定することもあります。
なお、「有意水準5%だと有意差なしだけど10%にしたら有意差ありになるので、有意水準は10%にしよう」というように結果を見てから有意水準を動かすことは御法度なのでご留意ください。

カイ二乗検定とは

カイ二乗検定はABテストの結果を判断するのに使う手法の一つで、「期待していた結果」と「実際の結果」がどれくらい違うかを統計的に評価する方法です。例えば、赤いボタンと青いボタンのクリック数を比べるとき:

  1. 1. まず、「もし色による違いがないなら、両方均等にクリックされるはず」と考えます。
  2. 2. 次に、実際のクリック数と、均等だった場合の数との差を計算します。
  3. 3. その差が大きければ大きいほど、「色による違いがある」と考えられます。

この「差の大きさ」を数字で表したものが「カイ二乗値」であり、この値に基づきp値を計算しています。

結果の解釈

「有意差あり」という結果が出たら、AとBには本当に違いがある可能性が高いです。...が、その違いが実際に重要かどうかは別問題です。
例えば、有意差があったとしても赤いボタンのクリック率が49%で青いボタンが51%だったら、ボタンの色によるクリック率の違いはあるものの、その影響はかなり小さく「青のボタンに入れ替える人件費の方が高くつく」という事もあります。
そのため、結果の評価の際には有意差を見るだけでなく、「実際に何%改善したか」や、「この効果が会社やサービスにどのくらい影響を与えるのか」も踏まえて、最終的に判断する必要があります。