「分散」「標準偏差」を正しく理解しよう
データ分析や統計学を学ぶと、「分散」や「標準偏差」という言葉は極めて序盤に出てきます。
なんとなく、「データのばらつき具合の指標」であることは分かっているですが、解釈が分かりづらいためか、実際にこれらの指標が用いられている事は少ないように思われます。
そこで、もう少し「分散」「標準偏差」の意味を理解して、様々な場面で適材適所で使われるようになればと、本記事を書かせていただきました。
分散・標準偏差の計算手順
今回は、以下のデータから、分散・標準偏差を導出してみます。
6人チームを2組作り、全員でテストを受験したところ、点数が以下のようになりました。
【チームA】44点、46点、49点、53点、53点、55点
【チームB】33点、35点、53点、54点、60点、65点
さて、この2チームの分散と標準偏差を算出してみましょう。
以下5つのステップを踏みます。
Step1:平均を求める
まずは、何はともあれ平均点を出してみます。
上の例題では、各々すべて足して6で割ると、チームAもチームBも50点となります。
平均点だけではチームAとチームBの差は見受けられませんでした。
Step2:↑との差を、全データについて計算する
次は、全員がどれほど平均点から離れているかを計算します。
今回、どちらのチームの平均点も50点なので、全員の点数から50を引くだけです。すると、
【チームA】-6、-4、-1、3、3、5
【チームB】-17、-15、3、4、10、15
このようになりました。
Step3:↑を2乗する
続いては、すべての点数を2乗します。すると、
【チームA】36、16、1、9、9、25
【チームB】289、225、9、16、100、225
このようになりました。
なぜ2乗するのでしょうか?・・・それは次のStepで分かります。
Step4:↑を平均する
上記の値を平均してみます。
【チームA】16
【チームB】144
さて、まさにこの値が「分散」と呼ばれるものになります。
ちなみに、Step3を飛ばし、2乗しないでそのまま平均すると、どんなデータでも必ず「0」になってしまいます。
Step3で2乗したのは、Step2で計算した「差分」をすべてプラスにするためでした。
(2乗ではなく絶対値でも問題無さそうですが、計算が面倒になるため一般的に使われません。)
Step5:↑の平方根を取る
最後です。上で計算した値の正の平方根を計算します。
計算過程で勝手に2乗してしまったので元に戻してあげるようなイメージです。すると、
【チームA】4
【チームB】12
こう計算されました。
そして、この値が「標準偏差」です。
単純に「分散」の正の平方根を取るだけです。
以上が、データから分散・標準偏差を計算するための手続きでした。
この数値こそが、データのばらつき具合を表す指標となっています。
では、一度ここまでの流れを図で整理します。
【チームA】
【チームB】
分散と標準偏差、どっちを使えばいい?
さて、ばらつきの指標として2つご説明しましたが、2つあると困ります。一体、どちらを使うべきでしょうか。
適材適所ではあるのですが、扱いやすい/よく用いられるのは「標準偏差」の方です。
分散というのは我々が計算の都合で勝手に点数を2乗してしまった値です。
それに対して、標準偏差は平方根を取ることによって、勝手に2乗してしまったものを元に戻してあげた値です。
そういう意味でも、ばらつきは標準偏差で表した方が理解がしやすいと考えられます。
標準偏差の表記と解釈
標準偏差にはよく用いられる表記があります。
それは、以下のような「平均±標準偏差」という書き方です。
【チームA】50±4点
【チームB】50±12点
なぜ、このような書き方をするのが一般的なのでしょうか?
標準偏差に関して、以下のような「68-95-99.7則」と呼ばれる法則があります。
①データの約68%が「(平均)±(標準偏差)」内に収まる。
②データの約95%が「(平均)±(標準偏差の2倍)」に収まる。
③データの約99.7%が「(平均)±(標準偏差の3倍)」に収まる。
③に関して、(平均)±(標準偏差の3倍)に収まらないデータは1,000個に3つだけということから、「千三つ」という言葉が生まれた。。。という話もあります。
さて、今回の例で①②を適用すると、
【チームA】データの約68%(約4人)が46点〜54点に収まり、約95%が42点〜58点に収まる。
【チームB】データの約68%(約4人)が38点〜62点に収まり、約95%が26点〜74点に収まる。
となります。
今回の例ではチームに6人しか居ないのでこの法則の恩恵は少ないですが、仮にチームメンバが10,000人居ればどうでしょうか。
一人ひとりの点数を見なくても、「50±4点」と書かれていればおよそ6,800人が46点〜54点の範囲内であると分かってしまうのです。
これが「標準偏差」の解釈の仕方となります。
「平均点」でデータの代表値を示し、「標準偏差」でデータのばらつき具合を示すことによって、よりデータの傾向を詳しく集約することができました。
Excelでも「STDEV.P」という関数で簡単に標準偏差が計算できます。
いつもの「AVERAGE関数」の隣に、こちらも添えてみては如何でしょうか。