「平均値」は正しく使おう

データ”分析”とまでは行かなくても、データ”集計”の機会は殆どの方が仕事でもプライベートでもあるかと思います。
それは仕事での原価管理・工数管理に始まり、プライベートでの家計簿記録・体重管理に至るまで様々です。

そして、そのデータ集計指標の代表格といえば、やはり「平均値」でしょう。
数値が集まったら、とりあえず平均値の算出。それは間違いでは無いと思います。

・・・しかし、データ集計を平均値の算出だけで終わらせて満足してしまう事例があまりにも多いと感じています。
理由があって「平均値だけで充分」と判断しているなら良いのですが、「このデータにおいてはあまり”平均値”で比較するべきでないな」という場合も往々にしてあります。

「平均値」は2019年現在、小学5年生で習うのですが、それ以外にも「中央値」「最頻値」「ヒストグラム」など、そういったデータ集計の指標は義務教育として中学生までに受けています。それなのになぜか「平均値」以外の指標がビジネスの現場にあまり使われていないように思います。
データを平均値だけで推し量ってしまうと、データの一側面だけしか見ていないことになり、真実を見誤ります。

そういった事例を幾つか挙げ、その対策について考えてみます。

平均値を鵜呑みにしてはいけない事例

平均年収が高い会社は?

Aさんは「四季報」を見て、会社ごとの「平均年収」データを見比べています。気になる3社の平均年収は、
X社:600万円
Y社:700万円
Z社:650万円
でした。これを見て、一番稼げそうなのはY社だと判断し、エントリーしました。

他の平均年齢や男女比の情報は考えないとして、この情報だけでY社が一番稼げそう!と考えてしまっていいのでしょうか。
無論、そんな事はありません。
例えば、Y社は社長などの役員が大量に貰っていて平均値が引き上げられているだけかもしれません。
逆にX社は管理職も一般職も対して給与が変わらず、一般職だけで見たら一番給与が高い可能性もあります。

平均値ではY社が1番ですが、実は貰える給料はX社の方が高いという事も充分に考えられます。

もう1例見てみます。

テストの成績は本当に悪かった?

ある学校のテストの平均点は50点でしたが、B君が45点しか取れませんでした。
クラスで下の方になってしまったので、大変がっかりしました。

さて、平均点を下回っているだけで「点数が良くなかった」と判断してしまいがちです。
しかし、実は全員のテストの点数を見ると、

100点、45点、43点、41点、41点、40点、40点

というようになっている場合もある訳です。上の7つの平均は50点となっています。
平均点以下だけど、実は「45点」というのはクラスで2位だった・・・という。

流石に極端すぎる例ではありますが、今回のようにあからさまな天才が1人だけ紛れ込んでいるとこういった事が起こってしまいます。

なぜこんな事が起こるのか

何が問題かと言うと、上の2例とも「データの分布を全く考えていない」という事につきます。
まずはきちんとデータの分布を確認してから、「平均値」で物事を推し量ってしまってよいのかの検討が必要です。

1例目であれば、「役員は外れ値としてデータから除外する」といった前処理を行ってから平均値を見る、など。
2例目であれば、「実際の点数よりもクラス内の順位を重要な値と考える」といった方針にする、など。
・・・その時々によって最適な指針は変わってきます。

こういった事例以外にも、データが不均衡なのにも関わらず、「平均値」を当てに物事の判断している例が多々あると思います。
数値データを集計する際には今一度立ち止まって、「このデータは平均値で比較してしまって良いのだろうか?」と自問してみることが大切です。