データは綺麗に作ろう〜データクレンジングの基本〜
データの集計を行う際には、まず初めにきちんとデータ形式を確定させてからにしないと後々面倒になります。
例えば以下のような、10名の身長データがあるとします。
この表を見て、どう思われるでしょうか。
なんとなく「いい加減に作られた表」だと思われるのではないでしょうか。
何が問題なのか、1つ1つ見ていきましょう。
性別の表記が「男」「女」、「男性」「女性」とごっちゃになっている
たとえば、データ集計後に男女別の平均値等を出すなどといった際に、表記の違いがあるとうまくデータを抽出できません。
1人でデータを作っているとあまりこういった事にはならないのですが、多くの人が同じExcelでデータ追加・更新を行なっていくと、意外とこういった事態が起こりがちです。
事前に、メンバ間で「表記方法」については充分にすり合わせを行なっておきましょう。
身長の欄に空欄がある
「空欄」というのは曲者で、それが入力ミスによるものなのか、その人のデータが本当に取れなかったのか、
はたまた「上の欄と同じ値」という事を意味する場合もあったりします。
このような欠損値は時と場合によって処理が変わりますが、「そのデータは無いものとする」といった処理が一般的です。
が、貴重なデータを失うことになりますので、なるべく「本当にデータが取れなかった」という場合以外は、欠損値を作らないように、丁寧にデータを作成するようにしましょう。
本当に欠損値であった場合も、分かりやすく「null」「NaN」「-」などと入れておき、空っぽのセルを作らないことが肝心です。
身長の欄に入力ミスと思われる欄がある
Fさんの身長が「1772」となっていますが、流石に身長が17mある方はいないので、おそらく「177.2」の入力ミスでは無いか?と考えられます。
が、これはこのデータが「身長」という分かりやすいもので、単位が「cm」であると容易に推測できる上、データ数が少ないからこのミスを発見できた訳です。
実際は、身長のような分かりやすいデータばかりではなく、もっと表のサイズも大きいでしょう。
そう考えると表を見て「明らかな入力ミス」だと認識できる場合の方が圧倒的に少ない訳です。
人間、疲れてくるとどうしてもこういったミスが起こりがちですが、正しいデータ分析のためにも、入力ミスをすること、ないしはこういった作業ミスが起こりやすい環境にチームの身を置くことには細心の注意を払いましょう。
身長の欄の有効数字が統一されていない
小数点以下何桁まで入力するのか、統一されていないようです。
2行目に「169」とありますが、これが「169.0」を意味するのか、それとも四捨五入した結果169になったのか、小数点以下の入力を忘れてしまったのか分かりません。
仮に「169.0」だったとしても、Hさんの身長が「170.0」と入力されていますので、前述した「表記方法」の意識合わせがうまく出来ていないとも見ることができます。
見落とされがちですが、この「有効数字」も、きちんと意識合わせが必要です。
まとめ
このように、問題なくデータを作成しているように見えても、細かいミスは色々な所に起こってしまうものです。
データ分析作業にせよ、AIへのインプットデータ作成にせよ、最善の意思決定や高性能なシステム作成のためには
人間は「データを正確に」作らねばならないと、肝に銘じておきましょう。