「データアナリスト」と「データサイエンティスト」は何が違う?

「データアナリスト」「データサイエンティスト」という職種も、それなりに認知されるようになってきました。
しかし、結局は肩書だけで作業はエンジニアと変わらない・・・という実態になっている企業が多いように感じます。
例えば、最近では「データアナリスト」「データサイエンティスト」をAIの開発者のように扱われるなどですね。
ですがそれは一般的には「AIエンジニア」「機械学習エンジニア」の役割な訳で・・・。

とは言え、まだそのあたりの線引きは分かりやすいのですが、「データアナリスト」と「データサイエンティスト」の線引きは専門でも結構難しいのではないかなという事で、私なりに考えてみました。

共通する必須スキル

まずは、共通して必要なスキルについてです。

これも一概には言えませんが、例えば
基礎数学の知識・・・特に統計学、線形代数、微積分
プログラミングスキル・・・特にPython、R、SQL
機械学習用フレームワークの理解・・・Tensorflow、Keras、Chainer、など
データ分析基盤の構築スキル・・・Spark、Hadoop、など
ビジネス意識・・・「最終的にデータをどう活かすのか」「分析することにどれほど意味があるのか」という思考
などが、いずれにおいても必要な素質になるかと思います。
このご時世で言えば、ディープラーニングへの造詣も必要ですかね。

しかし、このあたりの基礎知識は「データアナリスト」「データサイエンティスト」に限らずとも、例えばAI開発系のアプリケーションエンジニアやインフラエンジニア、もしくはマネージャやディレクターであっても備えておくべきでしょう。

これらのスキルが一定に備わっている上で、「データサイエンティスト」や「データアナリスト」と名乗るのであれば、上記のスキルの中で突出していないといけないのは、やはり「基礎数学の知識」なのではないかと思います。

最近では便利なライブラリも増え、データ分析っぽいことは簡単に出来るようになりました。
ある程度ITの現場に携わった経験があれば、データ分析を行う事はそんなに難しくはないのですね。
これはこれで素晴らしいことですが、そのお陰で、誰でも「データアナリストもどき」「データサイエンティストもどき」が大量に生まれてしまいました。
そこで、「もどき」と「本物」との違いが現れるのはやはり「どれほど深くデータ分析手法やその特性についての理解があるか?」という所になってくると思います。

単純な例では、元のデータの分布も考えずに、その平均値や分散値を鵜呑みにしてしまうですとか、回帰分析において何でもかんでもR2値の高いものを選んでしまうなど。。。
会社にとって重要な決定を下すためのデータ分析ですら、こういった例は散見されます。

何も分析手法それぞれについての理論を数式で証明できなくてはいけないという事はないのですが、まずは多くの分析手法の知識と、課題に合わせ最適な手法を適用できる思考力が「データアナリスト」「データサイエンティスト」に重要な資質なのではないでしょうか。

sponsored link

「データサイエンティスト」と「データアナリスト」の役割の違い

では、ここからは「データアナリスト」と「データサイエンティスト」の棲み分けについて考えていきます。
上記のスキルを駆使してデータ分析を行う両者ですが、
データアナリストのタスクは、やはりanalystというくらいなので「分析すること」です。
データサイエンティストのタスクは、scientistというくらいなので「科学すること」です。
「科学」という言葉の定義は難しいのですが、「新たなものを発見する」というニュアンスはあるでしょう。
なので、やはりデータ分析を駆使して「未知のものを発見する」「未来に起こることを予測する」という事が任務になるのではないでしょうか。

さて、ここで少し統計学の話です。
「統計学」といっても様々な分野がありますが、大別すると以下の2つに分かれます。

【記述統計学】
今あるデータを整理、集計し、データに規則を見つけ出す事を主とした統計学です。
データ分析の手法で言うと、「相関分析」「クラスター分析」などがこれに当たります。

【推測統計学】
今あるデータから、未知のデータを予想することを主とした統計学です。
データ分析の手法で言うと、「回帰分析」「仮説検定」などがこれに当たります。

これを見ると、まさにデータアナリストは記述統計学のスペシャリストで、
データサイエンティストは推測統計学のスペシャリストであるべきではないかと考えられます。

勿論、この2つは全くの別の学問ではありません。
「記述統計学」を学ばなければ「推測統計学」は理解できませんし、「推測統計学」を学ぶことで「記述統計学」の理解は一層に深まるものです。
いずれも基本的な部分は押さえていて、その上で特にどちらの分野をビジネスに活用するか・・・という所に違いがあるのでしょう。

結論

以上のことから私は、
数学、IT、プログラミング、マネジメント、経営等の基礎知識を押さえた上で、
データアナリストは「記述統計学」を駆使して、過去のデータを整理し、説明を行う人。
データサイエンティストは「推測統計学」を駆使して、未来のデータを予測し、課題解決を行う人。

・・・と考えています。

データサイエンティストはより高度な数学の知識が必要でしょうが、そのかわりデータアナリストはデータを整理・表示するためのツール(Excel,Tableau,PowerBI,など)についてより深い知識が必要です。

何にしても、現在データ分析業務に携わっている方は、自らの業務を鑑みて自分は「データアナリスト」なのか「データサイエンティスト」なのか、はたまた「AIエンジニア」なのか、どれでも無い別のものなのか考えてみたり、
これからこういった職種を目指すor異動する方は「一体、自分は何になりたいのか?何が得意になりたいのか?」と、しっかり考える時間を設けると良いと思います。