2020年4月29日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki データ分析・AIの性能 「特徴量エンジニアリング」でAIの性能を上げよう 機械学習を用いて「何かを予測するAI」を作成する時、その「予測精度」は非常に重要になります。 同じAIでも、70%当てるものと90%当てるものでは、その価値は大違いでしょう。 たとえ目的が同じであっても、「AIの作り方」 […]
2020年4月18日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki データ分析の手法 機械学習とは何か?どんな種類があるのか? 「機械学習」と言うと、「AIを作るために必要な技術」・・・という認識の方も多いです。 しかし、機械学習はAI開発のためだけのものではありません。 機械学習はIT企業だけではなくいかなる業種・職種でも有用なデータ分析の武器 […]
2020年3月24日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki Pythonデータ分析 Pythonによる勾配ブースティング(GBDT)の実行方法 機械学習手法「勾配ブースティング」は、データ分析コンペティション「Kaggle」で良い性能を出す事が多く、一気に多用されるようになりました。 個人の主観としても「数量データ分析における最強の機械学習手法」ではないかと考え […]
2020年3月15日 / 最終更新日 : 2020年8月5日 Takuma Nishimaki プロジェクト推進 AI開発プロジェクト/データ分析プロジェクトに必要なスキル 「データの利活用」といえば、「AIの開発」もしくは「データ分析」のいずれかになるのではないでしょうか。 前者はIT系の企業に限られるかもしれませんが、後者はシンクタンクやコンサルティングファームを始めとした殆どの企業で行 […]
2020年3月8日 / 最終更新日 : 2021年2月20日 Takuma Nishimaki Pythonデータ分析 Pythonによるテキストデータの表記揺れ対策あれこれ アンケートデータなどのテキスト情報を集計・分析する時、“表記揺れ”には非常に悩まされます。 例えば、同じ単語でも「Windows10」「Windows10」「WINDOWS10」「Windows- […]
2020年2月2日 / 最終更新日 : 2021年2月20日 Takuma Nishimaki データ分析の手法 ナイーブベイズ分類器の仕組み ナイーブベイズ(単純ベイズ)とは、あるデータがどのカテゴリに属するかを確率的に求める機械学習のひとつです。 特にナイーブベイズが多用されるのはテキスト分類で、例えばメールの文面がスパムか、スパムでないかを推定する「ベイジ […]
2020年1月25日 / 最終更新日 : 2020年8月5日 Takuma Nishimaki Pythonデータ分析 はじめてのPythonによるDataFrame処理 データ分析するためのツールの代表といえばExcelですが、複雑な処理をしたい場合にはExcelでは難しくなってきます。 そんな時はPythonの出番です。Pythonでのデータ操作を使いこなせば、どんな複雑な処理であって […]
2020年1月17日 / 最終更新日 : 2021年10月12日 Takuma Nishimaki Excelデータ分析 「t検定」を正しく理解しよう 例えば、ある会社の全社員に「あなたにとってこの会社は100点中何点ですか?」というアンケートを取ったとします。 その結果、全社員の平均値が昨年60点だったのが、今年は80点に上がりました。 この結果を見ると、多くの方は社 […]
2020年1月16日 / 最終更新日 : 2020年4月8日 Takuma Nishimaki Excelデータ分析 「分散」「標準偏差」を正しく理解しよう データ分析や統計学を学ぶと、「分散」や「標準偏差」という言葉は極めて序盤に出てきます。 なんとなく、「データのばらつき具合の指標」であることは分かっているですが、解釈が分かりづらいためか、実際にこれらの指標が用いられてい […]
2020年1月15日 / 最終更新日 : 2021年10月9日 Takuma Nishimaki Excelデータ分析 「相関係数」を正しく理解しよう 「相関」とは、ある2つのデータが互いにどれほど影響を及ぼしているかを表す指標です。 例えば、ある売店において、「入り口から陳列棚までの距離」と「その商品の売上数」に相関関係があることが分かったとします。 そうすると、売り […]