2020年8月14日 / 最終更新日 : 2020年11月3日 Takuma Nishimaki Pythonデータ分析 【Python】正規分布に従っているかを調べる手法3種 t検定の適用の可否を調べたい時など、データが正規分布に従っているかどうかを調べたい時があります。 ヒストグラムを書いてみれば、見た目でなんとなく正規分布っぽいかどうかは分かりますが、それは正確ではありません。 データが正 […]
2020年7月11日 / 最終更新日 : 2020年7月11日 Takuma Nishimaki Pythonデータ分析 Pythonによる綺麗な散布図の作成方法 Pythonを使って、綺麗な散布図を作る方法です。 seabornライブラリの、scatterplot、jointplot、pairplotを使用します。 使用データの読み込み この記事では以下のデータを使用して、様々な […]
2020年6月1日 / 最終更新日 : 2020年6月1日 Takuma Nishimaki Pythonデータ分析 Pythonによる綺麗なヒストグラムの作成方法 Pythonを使って、綺麗なヒストグラムを作りましょう。 seabornライブラリのdistplotを使用していきます。 また、環境はJupyter notebookを使用していることを想定しています。 使用データの読み […]
2020年5月21日 / 最終更新日 : 2020年8月5日 Takuma Nishimaki Pythonデータ分析 Pythonによる仮説検定の実行方法 Pythonで仮説検定を行う方法です。 t検定、ウィルコクソンの符号順位検定、ウィルコクソンの順位和検定(マン・ホイットニーのU検定)、カイ二乗検定についてご紹介しています。 どういう時にどの手法を使えば良いのかについて […]
2020年5月10日 / 最終更新日 : 2020年11月30日 Takuma Nishimaki Pythonデータ分析 Pythonによる4種の次元削減と可視化 以下4つの次元削減アルゴリズムをPythonで実行し、それぞれで2次元のグラフを作成してみます。 PCA(Principal Component Analysis:主成分分析) SVD(Singular Value De […]
2020年4月29日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki データ分析・AIの性能 「特徴量エンジニアリング」でAIの性能を上げよう 機械学習を用いて「何かを予測するAI」を作成する時、その「予測精度」は非常に重要になります。 同じAIでも、70%当てるものと90%当てるものでは、その価値は大違いでしょう。 たとえ目的が同じであっても、「AIの作り方」 […]
2020年4月18日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki データ分析の手法 機械学習とは何か?どんな種類があるのか? 「機械学習」と言うと、「AIを作るために必要な技術」・・・という認識の方も多いです。 しかし、機械学習はAI開発のためだけのものではありません。 機械学習はIT企業だけではなくいかなる業種・職種でも有用なデータ分析の武器 […]
2020年3月24日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki Pythonデータ分析 Pythonによる勾配ブースティング(GBDT)の実行方法 機械学習手法「勾配ブースティング」は、データ分析コンペティション「Kaggle」で良い性能を出す事が多く、一気に多用されるようになりました。 個人の主観としても「数量データ分析における最強の機械学習手法」ではないかと考え […]
2020年3月15日 / 最終更新日 : 2020年8月5日 Takuma Nishimaki プロジェクト推進 AI開発プロジェクト/データ分析プロジェクトに必要なスキル 「データの利活用」といえば、「AIの開発」もしくは「データ分析」のいずれかになるのではないでしょうか。 前者はIT系の企業に限られるかもしれませんが、後者はシンクタンクやコンサルティングファームを始めとした殆どの企業で行 […]
2020年3月8日 / 最終更新日 : 2021年2月20日 Takuma Nishimaki Pythonデータ分析 Pythonによるテキストデータの表記揺れ対策あれこれ アンケートデータなどのテキスト情報を集計・分析する時、“表記揺れ”には非常に悩まされます。 例えば、同じ単語でも「Windows10」「Windows10」「WINDOWS10」「Windows- […]