2020年4月29日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki データ分析・AIの性能 「特徴量エンジニアリング」でAIの性能を上げよう 機械学習を用いて「何かを予測するAI」を作成する時、その「予測精度」は非常に重要になります。 同じAIでも、70%当てるものと90%当てるものでは、その価値は大違いでしょう。 たとえ目的が同じであっても、「AIの作り方」 […]
2020年4月18日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki データ分析の手法 機械学習とは何か?どんな種類があるのか? 「機械学習」と言うと、「AIを作るために必要な技術」・・・という認識の方も多いです。 しかし、機械学習はAI開発のためだけのものではありません。 機械学習はIT企業だけではなくいかなる業種・職種でも有用なデータ分析の武器 […]
2020年3月24日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki Pythonデータ分析 Pythonによる勾配ブースティング(GBDT)の実行方法 機械学習手法「勾配ブースティング」は、データ分析コンペティション「Kaggle」で良い性能を出す事が多く、一気に多用されるようになりました。 個人の主観としても「数量データ分析における最強の機械学習手法」ではないかと考え […]
2019年12月29日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki データ分析の手法 「クラスタリング」とは何に使える?どんな手法がある? 様々あるデータ分析手法の中でも非常に活躍の機会が多い「クラスタリング」ですが、一体クラスタリングとは何なのでしょうか? 一概に「クラスタリング」と言っても、その手法は様々です。 それらの意味をきちんと理解して使わなければ […]
2019年12月25日 / 最終更新日 : 2021年2月20日 Takuma Nishimaki データ分析・AIの性能 適切な誤差指標の選び方 何かしらで行った数値の「予測」と、「正解」がどれほど離れているかを評価したい時があります。 例えば、あるサッカーチームの向こう10回の試合結果を2人で予測し合って、どちらの予想が近かったかで勝負するとします。 予測が3点 […]
2019年11月3日 / 最終更新日 : 2021年2月20日 Takuma Nishimaki データ分析・AIの性能 「平均適合率」と「MAP」の意味 予測された「ランキング」がどれだけ正解に近いかを評価したい事があります。 例えば、Googleのような文章検索システム。 例えば「人工知能 仕組み」という言葉で検索したとすると、関連するホームページが上位に大量に出てきま […]
2019年10月28日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki Pythonデータ分析 Pythonでランダムフォレストを実行する方法 Pythonを使ってランダムフォレストを実行してみます。 決定木分析を基調とした手法なので、先に決定木分析の記事を読んで頂いてからの方が分かりやすいかもしれません。 Pythonによる決定木分析 ランダムフォレストとは […]
2019年10月20日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki Pythonデータ分析 PythonによるSVM(サポートベクターマシン)の実行 Pythonで機械学習のひとつSVM(サポートベクターマシン)を実行してみます。 1963年に基礎理論が発表されてから未だに使用される事の多い、機械学習の代表的手法です。 サポートベクターマシンとは 以下のように、座標平 […]
2019年10月5日 / 最終更新日 : 2021年1月23日 Takuma Nishimaki Pythonデータ分析 Python+Doc2Vecで似た意味を持つ文章を調べる 以前、単語をベクトル化できる技術「Word2Vec」を用いて似た意味を持つ単語を調べてみました。 今度は、文章をベクトル化できる技術「Doc2Vec」を用いて、似た意味を持つ文章を調べてみます。 Python+Word2 […]
2019年9月8日 / 最終更新日 : 2021年2月20日 Takuma Nishimaki Pythonデータ分析 Python+Word2Vecで似た意味を持つ単語を調べる 文章中に含まれる「単語の使われ方」を見て、そこから単語同士の類似性を測ってみます。 そのためには単語を数字のベクトルで表現する必要があるのですが、今回はGoogleが2013年に発表した「Word2Vec」という技術を用 […]