記事一覧
-
「特徴量エンジニアリング」でAIの性能を上げよう
機械学習を用いて「何かを予測するAI」を作成する時、その「予測精度」は非常に重要になります。同じAIでも、70%当てるものと90%当てるものでは、その価値は大違いでしょう。 たとえ目的が同じであっても、「AIの作り方」によってその精度は変わってきます... -
機械学習とは何か?どんな種類があるのか?
「機械学習」と言うと、「AIを作るために必要な技術」・・・という認識の方も多いです。しかし、機械学習はAI開発のためだけのものではありません。機械学習はIT企業だけではなくいかなる業種・職種でも有用なデータ分析の武器です。 「AI」というのは、あ... -
Pythonによる勾配ブースティング(GBDT)の実行方法
機械学習手法「勾配ブースティング」は、データ分析コンペティション「Kaggle」で良い性能を出す事が多く、一気に多用されるようになりました。 個人の主観としても「数量データ分析における最強の機械学習手法」ではないかと考えており(後述します)、機械... -
AI開発プロジェクト/データ分析プロジェクトに必要なスキル
「データの利活用」といえば、「AIの開発」もしくは「データ分析」のいずれかになるのではないでしょうか。前者はIT系の企業に限られるかもしれませんが、後者はシンクタンクやコンサルティングファームを始めとした殆どの企業で行うべきものです。 しかし... -
Pythonによるテキストデータの表記揺れ対策あれこれ
アンケートデータなどのテキスト情報を集計・分析する時、"表記揺れ"には非常に悩まされます。例えば、同じ単語でも「Windows10」「Windows10」「WINDOWS10」「Windows-10」・・・といって、人によって様々な書き方があります。このような表記揺... -
ナイーブベイズ分類器の仕組み
ナイーブベイズ(単純ベイズ)とは、あるデータがどのカテゴリに属するかを確率的に求める機械学習のひとつです。 特にナイーブベイズが多用されるのはテキスト分類で、例えばメールの文面がスパムか、スパムでないかを推定する「ベイジアンフィルタ」の仕組... -
はじめてのPythonによるDataFrame処理
データ分析するためのツールの代表といえばExcelですが、複雑な処理をしたい場合にはExcelでは難しくなってきます。そんな時はPythonの出番です。Pythonでのデータ操作を使いこなせば、どんな複雑な処理であっても自由自在にデータ分析することができます... -
「t検定」の意味とExcelでの実行方法
ある会社の社員に「あなたにとってこの会社は100点中何点ですか?」というアンケートを取ったとします。その結果、全社員の平均値が昨年60点だったのが、今年は80点に上がりました。この結果を見ると、多くの方は社員満足度が向上したと考えると思います。... -
「分散」「標準偏差」を正しく理解しよう
データ分析や統計学を学ぶと、「分散」や「標準偏差」という言葉は極めて序盤に出てきます。なんとなく、「データのばらつき具合の指標」であることは分かっているですが、解釈が分かりづらいためか、実際にこれらの指標が用いられている事は少ないように... -
「相関係数」の意味とエクセルでの実行方法
「相関」とは、ある2つのデータが互いにどれほど影響を及ぼしているかを表す指標です。 例えば、ある売店において、「入り口から陳列棚までの距離」と「その商品の売上数」に相関関係があることが分かったとします。そうすると、売りたい商品は入り口付近... -
Pythonで化学式を構成元素に分解する
Pythonを用いて、化学式(組成式)を構成元素とその数に分割する方法です。例えば、「C16H10ClN3」というように記載された化学式を、{C:16,H:10,Cl:1,N:3}という辞書データに分解することをゴールとしています。 関数の作成 化学式を入力して、構成要素を... -
「クラスタリング」とは何に使える?どんな手法がある?
様々あるデータ分析手法の中でも非常に活躍の機会が多い「クラスタリング」ですが、一体クラスタリングとは何なのでしょうか? 一概に「クラスタリング」と言っても、その手法は様々です。それらの意味をきちんと理解して使わなければ、正しく分析を行えな...