教師あり学習

教師あり学習の手法まとめ

機械学習の手法のうち、「教師あり」の手法について整理します。
教師ありというのは、「原因」と「結果」のデータが揃っているデータの事を指します。
例えば、「天気」「気温」「宣伝の有無」・・・といったデータ(原因)と、その時の「売上」(結果)といった感じです。

逆に、そういった情報が無いものは「教師なし」と呼びます。
単に「天気」「気温」と言った情報だけが存在していて、特に知りたい情報が紐付いていないものです。

教師なし学習の手法まとめ本記事では「教師なし」の統計解析手法について整理します。 「教師あり」は「原因」と「結果」が揃っているデータの事を言います。 逆...

今回は「教師あり」のデータにおいて、どんな時にどんな手法が適用できるのか整理してみます。
教師あり学習の手法は、「回帰分析」「決定木分析」「パターン認識」「ニューラルネットワーク」の4種類に分類しました。

回帰分析

まずは、原因データと目的データがそれぞれ「数値」か「カテゴリ」なのかを見定めます。
「カテゴリ」というのは○×やアンケート調査の〜段階評価のような、決められた値しか取らないデータです。

回帰分析においては、データの形式が数値かカテゴリなのかさえ決まれば、適用できる手法は以下のようにほぼ機械的に決まってきます。

原因=数量
原因=カテゴリ
結果=数量
数量化1類
結果=カテゴリ
【2値以上】判別分析
数量化2類
エクセルによる重回帰分析 以前、回帰分析を用いて気温とアイスクリームの売上の関係について推測しました。 https://analysis-navi....

決定木分析

原因と結果の関連を「ツリー構造」で表すことができる手法です。

決定木分析

決定木分析には2種類あり、それは結果のデータが「数値」か「カテゴリ」なのかで決まります。
原因データは数値やカテゴリが混在していても問題ありません。

結果が数値の場合は「回帰木」、カテゴリの場合は「分類木」を使います。
しかし殆ど同じ理屈で計算されますので、「ツリー構造の結果を得たい場合は決定木分析」という理解で問題無いと思います。

Pythonによる決定木分析データ分析手法のひとつ「決定木分析」をPythonで実行してみます。 決定木分析は経営の意思決定などビジネスで活躍することの多い手...

ランダムフォレスト

より機械学習的に、様々なパラメータで決定木分析を何度も行い、最も性能が良かった決定木を決定します。

Pythonによるランダムフォレストの実行方法Pythonを使ってランダムフォレストを実行してみます。 決定木分析を基調とした手法なので、先に決定木分析の記事を読んで頂いてからの方...

勾配ブースティング

ランダムフォレストの応用です。
闇雲に決定木を沢山作るわけでなく、「良い決定木」が得られるように理論的に木の構造を調整していきます。

パターン認識

画像・音声なども含む複雑な情報の中から規則を発見するための様々な手法です。

k-NN(k近傍法)

クラスタ分け済のデータがすでに存在している状態で新しいデータを与えた時に、そのデータがどのクラスに属するかを判別します。
「最も単純な機械学習手法」とも言われますが、データ量によっては計算量が相当かかります。

SVM(サポートベクターマシン)

2次元平面上にある2つのクラスを、曲線を使って分離できる技術です。
n次元平面、nクラスに拡張することも可能で、非常に柔軟かつ高精度となる事が多いので長年に渡って使われている手法です。

PythonによるSVM(サポートベクターマシン)の実行Pythonで機械学習のひとつSVM(サポートベクターマシン)を実行してみます。 1963年に基礎理論が発表されてから未だに使用される...

ベイズ推定

分類問題の解をベイズ確率の理論に基づき推定する技術です。

ニューラルネットワーク

ニューラルネットワークを利用して分析する手法です。
ディープラーニングもここに含まれます。

CNN(畳み込みニューラルネットワーク)

Convolutional Neural Networkの略で、主に画像判別に用いられるディープラーニング技術の一つです。

RNN(再帰型ニューラルネットワーク)

Recurrent neural networkの略で、言語データや音声データに対して用いられることが多いディープラーニング技術の一つです。

最後に

以上、機械学習における教師あり分析の手法一覧でした。
不足や認識の違いなどありましたらご連絡頂けますと幸いです。