教師あり学習の手法まとめ
機械学習の手法のうち、「教師あり」の手法について整理します。
教師ありというのは、「原因」と「結果」のデータが揃っているデータの事を指します。
例えば、「天気」「気温」「宣伝の有無」・・・といったデータ(原因)と、その時の「売上」(結果)といった感じです。
逆に、そういった情報が無いものは「教師なし」と呼びます。
単に「天気」「気温」と言った情報だけが存在していて、特に知りたい情報が紐付いていないものです。
今回は「教師あり」のデータにおいて、どんな時にどんな手法が適用できるのか整理してみます。
教師あり学習の手法は、「回帰分析」「決定木分析」「パターン認識」「ニューラルネットワーク」の4種類に分類しました。
回帰分析
まずは、原因データと目的データがそれぞれ「数値」か「カテゴリ」なのかを見定めます。
「カテゴリ」というのは○×やアンケート調査の〜段階評価のような、決められた値しか取らないデータです。
回帰分析においては、データの形式が数値かカテゴリなのかさえ決まれば、適用できる手法は以下のようにほぼ機械的に決まってきます。
原因=数量 | 原因=カテゴリ | |
結果=数量 | 重回帰分析 | 数量化1類 |
結果=カテゴリ |
【2値】ロジスティック回帰分析 【2値以上】判別分析 |
数量化2類 |
決定木分析
原因と結果の関連を「ツリー構造」で表すことができる手法です。
決定木分析
決定木分析には2種類あり、それは結果のデータが「数値」か「カテゴリ」なのかで決まります。
原因データは数値やカテゴリが混在していても問題ありません。
結果が数値の場合は「回帰木」、カテゴリの場合は「分類木」を使います。
しかし殆ど同じ理屈で計算されますので、「ツリー構造の結果を得たい場合は決定木分析」という理解で問題無いと思います。
ランダムフォレスト
より機械学習的に、様々なパラメータで決定木分析を何度も行い、最も性能が良かった決定木を決定します。
勾配ブースティング
ランダムフォレストの応用です。
闇雲に決定木を沢山作るわけでなく、「良い決定木」が得られるように理論的に木の構造を調整していきます。
パターン認識
画像・音声なども含む複雑な情報の中から規則を発見するための様々な手法です。
k-NN(k近傍法)
クラスタ分け済のデータがすでに存在している状態で新しいデータを与えた時に、そのデータがどのクラスに属するかを判別します。
「最も単純な機械学習手法」とも言われますが、データ量によっては計算量が相当かかります。
SVM(サポートベクターマシン)
2次元平面上にある2つのクラスを、曲線を使って分離できる技術です。
n次元平面、nクラスに拡張することも可能で、非常に柔軟かつ高精度となる事が多いので長年に渡って使われている手法です。
ベイズ推定
分類問題の解をベイズ確率の理論に基づき推定する技術です。
ニューラルネットワーク
ニューラルネットワークを利用して分析する手法です。
ディープラーニングもここに含まれます。
CNN(畳み込みニューラルネットワーク)
Convolutional Neural Networkの略で、主に画像判別に用いられるディープラーニング技術の一つです。
RNN(再帰型ニューラルネットワーク)
Recurrent neural networkの略で、言語データや音声データに対して用いられることが多いディープラーニング技術の一つです。
以上、機械学習における教師あり分析の手法一覧でした。