データマイニングの基礎 第3章 データマイニングの高度な手法 その2
今日もアンサンブル学習の続きからです。
- 確率的属性選択
- アンサンブル学習では個々の分類器の予測誤差が 0.5 より小さければ誤差を低減できる(個々の予測器の精度は良くなくてもいい)
- 予測器同士は独立しているほうがよい
- 学習アルゴリズムにランダムネスを導入する
- ランダムフォレスト
- 決定木で各ノードでの分類に使う属性をランダムに決定する
- 枝刈りをしないことで訓練データに過適応する → ノイズに弱いが、アンサンブル学習ではそのほうがいい
- バギング、ブースティング、確率的属性選択の組み合わせ
- MB (バギング + ブースティング)
- SASBAG (確率的属性選択 + バギング)
- SASBOOST(確率的属性選択 + ブースティング)
- SASMB (確率的属性選択 + バギング + ブースティング)
- 誤差修正出力コーディング
- 4クラス以上の多クラス分類に用いる手法
- 2クラス分類しかできない分類器を用いてアンサンブル学習する
- 素朴な方法としては以下のものが
- 各クラス毎に分類器を学習する(そのクラス or それ以外の分類をする)
- クラスのペアの組み合わせ毎に分類器を学習して多数決
- 誤差修正出力コーディングはクラスを 0,1 のビット列にコーディングして、各ビット毎の値をクラスとした分類器を学習
- 分類器の数がクラス数の log2 になる
- 素朴な方法としては以下のものが