データマイニングの基礎第3章データマイニングの高度な手法その2

今日もアンサンブル学習の続きからです。

確率的属性選択
- アンサンブル学習では個々の分類器の予測誤差が 0.5 より小さければ誤差を低減できる(個々の予測器の精度は良くなくてもいい)
- 予測器同士は独立しているほうがよい
  - 学習アルゴリズムにランダムネスを導入する
- ランダムフォレスト
  - 決定木で各ノードでの分類に使う属性をランダムに決定する
  - 枝刈りをしないことで訓練データに過適応する → ノイズに弱いが、アンサンブル学習ではそのほうがいい
バギング、ブースティング、確率的属性選択の組み合わせ
- MB (バギング + ブースティング)
- SASBAG (確率的属性選択 + バギング)
- SASBOOST(確率的属性選択 + ブースティング)
- SASMB (確率的属性選択 + バギング + ブースティング)
誤差修正出力コーディング
- 4クラス以上の多クラス分類に用いる手法
- 2クラス分類しかできない分類器を用いてアンサンブル学習する
  - 素朴な方法としては以下のものが
    - 各クラス毎に分類器を学習する(そのクラス or それ以外の分類をする)
    - クラスのペアの組み合わせ毎に分類器を学習して多数決
  - 誤差修正出力コーディングはクラスを 0,1 のビット列にコーディングして、各ビット毎の値をクラスとした分類器を学習
    - 分類器の数がクラス数の log2 になる