データマイニングの基礎 第3章 データマイニングの高度な手法 その2

今日もアンサンブル学習の続きからです。

  • 確率的属性選択
    • アンサンブル学習では個々の分類器の予測誤差が 0.5 より小さければ誤差を低減できる(個々の予測器の精度は良くなくてもいい)
    • 予測器同士は独立しているほうがよい
    • ランダムフォレスト
      • 決定木で各ノードでの分類に使う属性をランダムに決定する
      • 枝刈りをしないことで訓練データに過適応する → ノイズに弱いが、アンサンブル学習ではそのほうがいい
  • バギング、ブースティング、確率的属性選択の組み合わせ
    • MB (バギング + ブースティング)
    • SASBAG (確率的属性選択 + バギング)
    • SASBOOST(確率的属性選択 + ブースティング)
    • SASMB (確率的属性選択 + バギング + ブースティング)
  • 誤差修正出力コーディング
    • 4クラス以上の多クラス分類に用いる手法
    • 2クラス分類しかできない分類器を用いてアンサンブル学習する
      • 素朴な方法としては以下のものが
        • 各クラス毎に分類器を学習する(そのクラス or それ以外の分類をする)
        • クラスのペアの組み合わせ毎に分類器を学習して多数決
      • 誤差修正出力コーディングはクラスを 0,1 のビット列にコーディングして、各ビット毎の値をクラスとした分類器を学習
        • 分類器の数がクラス数の log2 になる