毎朝30分読書会

データマイニングの基礎第2章データマイニングの基礎的な手法その1

今日からやや具体的な手法の説明に入ります

決定木
- データを部分集合に分割する構造
  - 分割がカテゴリによる分類木と数値による回帰木がある
  - 属性とクラス(分類したい事象)を持つデータセットを木構造に分類する
  - Gini インデックス(ジニ係数のこと?)、エントロピーなどを指標として各ノードで分割する属性を決定する
  - 情報利得による決定木学習
    - 各ノードである属性で分割した場合によりクラスが偏るように分割する属性を決める
    - 葉ノードには同じクラスのデータのみ存在するのが理想的だが、データのノイズでそうならない場合もある
  - 情報利得比による決定木学習
    - 上記の方法では、より選択肢の多い属性で分割するようになりやすいが、それでは良い決定木にならない
    - 属性で分割する時の情報量で情報利得を正規化する(割る)。つまり枝分かれが多い分割をする時は情報利得はそのぶん低く計算される
- 決定木の枝刈り
  - 事前枝刈り - 学習途中で過学習になると予測したノードの分割を抑制する
  - 事後枝刈り - 決定木作成後に過学習と判断した部分木を削除する

一応決定木の話題はここまでですが、枝刈りについてはもう少し読みます。