データマイニングの基礎第4章前処理・データ変換その3

属性選択の評価基準
- ラッパ法は学習結果の精度そのものを基準にする
- フィルタ法では事前にわかる基準を指標に
- 属性の「良さ」
  - 属性値をもつデータ数が少ないほうが良い -- ここ(p.135)多分 typo がありますね。
  - 予測精度
    - ベイズの分類器を用いる(一例として)
    - 属性を1つ削ってみて予測精度をみる。変化しない(100%)の場合はその属性は予測に寄与していないので削れる
  - 情報利得比
  - Gini係数
  - 距離尺度
    - Directed Divergence
    - Variance
    - 数式が書けないけど、それぞれ確率分布からのずれで評価
  - 依存尺度
  - 不整合度
    - 「クラスが異なるのに属性値は同じ」というデータには矛盾がある(他の属性値とのくみあわせもあるはずだけど)
    - (属性の値が同じデータ数) - (その中でクラスが同じものの最大数) = 不整合数と定義して不整合数 / 全データ数 = 不整合度 M を計算して、不整合度の大きい属性を削る