データマイニングの基礎 第4章 前処理・データ変換 その3
- 属性選択の評価基準
- ラッパ法は学習結果の精度そのものを基準にする
- フィルタ法では事前にわかる基準を指標に
- 属性の「良さ」
- 属性値をもつデータ数が少ないほうが良い -- ここ(p.135)多分 typo がありますね。
- 予測精度
- ベイズの分類器を用いる(一例として)
- 属性を1つ削ってみて予測精度をみる。変化しない(100%)の場合はその属性は予測に寄与していないので削れる
- 情報利得比
- Gini係数
- 距離尺度
- Directed Divergence
- Variance
- 数式が書けないけど、それぞれ確率分布からのずれで評価
- 依存尺度
- 不整合度
- 「クラスが異なるのに属性値は同じ」というデータには矛盾がある(他の属性値とのくみあわせもあるはずだけど)
- (属性の値が同じデータ数) - (その中でクラスが同じものの最大数) = 不整合数 と定義して不整合数 / 全データ数 = 不整合度 M を計算して、不整合度の大きい属性を削る