データマイニングの基礎 第4章 前処理・データ変換 その3

  • 属性選択の評価基準
    • ラッパ法は学習結果の精度そのものを基準にする
    • フィルタ法では事前にわかる基準を指標に
    • 属性の「良さ」
      • 属性値をもつデータ数が少ないほうが良い -- ここ(p.135)多分 typo がありますね。
      • 予測精度
        • ベイズの分類器を用いる(一例として)
        • 属性を1つ削ってみて予測精度をみる。変化しない(100%)の場合はその属性は予測に寄与していないので削れる
      • 情報利得比
      • Gini係数
      • 距離尺度
        • Directed Divergence
        • Variance
        • 数式が書けないけど、それぞれ確率分布からのずれで評価
      • 依存尺度
      • 不整合度
        • 「クラスが異なるのに属性値は同じ」というデータには矛盾がある(他の属性値とのくみあわせもあるはずだけど)
        • (属性の値が同じデータ数) - (その中でクラスが同じものの最大数) = 不整合数 と定義して不整合数 / 全データ数 = 不整合度 M を計算して、不整合度の大きい属性を削る