データマイニングの基礎 第4章 前処理・データ変換 その1

今日から第4章に入ります。

  • 数値属性の離散化
    • 数値を区間に分割してグルーブ化する
    • シンボルを対象とする手法で数値属性を扱うためには離散化が必要
    • 分割が粗すぎると情報が失われるし、細かすぎると1つの区間のデータが少なくなってしまうのでうまい分割が必要
    • 複数の数値属性をそれぞれ分割する時は属性の軸に直行しない分割や非線形な分割もありえるが、だいたいは軸に直行する超平面で分割
  • 分類器構築と同時に離散化するのを「動的離散化」、あらかじめ離散化しておくのを「静的離散化」と呼ぶ
    • クラス分類の情報を用いて分割する手法もある
  • 各属性単体の離散化
    • 等間隔区間(EWI)と等頻度区間
      • なんとなく名前からわかる印象の通り、等間隔に分割/区間に含まれるデータ数を等価にするように分割
    • ChiMerge
      • χ二乗検定を用いた離散化手法。クラス情報を用いる
      • 区間を結合することで離散化とクラス分布が独立であるという仮説がχ^2で棄却されない範囲で結合する
    • 情報エントロピーによる手法
    • 最小記述長原理(MDLP)を用いた手法
      • ある符号化でデータを符号化してデータを一意に特定するのに必要なビット長
      • 離散化方式の記述に必要な記述長と分割したデータの記述長の和が最小となるようにする
  • 属性間の相関を考慮した離散化手法
    • 複数の数値属性の分割を独立な方法ではなく超立方体で分割
    • 属性間の相関が強いと独立した分割がうまくないことがある
    • 情報エントロピーに基いた手法
    • クラスタリング手法の応用

だいぶ割愛しましたが、前処理の数値離散化だけでも凝りはじめると分析の手法と同じくらい複雑なことをすることになるんですね。