データマイニングの基礎第1章データマイニング入門その1

今日からまた少し系統の違う本として「データマイニングの基礎」を読むことにします。

第1章はそもそもデータマイニングとはなにを指すのかといったあたりからです

情報の価値が高くなっている
- 量が質に変化する
エキスパートシステムとの対比
- データマイニングではデータに内在する非明示的な知識を発掘、利用しようとする
KDD (Knowledge Discovery in Database)
- 利用可能な知識をデータから発見する
機械学習との対比
- 機械学習ではデータのもととなるモデルやメカニズムが注目されるが、データマイニングではあくまでデータが主でその裏にモデルの存在を必ずしも仮定しない(パターンが見つかればそれでいいだけで因果律を知ることを主眼としていないということかな)
データマイニングのプロセス
- データの獲得、選択(データウェアハウシング、データを一括管理できるようにする)
- 前処理(ノイズ、異常値の除去、欠損補間、離散化/連続化)、変換(表形式にしたり、逆に構造化データにしたり)
- パターンの発見
- 解釈、評価
  - 知識はその予測精度などよりも解釈に重きが置かれる。理解できない知識は使われない
    - ここは前述の機械学習との対比と矛盾があるように思う。あくまで抽出したパターンが重要でモデル(解釈)が主人公ではなかったはずなのに、ここの記述では反対になっている
- 目標の設定が重要