データマイニングの基礎第5章知識の精度評価その1

なかなか夜に読むのは捗らないです。

学習したモデルの評価する方法についての話題です

誤差評価
統計的モデルの推定量の性質
- 不偏性
  - 推定量の期待値が母集団の値に一致する(不偏推定量)
- 一致性
  - 標本数が大きくなるにつれて母集団の真の値に漸近していく
- 有効性
  - いくつかの不偏推定量があったとき、その分散の小さいほうを有効であると呼ぶ
データの偏り
- サンプリング理論により、サンプリングスキーマと母集団の統計分布の仮定を元にどれだけのサンプルを収集しないといけないかを計算する。詳細は書かれていない。
決定木、ルール生成は訓練データに過学習しやすく、新たなデータをうまく扱えなくなる可能性がある
リサンプリング法により、品質の良い不偏推定量を求めることができる
- 元データ(S)から訓練データ(S1)とテストデータ(S2)を生成する
- S1 でモデル導出する(訓練する)
- S2 を使ってモデルの統計量を評価する
- このステップを繰り返すことで精度を上げていく
- 最初のデータ生成(Generation Process)の方法によりいくつかの手法がある
  - 交叉検証法(Cross-validation)
    - 元データから一定数を抜き取り S2 として、残りを S1 にする
    - 元データ(S)の k個の部分集合(L)をつくり、それぞれを S - L で学習して L で評価するのを k-fold cross-validation と呼ぶ。特に k が S のサイズと等しい時には S からひとつずつ要素を省いて、残りで学習する(というのを要素数回数くりかえす)というのを Leave-one-out法と呼ぶ
    - 交叉検証法による推定量は分散が大きい(有効性は低い)が平均値は精度が良い
    - 分散を小さくするため反復する方法があるが反復回数の決定法などは経験的なものが大きい
  - ブートストラップ法(bootstrap)
    - データの標本に経験分布関数(通常は一律になるように)を定めて、重複を許して一定数サンプリングして学習に使う(S1)。評価は元のデータを使う(S2 == S)
    - 評価データに訓練用データも含まれるので、過学習になりやすい(真の精度よりも高めに評価されてしまう)