データマイニングの基礎 第5章 知識の精度評価 その1
なかなか夜に読むのは捗らないです。
学習したモデルの評価する方法についての話題です
- 誤差評価
- 統計的モデルの推定量の性質
- データの偏り
- サンプリング理論により、サンプリングスキーマと母集団の統計分布の仮定を元にどれだけのサンプルを収集しないといけないかを計算する。詳細は書かれていない。
- 決定木、ルール生成は訓練データに過学習しやすく、新たなデータをうまく扱えなくなる可能性がある
- リサンプリング法により、品質の良い不偏推定量を求めることができる
- 元データ(S)から訓練データ(S1)とテストデータ(S2)を生成する
- S1 でモデル導出する(訓練する)
- S2 を使ってモデルの統計量を評価する
- このステップを繰り返すことで精度を上げていく
- 最初のデータ生成(Generation Process)の方法によりいくつかの手法がある
- 交叉検証法(Cross-validation)
- ブートストラップ法(bootstrap)
- データの標本に経験分布関数(通常は一律になるように)を定めて、重複を許して一定数サンプリングして学習に使う(S1)。評価は元のデータを使う(S2 == S)
- 評価データに訓練用データも含まれるので、過学習になりやすい(真の精度よりも高めに評価されてしまう)