データマイニングの基礎 第5章 知識の精度評価 その4

  • 多重比較
    • 検定を繰り返し行なうとどれかの仮説が棄却される可能性がたかまる(何度もやってるとどこかで間違う可能性も高くなるということ)
    • 全体の有意水準を調節するための手法
    • 比較したい群から全ての要素ひとつひとつを取る( 一元配置分散分析)、全ての対(2つのペア)を考える(Tukey の方法)、全ての組み合わせ(mC2)を考える(Dunnett の方法)などの方法がありえる
    • それぞれの群の平均値の差と平均値の差の標準誤差の比で検定値を求める
  • 最小記述長(MDLP)
    • 記述長(DL)を最小とするモデルを選択する
    • 尤度
      • n個の標本 xi をそれぞれ観測する確率を尤度といい、対数を取った対数尤度をよく用いる
      • 最尤推定法 - 尤度を最大にするモデル(パラメータ)を探索する
    • 赤池情報量基準 (AIC)
      • データが有限なために得られる平均対数尤度は「真の」平均対数尤度からのずれ(偏差)があり、この偏差がパラメータ数(k)に比例しデータ数 n に反比例することを導いたので赤池情報量基準
    • 最小記述長原理(MDLP)
      • モデルの記述長+モデルの当てはめ度合いを記述長としてこれを最小化する
    • ベイズの情報量基準
      • 事後確率 = モデルの事前確率 × 尤度 を最大化させる

かなり駆け足でよく理解していないところも多いですが、これで第5章は終了。最後の第6章を残すのみです。第6章は事例集などぐっと読み物っぽくなっているようなのでさらりと読めそうです。またそろそろ次の本を決めないと。