データマイニングの基礎 第2章 データマイニングの基礎的な手法 その3

今日はナイブーベイズ

  • ナイーブベイズ(素朴なベイズ則による方法)
    • 各属性毎にデータセットのクラスの分布を確率(尤度)として算出
    • 与えられたデータの属性毎の尤度を全て掛け合わせる
    • 全クラスの尤度の合計が1になるように正規化すると確率になる
    • 属性間に依存関係がなく独立しているということを前提にしている
      • すごい大胆な仮定だけどまあまあうまくいくらしい
    • あるクラスである属性が偏っていて頻度0の属性値があるとそこで 0 が掛かってしまって常に0になる → 最初の属性値毎の尤度計算時に小さな値を加える(ラプラススムージング)

一見難しそうですが、やっていることは割とシンプルですね。