データマイニングの基礎 第3章 データマイニングの高度な手法 その5

  • 混合密度分布を用いたクラスタリング
    • データが複数ある確率分布のいずれかから得られたと仮定する
    • 最尤推定EMアルゴリズム
      • クラスタ毎の確率分布を考えて各データがどのクラスタに属するのがもっともらしいかという計算は容易
      • 適当な初期値を用いて推定を繰り返して確率分布パラメータを収束させる
      • かなり数式がむずかしいけど感覚的には山登り法に似ている(勾配を求めるわけではないけど)
  • クラスタリングの種類
    • 階層的方法(階層的併合法 AHC)
      • 類似度、非類似度といった測度を元にデータを順に結合していく
    • 非階層的方法(K-means, ファジィクラスタリング、混合密度分布法)
      • 重心からの距離、尤度などの関数最大化/最小化を用いる

EM アルゴリズムの数式が難しかったのでちょっと苦労しました。