毎朝30分読書会

データマイニングの基礎第3章データマイニングの高度な手法その5

混合密度分布を用いたクラスタリング
- データが複数ある確率分布のいずれかから得られたと仮定する
- 最尤推定とEMアルゴリズム
  - クラスタ毎の確率分布を考えて各データがどのクラスタに属するのがもっともらしいかという計算は容易
  - 適当な初期値を用いて推定を繰り返して確率分布パラメータを収束させる
  - かなり数式がむずかしいけど感覚的には山登り法に似ている(勾配を求めるわけではないけど)

クラスタリングの種類
- 階層的方法(階層的併合法 AHC)
  - 類似度、非類似度といった測度を元にデータを順に結合していく
- 非階層的方法(K-means, ファジィクラスタリング、混合密度分布法)
  - 重心からの距離、尤度などの関数最大化/最小化を用いる

EM アルゴリズムの数式が難しかったのでちょっと苦労しました。