毎朝30分読書会

データマイニングの基礎第2章データマイニングの基礎的な手法その4

今日は 2.4 最近傍法からです。

最近傍法
訓練データのうち与えられたデータに最も近いものを決定してそのクラスを利用する。1つだけではなく最も近い k個を取得して距離で重み付けして決定するのを k-最近傍法という
- "距離"をどう定義するのかが重要
  - ユークリッド距離 - 属性毎の正規化
- 毎回全データセットを探索するので計算量が大きい
  - k-d 木などを活用

これも非常にシンプルなしくみ。ノイズに弱そうですが、k-最近傍にすればうまくいくものでしょうか。うーん。

相関ルール
- A が起きると B も起きやすい、という相関関係を A -> B というルールで表し、これを探索(マイニング)する
- 支持度 - 全トランザクションデータ内で A, B が同時に出現する割合。全体における影響度を示す
- 確信度 - A を含むトランザクション内で B も出現する割合。 A -> B というルールの確からしさ
- つまりルールの確からしさも重要だがそもそもその組み合わせがたくさん存在しているかというのも重要
- 最小支持度、最小確信度の閾値を設けてそれを越えるルールを抽出する
- まず最小支持度を越える出現頻度の要素(多頻度アイテム)を抽出 → 多頻度アイテム間でルールを探す
- Apriori アルゴリズム - あるアイテム集合が多頻度アイテムでなければそれを含む集合も多頻度アイテムではないことを利用して小さな組み合わせ(最初は単品)からはじめて枝刈りして多頻度アイテム集合を求める
- FP-Tree アルゴリズム - トランザクションデータの共通部分をマージして木構造にする
  - 履物 -> 靴、サンダル、ブーツなどアイテムの分類階層を導入することもある

これで第2章は終わりです。