データマイニングの基礎第3章データマイニングの高度な手法その3

今日もアンサンブル学習の続き、スタッキングからです

スタッキング
- 異なる学習アルゴリズムの分類器を組み合わせる
- まず複数の分類器を同じデータで学習し(レベル0学習)、その分類器の予測結果を訓練データとしてレベル0の結果を統合する分類器を楽章する(レベル1学習)
- つまりレベル1の分類器はレベル0の分類器の信頼度を学習する
- レベル１の分類器はシンプルなものでよい。決定木や線形モデルで充分
カスケード
- スタッキングと同じく異なる学習アルゴリズムの分類器を組み合わせる
- レベルによってピラミッド型の構造を取るのではなく、最初の分類器の予測値は元々の属性に追加する形で次のレベルの分類器への入力とする
- レベル1の分類器は元の訓練データに加えてレベル0の分類器で予測した結果こうなったという補助情報を見て分類する
- ナイーブベイズ + 決定木など。書かれていないがナイーブベイズは各属性が独立であることを前提としているのでカスケードで使う場合はレベル0に使うほうがよいのだと思う

アンサンブル学習は精度を向上できるが結果の解釈が困難になる。データマイニングでは理解容易性も重要

続いて 3.2 クラスタリングに入ります。各種クラスタリングアルゴリズムがざっと解説されているようなのであまり詳細には立ち入らず、こういうアルゴリズムがあるという程度で進みます。

クラスタリングは「教師なし学習」
階層併合的クラスタリング(Agglomerative Hierarchical Clustering: AHC)
- 最短距離法
- 最長距離法
- 群間平均法