2012-09-01から1ヶ月間の記事一覧

データマイニングの基礎 第3章 データマイニングの高度な手法 その8

第3章にかなり時間かかっていますねー。まあ粛々と。帰納論理プログラミングの続きです 包摂関係 代入θ(ある変数に制約を加える)と節P,Q があり PθがQの部分集合ならPはQを包摂すると言う 伴意関係のかわりに用いられる(再帰がなければ同意で包摂関係のほう…

データマイニングの基礎 第3章 データマイニングの高度な手法 その7

サポートベクタマシンが若干消化不良ですが 3.4 帰納論理プログラミングに進みます 機能論理プログラミング データを属性と値(クラス)で表現する(命題論理)のでは表現力に欠けるので、述語論理を用いて帰納推論を行う 「AならばB」のような命題(規則)の集合…

データマイニングの基礎 第3章 データマイニングの高度な手法 その6

今日は SVM(サポートベクトルマシン)のところです。またずいぶん難しい説明をしていますねぇ。 線形分離超平面 データをクラス分割する超平面のうちマージン(超平面に最近傍のデータへの距離)を最大にするものを求める 多次元への写像 線形分離できないデー…

データマイニングの基礎 第3章 データマイニングの高度な手法 その5

混合密度分布を用いたクラスタリング データが複数ある確率分布のいずれかから得られたと仮定する 最尤推定とEMアルゴリズム クラスタ毎の確率分布を考えて各データがどのクラスタに属するのがもっともらしいかという計算は容易 適当な初期値を用いて推定を…

データマイニングの基礎 第3章 データマイニングの高度な手法 その4

クラスタリングの続きからです 階層併合的クラスタリング(Agglomerative Hierarchical Clustering: AHC) 合併したグループの距離(非類似度)または類似度の計算方法によって以下のように細分化される 最短距離法 最長距離法 群間平均法 重心法 (併合後にその…

データマイニングの基礎 第3章 データマイニングの高度な手法 その3

今日もアンサンブル学習の続き、スタッキングからです スタッキング 異なる学習アルゴリズムの分類器を組み合わせる まず複数の分類器を同じデータで学習し(レベル0学習)、その分類器の予測結果を訓練データとしてレベル0の結果を統合する分類器を楽章する(…

データマイニングの基礎 第3章 データマイニングの高度な手法 その2

今日もアンサンブル学習の続きからです。 確率的属性選択 アンサンブル学習では個々の分類器の予測誤差が 0.5 より小さければ誤差を低減できる(個々の予測器の精度は良くなくてもいい) 予測器同士は独立しているほうがよい 学習アルゴリズムにランダムネスを…

データマイニングの基礎 第3章 データマイニングの高度な手法 その1

次は高度な手法です。 アンサンブル学習 (コミッティー学習とも) 複数の分類器を組み合わせて利用する 将棋ソフトの多数決合議法みたいなものですね 同じデータ母集団からサンプリングして同じアルゴリズムの分類器を複数学習させて、その多数決を取る方法で…

データマイニングの基礎 第2章 データマイニングの基礎的な手法 その4

今日は 2.4 最近傍法からです。 最近傍法 訓練データのうち与えられたデータに最も近いものを決定してそのクラスを利用する。1つだけではなく最も近い k個を取得して距離で重み付けして決定するのを k-最近傍法という "距離"をどう定義するのかが重要 ユーク…

データマイニングの基礎 第2章 データマイニングの基礎的な手法 その3

今日はナイブーベイズ ナイーブベイズ(素朴なベイズ則による方法) 各属性毎にデータセットのクラスの分布を確率(尤度)として算出 与えられたデータの属性毎の尤度を全て掛け合わせる 全クラスの尤度の合計が1になるように正規化すると確率になる 属性間に依…

データマイニングの基礎 第2章 データマイニングの基礎的な手法 その2

まず決定木の枝刈りについて 悲観的枝刈り 葉ノードのデータを母集団からの標本としてエラー率を計算、母集団のエラー率を推測してそれを元に枝刈りする この説明ではさっぱりわからない コスト複雑度枝刈り 各ノードを根とする部分木のコスト評価関数(エラ…

データマイニングの基礎 第2章 データマイニングの基礎的な手法 その1

今日からやや具体的な手法の説明に入ります 決定木 データを部分集合に分割する構造 分割がカテゴリによる分類木と数値による回帰木がある 属性とクラス(分類したい事象)を持つデータセットを木構造に分類する Gini インデックス(ジニ係数のこと?)、エントロ…

データマイニングの基礎 第1章 データマイニング入門 その2

データマイニングの実際 「データマイニングは実際に使われはじめている」と書いてある次の段落に「実用化例はなかなか公表されず正確な状況を確認するのは困難」と書いてあったりしてどっちだよという感じ 金融分野 流通、小売分野 製造分野 通信分野 製薬…

データマイニングの基礎 第1章 データマイニング入門 その1

今日からまた少し系統の違う本として「データマイニングの基礎」を読むことにします。データマイニングの基礎 (IT Text)作者: 元田浩,山口高平,津本周作,沼尾正行出版社/メーカー: オーム社発売日: 2006/12/01メディア: 単行本購入: 2人 クリック: 46回この…