2012-10-01から1ヶ月間の記事一覧

データマイニングの基礎 第5章 知識の精度評価 その3

かなり間があいて忘れてしまいましたが続き読みます。 分割表による解析 データとモデルでの判定結果を true positive, true, negative, false positive, false negative に分類して指標を作る 精度(Precision) = true positive / (true positive + false po…

データマイニングの基礎 第5章 知識の精度評価 その2

夜だと週末も読めます。引き続き学習したモデルの評価方法についての話題です 統計学的検定 帰無仮説 - 示したい仮説の否定。これを否定することで示したい仮説を採択したい。背理法みたいですね 対立仮説 - 示したい仮説 有意水準 - 帰無仮説が成立する確率…

データマイニングの基礎 第5章 知識の精度評価 その1

なかなか夜に読むのは捗らないです。学習したモデルの評価する方法についての話題です 誤差評価 統計的モデルの推定量の性質 不偏性 推定量の期待値が母集団の値に一致する(不偏推定量) 一致性 標本数が大きくなるにつれて母集団の真の値に漸近していく 有効…

データマイニングの基礎 第4章 前処理・データ変換 その5

訳あってしばらく夜に読書するようにします。 属性構築 元の属性を組み合わせて「帰納的に」新しい属性を作る 「帰納的に」というのはあらかじめ準備したオペレータで属性値を組み合わせて変換することらしい。帰納的? 構築オペレータとしては数値属性は大小…

データマイニングの基礎 第4章 前処理・データ変換 その4

属性選択アルゴリズムの実例 Focus 前向き探索(属性を追加していく) 不整合度を指標にする 整合性を保持できる(不整合度==0)な最小の属性集合を求める 連続数値を扱えない。ノイズに弱い Relief ニアミス(その属性距離最小のデータ間でクラスが違う)を区別で…

データマイニングの基礎 第4章 前処理・データ変換 その3

属性選択の評価基準 ラッパ法は学習結果の精度そのものを基準にする フィルタ法では事前にわかる基準を指標に 属性の「良さ」 属性値をもつデータ数が少ないほうが良い -- ここ(p.135)多分 typo がありますね。 予測精度 ベイズの分類器を用いる(一例として)…

データマイニングの基礎 第4章 前処理・データ変換 その2

属性選択 データ量の削減のために、使用するデータの削除(行の削除)、使用する属性の削除(列の削除)を行う フィルタ法とラッパ法 ラッパ法は学習アルゴリズム自体を用いて評価するので遅い フィルタ法 探索法 探索の方向で前向き探索(最も有効な属性から順に…

データマイニングの基礎 第4章 前処理・データ変換 その1

今日から第4章に入ります。 数値属性の離散化 数値を区間に分割してグルーブ化する シンボルを対象とする手法で数値属性を扱うためには離散化が必要 分割が粗すぎると情報が失われるし、細かすぎると1つの区間のデータが少なくなってしまうのでうまい分割が…