データマイニングの基礎第4章前処理・データ変換その4

属性選択アルゴリズムの実例 Focus 前向き探索(属性を追加していく) 不整合度を指標にする整合性を保持できる(不整合度==0)な最小の属性集合を求める連続数値を扱えない。ノイズに弱い Relief ニアミス(その属性距離最小のデータ間でクラスが違う)を区別で…

2012-10-03

データマイニングの基礎第4章前処理・データ変換その3

属性選択の評価基準ラッパ法は学習結果の精度そのものを基準にするフィルタ法では事前にわかる基準を指標に属性の「良さ」属性値をもつデータ数が少ないほうが良い -- ここ(p.135)多分 typo がありますね。予測精度ベイズの分類器を用いる(一例として)…

2012-10-02

データマイニングの基礎第4章前処理・データ変換その2

属性選択データ量の削減のために、使用するデータの削除(行の削除)、使用する属性の削除(列の削除)を行うフィルタ法とラッパ法ラッパ法は学習アルゴリズム自体を用いて評価するので遅いフィルタ法探索法探索の方向で前向き探索(最も有効な属性から順に…

2012-10-01

データマイニングの基礎第4章前処理・データ変換その1

今日から第4章に入ります。数値属性の離散化数値を区間に分割してグルーブ化するシンボルを対象とする手法で数値属性を扱うためには離散化が必要分割が粗すぎると情報が失われるし、細かすぎると1つの区間のデータが少なくなってしまうのでうまい分割が…

2012-09-27

データマイニングの基礎第3章データマイニングの高度な手法その8

第3章にかなり時間かかっていますねー。まあ粛々と。帰納論理プログラミングの続きです包摂関係代入θ(ある変数に制約を加える)と節P,Q があり PθがQの部分集合ならPはQを包摂すると言う伴意関係のかわりに用いられる(再帰がなければ同意で包摂関係のほう…

2012-09-26

データマイニングの基礎第3章データマイニングの高度な手法その7

サポートベクタマシンが若干消化不良ですが 3.4 帰納論理プログラミングに進みます機能論理プログラミングデータを属性と値(クラス)で表現する(命題論理)のでは表現力に欠けるので、述語論理を用いて帰納推論を行う「AならばB」のような命題(規則)の集合…

2012-09-24

データマイニングの基礎第3章データマイニングの高度な手法その6

今日は SVM(サポートベクトルマシン)のところです。またずいぶん難しい説明をしていますねぇ。線形分離超平面データをクラス分割する超平面のうちマージン(超平面に最近傍のデータへの距離)を最大にするものを求める多次元への写像線形分離できないデー…

2012-09-19

データマイニングの基礎第3章データマイニングの高度な手法その5

混合密度分布を用いたクラスタリングデータが複数ある確率分布のいずれかから得られたと仮定する最尤推定とEMアルゴリズムクラスタ毎の確率分布を考えて各データがどのクラスタに属するのがもっともらしいかという計算は容易適当な初期値を用いて推定を…

2012-09-18

データマイニングの基礎第3章データマイニングの高度な手法その4

クラスタリングの続きからです階層併合的クラスタリング(Agglomerative Hierarchical Clustering: AHC) 合併したグループの距離(非類似度)または類似度の計算方法によって以下のように細分化される最短距離法最長距離法群間平均法重心法 (併合後にその…

2012-09-14

データマイニングの基礎第3章データマイニングの高度な手法その3

今日もアンサンブル学習の続き、スタッキングからですスタッキング異なる学習アルゴリズムの分類器を組み合わせるまず複数の分類器を同じデータで学習し(レベル0学習)、その分類器の予測結果を訓練データとしてレベル0の結果を統合する分類器を楽章する(…

2012-09-13

データマイニングの基礎第3章データマイニングの高度な手法その2

今日もアンサンブル学習の続きからです。確率的属性選択アンサンブル学習では個々の分類器の予測誤差が 0.5 より小さければ誤差を低減できる(個々の予測器の精度は良くなくてもいい) 予測器同士は独立しているほうがよい学習アルゴリズムにランダムネスを…

2012-09-12

データマイニングの基礎第3章データマイニングの高度な手法その1

次は高度な手法です。アンサンブル学習 (コミッティー学習とも) 複数の分類器を組み合わせて利用する将棋ソフトの多数決合議法みたいなものですね同じデータ母集団からサンプリングして同じアルゴリズムの分類器を複数学習させて、その多数決を取る方法で…

2012-09-11

データマイニングの基礎第2章データマイニングの基礎的な手法その4

今日は 2.4 最近傍法からです。最近傍法訓練データのうち与えられたデータに最も近いものを決定してそのクラスを利用する。1つだけではなく最も近い k個を取得して距離で重み付けして決定するのを k-最近傍法という "距離"をどう定義するのかが重要ユーク…

2012-09-07

データマイニングの基礎第2章データマイニングの基礎的な手法その3

今日はナイブーベイズナイーブベイズ(素朴なベイズ則による方法) 各属性毎にデータセットのクラスの分布を確率(尤度)として算出与えられたデータの属性毎の尤度を全て掛け合わせる全クラスの尤度の合計が1になるように正規化すると確率になる属性間に依…

2012-09-06

データマイニングの基礎第2章データマイニングの基礎的な手法その2

まず決定木の枝刈りについて悲観的枝刈り葉ノードのデータを母集団からの標本としてエラー率を計算、母集団のエラー率を推測してそれを元に枝刈りするこの説明ではさっぱりわからないコスト複雑度枝刈り各ノードを根とする部分木のコスト評価関数(エラ…

2012-09-05

データマイニングの基礎第2章データマイニングの基礎的な手法その1

今日からやや具体的な手法の説明に入ります決定木データを部分集合に分割する構造分割がカテゴリによる分類木と数値による回帰木がある属性とクラス(分類したい事象)を持つデータセットを木構造に分類する Gini インデックス(ジニ係数のこと?)、エントロ…

2012-09-04

データマイニングの基礎第1章データマイニング入門その2

データマイニングの実際「データマイニングは実際に使われはじめている」と書いてある次の段落に「実用化例はなかなか公表されず正確な状況を確認するのは困難」と書いてあったりしてどっちだよという感じ金融分野流通、小売分野製造分野通信分野製薬…

2012-09-03

データマイニングの基礎第1章データマイニング入門その1

今日からまた少し系統の違う本として「データマイニングの基礎」を読むことにします。データマイニングの基礎 (IT Text)作者: 元田浩,山口高平,津本周作,沼尾正行出版社/メーカー: オーム社発売日: 2006/12/01メディア: 単行本購入: 2人クリック: 46回この…

2012-08-30

サーバ/インフラを支える技術第6章あのサービスの舞台裏その3

今日から「DSASのなかみ」に入ります。 DSAS は KLab で運用しているサーバ・ネットワークインフラの総称ピーク時負荷のために他サイト用のサーバを一時的に流用して済ませることができる構成冗長化されたネットワークネットワークブート NIC の冗長化に…

2012-08-27

サーバ/インフラを支える技術第6章あのサービスの舞台裏その2

今日は「はてなのなかみ」の続き。運用効率の向上についてのあたりからです。サーバ調達が「ハードの組立」から入るところがさすが自前主義キックスタートによるインストールパッケージ管理と Puppet パッケージは全て rpm パッケージ化して yum リポジト…

2012-08-24

サーバ/インフラを支える技術第6章あのサービスの舞台裏その1

今日から第6章に入ります。最初は「はてなのなかみ」からはてなのインフラいつもお世話になっております「自前主義」「オープンソース主義」サーバ台数350台程度リバースプロキシに Apache 2.2 + mod_proxy を利用 DoS 攻撃対策に mod_dosdetector は…

2012-08-22

サーバ/インフラを支える技術第5章省力運用その6

今日は 5.7 Web サーバのログの扱いからです。 Web サーバのログの集約、収集ログはサーバの台数ぶん出力されるが解析/保存を1ヶ所にまとめておきたい集約サーバが出力するログを常に転送して1つにまとめるリアルタイムの状況把握のため収集各サーバ…

2012-08-20

サーバ/インフラを支える技術第5章省力運用その5

今日は 5.6 リモートメンテナンスについてネットワークトラブル時にもサーバをメンテナンス可能に商用回線と別系統の経路を用意大量のファイル転送などにも利用できる VLAN で区切るのはあまり意味がないので物理的に別のものを用意するシリアルコンソー…

2012-08-17

サーバ/インフラを支える技術第5章省力運用その4

今日は 5.5 ネットワークブートの活用からです。メモ書いていたのですが途中でなぜかログアウトさせられてしまって下書きが全て消えてしまったので一部だけです…… initramfs 初期化に必要なファイルを cpio + gzip で固めたものルートファイルシステムを mo…

2012-08-09

サーバ/インフラを支える技術第5章省力運用その3

今日は 5.3 サーバ管理の効率化と 5.4 デーモンの稼動管理 Puppet 大量のサーバの設定ファイルの更新などを効率化 pupetmasterd へ各ノードで起動している pupetd が情報をポーリングして設定を反映させるマニフェストファイルの書きかたちょっとむずかし…

2012-08-08

サーバ/インフラを支える技術第5章省力運用その2

今日は 5.2 サーバリソースのモニタリング CPU使用率、メモリ使用率、ロードアベレージ、ネットワークトラフィックなどを記録ボトルネックの検出、故障箇所の検知などモニタリングツール Munin Cacti Centreon Monitorix NetMRG collectd Zabbix がないで…