2012-01-01から1年間の記事一覧
属性選択アルゴリズムの実例 Focus 前向き探索(属性を追加していく) 不整合度を指標にする 整合性を保持できる(不整合度==0)な最小の属性集合を求める 連続数値を扱えない。ノイズに弱い Relief ニアミス(その属性距離最小のデータ間でクラスが違う)を区別で…
属性選択の評価基準 ラッパ法は学習結果の精度そのものを基準にする フィルタ法では事前にわかる基準を指標に 属性の「良さ」 属性値をもつデータ数が少ないほうが良い -- ここ(p.135)多分 typo がありますね。 予測精度 ベイズの分類器を用いる(一例として)…
属性選択 データ量の削減のために、使用するデータの削除(行の削除)、使用する属性の削除(列の削除)を行う フィルタ法とラッパ法 ラッパ法は学習アルゴリズム自体を用いて評価するので遅い フィルタ法 探索法 探索の方向で前向き探索(最も有効な属性から順に…
今日から第4章に入ります。 数値属性の離散化 数値を区間に分割してグルーブ化する シンボルを対象とする手法で数値属性を扱うためには離散化が必要 分割が粗すぎると情報が失われるし、細かすぎると1つの区間のデータが少なくなってしまうのでうまい分割が…
第3章にかなり時間かかっていますねー。まあ粛々と。帰納論理プログラミングの続きです 包摂関係 代入θ(ある変数に制約を加える)と節P,Q があり PθがQの部分集合ならPはQを包摂すると言う 伴意関係のかわりに用いられる(再帰がなければ同意で包摂関係のほう…
サポートベクタマシンが若干消化不良ですが 3.4 帰納論理プログラミングに進みます 機能論理プログラミング データを属性と値(クラス)で表現する(命題論理)のでは表現力に欠けるので、述語論理を用いて帰納推論を行う 「AならばB」のような命題(規則)の集合…
今日は SVM(サポートベクトルマシン)のところです。またずいぶん難しい説明をしていますねぇ。 線形分離超平面 データをクラス分割する超平面のうちマージン(超平面に最近傍のデータへの距離)を最大にするものを求める 多次元への写像 線形分離できないデー…
混合密度分布を用いたクラスタリング データが複数ある確率分布のいずれかから得られたと仮定する 最尤推定とEMアルゴリズム クラスタ毎の確率分布を考えて各データがどのクラスタに属するのがもっともらしいかという計算は容易 適当な初期値を用いて推定を…
クラスタリングの続きからです 階層併合的クラスタリング(Agglomerative Hierarchical Clustering: AHC) 合併したグループの距離(非類似度)または類似度の計算方法によって以下のように細分化される 最短距離法 最長距離法 群間平均法 重心法 (併合後にその…
今日もアンサンブル学習の続き、スタッキングからです スタッキング 異なる学習アルゴリズムの分類器を組み合わせる まず複数の分類器を同じデータで学習し(レベル0学習)、その分類器の予測結果を訓練データとしてレベル0の結果を統合する分類器を楽章する(…
今日もアンサンブル学習の続きからです。 確率的属性選択 アンサンブル学習では個々の分類器の予測誤差が 0.5 より小さければ誤差を低減できる(個々の予測器の精度は良くなくてもいい) 予測器同士は独立しているほうがよい 学習アルゴリズムにランダムネスを…
次は高度な手法です。 アンサンブル学習 (コミッティー学習とも) 複数の分類器を組み合わせて利用する 将棋ソフトの多数決合議法みたいなものですね 同じデータ母集団からサンプリングして同じアルゴリズムの分類器を複数学習させて、その多数決を取る方法で…
今日は 2.4 最近傍法からです。 最近傍法 訓練データのうち与えられたデータに最も近いものを決定してそのクラスを利用する。1つだけではなく最も近い k個を取得して距離で重み付けして決定するのを k-最近傍法という "距離"をどう定義するのかが重要 ユーク…
今日はナイブーベイズ ナイーブベイズ(素朴なベイズ則による方法) 各属性毎にデータセットのクラスの分布を確率(尤度)として算出 与えられたデータの属性毎の尤度を全て掛け合わせる 全クラスの尤度の合計が1になるように正規化すると確率になる 属性間に依…
まず決定木の枝刈りについて 悲観的枝刈り 葉ノードのデータを母集団からの標本としてエラー率を計算、母集団のエラー率を推測してそれを元に枝刈りする この説明ではさっぱりわからない コスト複雑度枝刈り 各ノードを根とする部分木のコスト評価関数(エラ…
今日からやや具体的な手法の説明に入ります 決定木 データを部分集合に分割する構造 分割がカテゴリによる分類木と数値による回帰木がある 属性とクラス(分類したい事象)を持つデータセットを木構造に分類する Gini インデックス(ジニ係数のこと?)、エントロ…
データマイニングの実際 「データマイニングは実際に使われはじめている」と書いてある次の段落に「実用化例はなかなか公表されず正確な状況を確認するのは困難」と書いてあったりしてどっちだよという感じ 金融分野 流通、小売分野 製造分野 通信分野 製薬…
今日からまた少し系統の違う本として「データマイニングの基礎」を読むことにします。データマイニングの基礎 (IT Text)作者: 元田浩,山口高平,津本周作,沼尾正行出版社/メーカー: オーム社発売日: 2006/12/01メディア: 単行本購入: 2人 クリック: 46回この…
今日から「DSASのなかみ」に入ります。 DSAS は KLab で運用しているサーバ・ネットワークインフラの総称 ピーク時負荷のために他サイト用のサーバを一時的に流用して済ませることができる構成 冗長化されたネットワーク ネットワークブート NIC の冗長化に…
今日は「はてなのなかみ」の続き。運用効率の向上についてのあたりからです。 サーバ調達が「ハードの組立」から入るところがさすが自前主義 キックスタートによるインストール パッケージ管理と Puppet パッケージは全て rpm パッケージ化して yum リポジト…
今日から第6章に入ります。最初は「はてなのなかみ」から はてなのインフラ いつもお世話になっております 「自前主義」 「オープンソース主義」 サーバ台数350台程度 リバースプロキシに Apache 2.2 + mod_proxy を利用 DoS 攻撃対策に mod_dosdetector は…
今日は 5.7 Web サーバのログの扱い からです。 Web サーバのログの集約、収集 ログはサーバの台数ぶん出力されるが解析/保存を1ヶ所にまとめておきたい 集約 サーバが出力するログを常に転送して1つにまとめる リアルタイムの状況把握のため 収集 各サーバ…
今日は 5.6 リモートメンテナンスについて ネットワークトラブル時にもサーバをメンテナンス可能に 商用回線と別系統の経路を用意 大量のファイル転送などにも利用できる VLAN で区切るのはあまり意味がないので物理的に別のものを用意する シリアルコンソー…
今日は 5.5 ネットワークブートの活用からです。メモ書いていたのですが途中でなぜかログアウトさせられてしまって下書きが全て消えてしまったので一部だけです…… initramfs 初期化に必要なファイルを cpio + gzip で固めたもの ルートファイルシステムを mo…
今日は 5.3 サーバ管理の効率化 と 5.4 デーモンの稼動管理 Puppet 大量のサーバの設定ファイルの更新などを効率化 pupetmasterd へ各ノードで起動している pupetd が情報をポーリングして設定を反映させる マニフェストファイルの書きかた ちょっとむずかし…
今日は 5.2 サーバリソースのモニタリング CPU使用率、メモリ使用率、ロードアベレージ、ネットワークトラフィックなどを記録 ボトルネックの検出、故障箇所の検知など モニタリングツール Munin Cacti Centreon Monitorix NetMRG collectd Zabbix がないで…
サービスの稼動監視(Nagios) 機能(ホストやサービス)が動いているかどうかの死活監視 負荷状態の監視 一定期間のサービス提供できていた稼働率の計測 死活監視する上では個別のサーバだけでなく VIP に対する監視もすることでユーザに対するサービスの影響の…
今日は MySQL のチューニング サーバサイドのチューニング my.conf の設定 カーネルの I/O 関係の設定のチューニング パーティショニング サーバサイド以外 テーブル設計 SQL の最適化 周辺システム キャッシュサーバの導入 メモリ関係のパラメータチューニ…
今日は Apache のチューニングのはなし Apache 自体がボトルネックになることはあまりない 並列処理実装がモジュール化されている(MPM) prefork - プロセスを複数立ち上げる worker - プロセス+スレッド worker のほうがスケーラブルだけどマルチスレッドに…
今日は Linux 単一ホストの性能向上のはなし 推測するな、計測しろ WEB 系だとだいたい I/O がボトルネック CPU 負荷が高い ディスクやメモリ容量がボトルネックになっていない理想的な状態 プログラムが暴走して CPU に必要以上の負荷がかかっている I/O 負…