最終更新:ID:oTc6wz6Jsg 2010年11月14日(日) 14:30:04履歴
Hadoop本 10章 Hadoopの管理 の疑問点や気になる点について記述してください。
※記入者、該当ページ・該当行は忘れずに書いて下さい。
※記入者、該当ページ・該当行は忘れずに書いて下さい。
- [記入者] terurou
- [該当箇所] 295〜296ページ(10.1.1.1 ネームノードのディレクトリ構造)
ディレクトリ | ファイル | 説明 |
---|---|---|
${dfs.name.dir}/current/ | VERSION | 実行中のHDFSのバージョンに関する情報を保存 |
edits | 編集ログ、HDFSへの操作が記録される(バイナリデータ) | |
fsimage | メタデータの永続的なチェックポイント(バイナリデータ) | |
fstime | チェックポイント時刻情報(バイナリデータ) |
- edits, fsimage, fstimeはネームノードを再起動する際に、メモリ上にメタデータを復元するために利用される
- [記入者] terurou
- [該当箇所] 297ページ(10.1.1.2 ファイルシステムのイメージと編集ログ)
- ネームノード再起動時のメタデータ復元シーケンス(詳細なシーケンスは10.1.2に記載あり)
- fsimageを読み込み、メモリ上に展開
- editsを読み込み、記録されている順序で各操作を適用していく
- HDFSを運用していると、editsファイルは上限なしに肥大化していく
- ネームノード再起動時にHDFSがオンラインになるまでの待ち時間が増加してしまう
- それを防ぐためにセカンダリネームノードは適時editsをfsimageをマージし、fstimeを更新する(図10-1)
- 大規模クラスタでセカンダリネームノードが必要となるのはこのため
- ネームノード再起動時にHDFSがオンラインになるまでの待ち時間が増加してしまう
- [記入者] terurou
- [該当箇所] 298〜299ページ(10.1.1.3 セカンダリネームノードのディレクトリ構造)
- ${fs.checkpoint.dir}/previous.checkpoint にはネームノードのメタデータの古いデータが保存される
- これはメタデータのバックアップとして利用できる
- ネームノードのメタデータ、NFSへのバックアップが破損・消失してしまった場合に利用できる
- このデータを使って、セカンダリネームノードをネームノードに昇格させることもできる
- デーモン起動時に-importCheckpointオプションをつける
- [記入者] terurou
- [該当箇所] 315ページ(10.1.1.4 データノードのディレクトリ構造)
ディレクトリ | ファイル | 説明 |
---|---|---|
${dfs.name.dir}/current/ | VERSION | 実行中のHDFSのバージョンに関する情報を保存 |
blk_<id_1> | HDFSブロックデータ | |
blk_<id_1>.meta | ブロックのためのメタデータ | |
blk_<id_2> | ||
blk_<id_2>.meta | ||
... | ||
blk_<id_64> | ||
blk_<id_64>.meta | ||
subdir0/ | サブディレクトリ | |
subdir1/ | ||
... | ||
subdir63/ |
- 1つのディレクトリの上限ブロック数はデフォルト64、サブディレクトリも64
- ブロック数が上限を超えた場合、サブディレクトリを作成し、次のブロックからはそこに保存する
- ディレクトリ数も64になった場合、subdir0-63の下に同じファイル構成でブロックを作成していく
- わざわざこんな処理にしているのは、多くのOS(ファイルシステム)で1つのディレクトリに大量のファイルが存在する場合、ディスクI/Oが劣化する問題が存在するため
- [記入者] terurou
- [該当箇所] 300-301ページ(10.1.2 セーフモード)
- fsimageをメモリに読み込む
- editsの操作を適用
- 新しいfsimageと空のeditsを作成しなおす
- RPCサーバ起動(ただしセーフモードが有効)
- データノードからのブロック位置情報のチェックインを受け付ける
- 最小複製状態になったら、30秒後(dfs.safemode.extension設定値)にセーフモードを解除する
- [記入者] terurou, masa_cbl追記
- [該当箇所] 300-301ページ(10.1.2 セーフモード)
- 解説が難解・・・。理解が間違ってるかも。
- セーフモードが有効になっている間、クライアント側から見てHDFSはread-only
- 最小複製状態
- 最小レプリカ作成数(dfs.replication.min、デフォルト1)に達するレプリカが作成済みのブロックの割合が規定値(dfs.safemode.threathold.pct、デフォルト99.9%)に達しているか?
- 最小複製状態に達するまでは、「データノードがまだレプリカを作成中である」と判断する
- 最小複製状態に達するまでは、「ネームノードがデータノードからブロック情報を収集中である」と判断する。
- ネームノード起動直後のブロック情報が断片的にしか得られていない状態でデータのレプリカ複製の処理をしてしまうと、全てのブロック情報収集完了時には不要になるレプリカを作成してしまう可能性がある。これを防ぐために起動後しばらくはセーフモードになる。
- Hadoop本読書会 - 3章 Hadoop分散ファイルシステムのdfs.replicationについての議論も参照
- セーフモードが終了した後、不足しているレプリカを作成する
- セーフモード終了後はデータの書込、削除等の処理が可能となる。
- (以下Hadoop本に記述はないが追記)
- (1-dfs.safemode.threathold.pct)(デフォルトなら0.1%)以上の割合のデータの全レプリカがHDDの複数同時故障等により失われている場合、最小複製状態を満たすことができず、セーフモードから自動的には離脱できなくなる。
- 対処手順はまず10.1.2.1節のコマンドによりセーフモードから強制離脱、次に10.1.4.1節のdfsadminの -move あるいは-delete オプションにより壊れた・失われたブロックに対処。
- [記入者] terurou
- [該当箇所] 301〜302ページ(10.1.2.1 セーフモードへの移行と終了)
- セーフモードが有効になっているか判定
- hadoop dfsadmin -safemode get
- セーフモードが解除されるまでWait(スクリプトなどで利用する)
- hadoop dfsadmin -safemode wait
- セーフモード 手動ON
- hadoop dsfadmin -safemode enter
- セーフモード 手動OFF
- hadoop dfsadmin -safemode leave
- [記入者] terurou
- [該当箇所] 302〜303ページ(10.1.3 監査ログ)
- HDFSはすべてのアクセス要求のログをとることができる
- log4jの出力設定をINFOレベルに変更するだけでよい
- いわゆるJ-SOX法とか内部統制への対応に必須ですね
- [記入者] terurou
- [該当箇所] 303〜303ページ(10.1.4 ツール)
- dfsadmin
- HDFSの状態取得や管理操作を行う
- 機能については表10-4を参照
- fsck
- HDFSのファイル健全性チェック
- ブロックのレプリカ作成状況(過剰複製、複製数不足、複製位置の誤り、破損・消失ブロック)を出力
- 指定したファイルに含まれるブロックの探索
- HDFSのファイル健全性チェック
- DataBlockScaner
- 定期的にブロックのスキャンを行う(チェックサムエラーの検出)
- スキャン間隔はdfs.datanode.scan.period.hoursで設定(デフォルトは504時間=3週間)
- start-balancer.sh
- 長期間HDFSを運用しているとブロックの分散度合いが偏ってくるので、ブロックを再配置する(デフラグ的な感じ)
- balancerはクラスタに過度の負荷を与えないように設計されている
- [記入者] terurou
- [該当箇所] 308〜314ページ(10.2 モニタリング)
- ロギング(システムログ)
- すべてのデーモンはlog4jでログを出力する
- Webページから設定変更(デーモン再起動時にリセットされる)
- hadoopコマンドから設定変更(デーモン再起動時にリセットされる)
- hadoop daemonlog -setlevel jobtracker-host:50030 org.apache.hadoop.mapred.JobTracker DEBUG
- 恒久的にログの設定変更を行う
- log4j.propertiesの設定を変更する
- 277ページ 9.4.2.3 も参照
- メトリクス
- 直訳すると、評価尺度、品質測定。クラスタ管理者のための統計情報
- dfs, mapred, rpc, jvmというコンテキスト(監視対象)が用意されている
- FileContext
- メトリクスをローカルファイルに書き出す
- GangliaContext
- メトリクス情報を Ganglia に出力する
- http://wiki.apache.org/hadoop/GangliaMetrics に設定方法が書かれている
- NullContextWithUpdateThread
- メモリ内に保持しているメトリクスを定期的に更新する
- JMXを利用する場合に利用する(GangliaContextを使っている場合は使う必要がない)
- CompositeContext
- メトリクスを複数のコンテキストに出力する
- JMX(Java Management Extensions)
- アプリケーション監視用のJava標準API
- JDK付属のJConsoleや、JMX対応のサードパーティ製の管理ツール(NagiosやHypericなど)で問い合わせすることができる
- Chukuwa
- Hadoopのサブプロジェクト
- 長期にわたるトレンドをログデータから発見することに秀でている
- http://incubator.apache.org/chukwa/
- どうでもいいけど、ロゴが。。。
- [記入者] terurou
- [該当箇所] 315ページ(10.3.1.1 メタデータのバックアップ)
- メタデータ
- セカンダリネームノードのprevious.checkpointディレクトリ以下をバックアップ
- データ
- HDFSで扱うデータが大量になので、全てはバックアップできない
- 優先度の高いデータをバックアップする
- ファイルのコピー自体はdistcopyを使う
- [記入者] terurou
- [該当箇所] 316ページ(10.3.1.3 ファイルシステムのチェック(fsck), 10.3.1.4 ファイルシステムのバランサー)
- fsckを定期的にしましょうね
- 10.1.4.2 を参照
- balancerを定期的に動かしましょうね
- 10.1.4.4 を参照
- [記入者] terurou
- [該当箇所] 316ページ(10.3.2.1 新しいノードの参加)
- 「mapred-site.xmlを設定して、jobtrackerを指し、データノードとjobtrackerが起動...」
- jobtrackerではなくてtasktrackerだと思われる。
- [記入者] terurou
- [該当箇所] 316〜317ページ(10.3.2 ノードの参加と脱退)
- 事前準備
- ネームノード、jobtrackerへ接続可能なアドレスを列挙したファイル(includeファイル)を作成し、共有ファイルとする
- ネームノードのdfs.hostsプロパティ、jobtrackerのmapred.hostsプロパティでincludeファイルを参照するように設定する
- 手順
- 追加するノードのhdfs-site.xmlを編集。ネームノードを指すように設定する。
- 追加するノードのmapred-site.xmlを編集。jobtrackerノードを指すように設定する。
- includeファイルに追加するノードのアドレスを追加する。
- ネームノードの接続ノード情報を更新する。
- hadoop dfsadmin -refreshNodes
- slavesファイルに追加するノードを追加し、Hadoopの制御スクリプトのコントロール下におく。
- データノードを起動
- hadoop-daemon.sh start datanode
- jobtrackerの接続ノード情報を更新し、tasktrackerを起動する。(MapReduceクラスタの再起動)
- stop-mapred.sh
- start-mapred.sh
- Web UIから新ノードが追加されたことを確認する。
- 必要に応じ、HDFSのブロックをバランスさせる。
- start-balancer.sh
- [記入者] terurou
- [該当箇所] 318〜319ページ(10.3.2 ノードの参加と脱退)
- 事前準備
- ネームノード、jobtrackerへ接続拒否するアドレスを列挙したファイル(excludeファイル)を作成し、共有ファイルとする
- ネームノードのdfs.hosts.excludeプロパティ、jobtrackerのmapred.hosts.excludeプロパティでexcludeファイルを参照するように設定する
- 手順
- excludeファイルに削除するノードのアドレスを追加する。
- jobtrackerの接続ノード情報を更新し、削除するノードのtasktrackerを停止する。(MapReduceクラスタの再起動)
- stop-mapred.sh
- start-mapred.sh
- ネームノードの接続ノード情報を更新する。
- hadoop dfsadmin -refreshNodes
- Web UIからノードがDecommissionedになったことを確認し、対象ノードをシャットダウンする。
- includeファイルから削除対象ファイルのアドレスを削除する。
- 再度ネームノードの接続ノード情報を更新する。
- hadoop dfsadmin -refreshNodes
- slavesファイルから対象ノードのアドレスを削除する。
- [記入者] terurou
- [該当箇所] 319〜320ページ(10.3.3 アップグレード)
- 新しいバージョンのHadoopをインストール
- 古いバージョンのデーモンを停止
- 新しいHadoopの設定ファイルを更新
- 新しいデーモンを起動
- HDFSのレイアウトのバージョンが異なっている場合、ネームノードは実行を拒否し、エラーログを出力する。
- [記入者] terurou
- [該当箇所] 320〜323ページ(10.3.3 アップグレード)
- アップグレード前に確認すること
- 以前アップグレードをしたことがある場合、ファイナライズされているか確認する。
- 手順
- MapReduceをシャットダウンする。
- stop-mapred.sh
- tacktrackerで孤立してしまったタスクのプロセスが残っている場合はkillする。
- HDFSをシャットダウンする。
- stop-dfs.sh
- ネームノードのディレクトリをバックアップする。
- 新しいバージョンのHadoopをインストールする。
- HDFSを-upgrageオプションつきで起動する。
- start-dfs.sh -upgrade
- アップグレードが完了したら、ファイル健全性チェックを行う
- hadoop fsck /
- MapReduceを起動する。
- start-mapred.sh
- しばらく運用し問題がなければ、アップグレードのファイナライズを行う。問題があればロールバックする。
- (ファイナライズ)hadoop dfsadmin -finalizeUpgrade
- (ロールバック)start-dfs.h -rollback
コメントをかく