大規模分散技術勉強会 in 名古屋

Hadoop本 4章 HadoopのI/Oの疑問点や気になる点について記述してください。
※記入者、該当ページ・該当行は忘れずに書いて下さい。

圧縮されたHDFS上のファイルをMapReduceにかける際の注意

[記入者] terurou
[該当箇所] 89～90ページ（4.2.2 圧縮と入力スプリット）
圧縮ファイルがHDFSのブロックサイズ大きな場合、スプリット可能な圧縮フォーマットでないと、mapが複数のノードに分散されない（ローカリティが犠牲になる）。
スプリット可能なフォーマットはbzip2とZIP。ただしZIPはファイルの境界のみ可能。

mapの出力の圧縮

[記入者] terurou
[該当箇所] 92～93ページ（4.2.3.1 mapの出力の圧縮）
mapの出力も圧縮可能。
mapの出力はネットワーク経由でreducerへ転送されるため、LZOのような高速な圧縮フォーマットであれば、性能が向上する可能性がある。

HadoopのRPCプロトコル

[記入者] terurou
[該当箇所] 93～112ページ（4.3 シリアライゼーション）
標準ではWratableというHadoop独自のバイナリプロトコルが使われている。
WritableではJava以外の言語との相互運用に難がある（他言語の実装が揃っていない）ため、今後はAvroに移行していく予定らしい。（本書ではThriftについても触れられているが、3章のメモで記述したように、現状Thriftは積極的にメンテされていない）

Hadoopのバイナリデータファイルフォーマット

[記入者] terurou
[該当箇所] 112～125ページ（4.4 ファイルベースのデータ構造）
SequenceFile
- 複数のバイナリレコード（バイナリのキーと値のペア）を1つのファイルとしてまとめたもの。
- バイナリログファイルの格納が利用例。キーがタイムスタンプ、値がログ。
- 書き込み時はWritable以外のシリアライゼーションフレームワークを利用可。
MapFile
- キーでのルックアップができるようにインデックスを持ち、ソートされているSequenceFile。
- SequenceFileと異なり、Writableでしか書き込めない。

SequenceFileの「同期点」って何？

[記入者] terurou
[該当箇所] 116～118ページ（4.4.1.2 SequenceFileの読み込み）
同期点は数レコードごとにレコード境界に埋め込まれる。
SequenceFileはバイナリデータファイルなので、シーク位置が1バイトでもずれるとデータが読み込めなくなってしまう。本書では「リーダーが迷う」という言葉で表現している。
「リーダーが迷って」しまった場合、同期点を元にシーク位置をレコード境界に再度位置あわせする。
SequenceFileの書き込みの際、同期点を挿入する位置を制御できる。
SequenceFileをMapReduceの入力とする際、同期点によってファイル分割され、mapを分散できる。

SequenceFileの圧縮

[記入者] terurou
[該当箇所] 129ページ（4.4.1.5 SequenceFileのフォーマット）
SequenceFileはデータの圧縮の有効・無効を選択できる。
レコード圧縮
- SequenceFile内のヘッダで指定されたフォーマットでレコードの値が圧縮される。キーは圧縮されない。
ブロック圧縮
- 複数のレコードをまとめて圧縮する。
- レコード圧縮より圧縮効率が高く、一般にはブロック圧縮のほうを使う方がよい。

このページを編集するこのページを元に新規ページを作成

印刷する

コメント（0）

Hadoop本読書会 - 4章 HadoopのI/O - 大規模分散技術勉強会 in 名古屋先頭へ

コメントをかく

名前	ユーザIDを使用しないで書き込む	ユーザーIDを使う	ログインする
画像コード	画像に記載されている文字を下のフォームに入力してください。
備考	「http://」を含む投稿は禁止されています。
本文
利用規約をご確認のうえご記入下さい

Menu

メニュー

トップページ
Hadoop本読書会トップ
- 1章 Hadoop事始め
- 2章 MapReduce
- 3章 Hadoop分散ファイルシステム
- 4章 HadoopのI/O
- 5章 MapReduceアプリケーションの開発
- 6章 MapReduceの動作
- 7章 MapReduceの型とフォーマット
- 8章 MapReduceの機能
- 9章 Hadoopクラスタの構築
- 10章 Hadoopの管理
- 11章 Pig（省略）
- 12章 HBase
- 13章 ZooKeeper
- 14章ケーススタディ（省略）

【メニュー編集】

最近更新したページ

2015-05-12
- Hadoop本読書会 - 9章 Hadoopクラスタの構築
2011-06-20
- トップページ
2011-04-01
- Hadoop本読書会 - 13章 ZooKeeper
2011-03-11
- Hadoop本読書会
2011-01-30
- Hadoop本読書会 - 12章 HBase
2011-01-22
- Hadoop本読書会 - 7章 MapReduceの型とフォーマット
2010-11-14
- MenuBar1
- Hadoop本読書会 - 10章 Hadoopの管理
2010-11-11
- Hadoop本読書会 - 3章 Hadoop分散ファイルシステム
2010-10-24
- Hadoop本読書会 - 8章 MapReduceの機能
2010-10-04
- Hadoop本読書会 - 2章 MapReduce
2010-10-03

最新コメント

2014-02-05
MenuBar1 by check it out
2014-01-22
Hadoop本読書会 - 8章 MapReduceの機能 by stunning seo guys
2014-01-20
Hadoop本読書会 - 9章 Hadoopクラスタの構築 by stunning seo guys
Hadoop本読書会 - 12章 HBase by check it out
2013-11-21
トップページ by ajaihhahqbt
Hadoop本読書会 - 7章 MapReduceの型とフォーマット by oeuigjjqpmd
2013-11-20
Hadoop本読書会 - 5章 MapReduceアプリケーションの開 by jlwyfjlhvq
Hadoop本読書会 - 8章 MapReduceの機能 by iziekfgkp
Hadoop本読書会 - 9章 Hadoopクラスタの構築 by acclxnpbdbu
2013-11-19
Hadoop本読書会 - 12章 HBase by mjbjmw

QRコード

アクセス解析中

どなたでも編集できます