AWS認定資格対策ノート

AWS再入門 AWS Data Pipeline編

パイプラインの定義

Data node入出力データの保存場所(S3, DynamoDB, Redshiftなど)
データのフォーマット(CSV、その他)
Activityパイプラインとして実行する処理
Schedule実行タイミング
ResourceActivityを実行するリソース(EC2、EMRなど)
PreconditionActionを実行する前提条件
ActionPreconditionが成立したときに実行される処理(SNSによる通知など)
パイプライン定義

Activityはデフォルトで3回再実行する。最大10回まで再実行できる。
よくある質問 機能

SWFとの違い

SWFフロー中に人を介在できる(例:承認フロー)。
Data Pipelineデータ移行やETL処理を実現できる。
Q: AWS Data Pipeline と Amazon Simple Workflow Service(Amazon SWF)の違いは何ですか?
両サービスとも、追跡、再試行、例外処理、任意のアクションの実行といった機能を提供しますが、AWS Data Pipeline では特にデータ駆動型ワークフローの大半に共通する特定の手順を簡素化できます。具体的には、入力データが特定の準備基準に一致した場合にアクティビティを実行する、異なるデータストア間で簡単にデータをコピーする、変換スケジュールを簡単に設定する、といったことを行えます。Data Pipeline は特定の手順に高度に特化しているため、コーディングやプログラミングの知識がなくても、ワークフロー定義を簡単に作成できます。
よくある質問 全般

フリーエリア

メンバーのみ編集できます