三歩あるけば物も忘れる

私メタボックル!お腹のお肉の妖精さ!

ユーザ用ツール

サイト用ツール


サイドバー

  
人気ページTOP10

18

Aws:Glue:1.基本情報

Aws/Glue/1.基本情報

Aws Glueで主に利用するリソースについて基本情報を記載します。

クローラ

AWS Glueの機能の一つで、データソースからデータターゲットへETL(抽出、変換、書き出し)とメタデータの自動作成を行います。
メタデータにはテーブルの下記情報などが含まれます。※ETL:「抽出(Extract)」「変換(Transform)」「書き出し(Load)」
・テーブルのプロパティ
・テーブルのスキーマ
・テーブルのSerde パラメータ

ジョブ

データソースからデータを抽出し、そのデータを変換してターゲット内にロードするためのスクリプトを実行します。
スクリプトはジョブ作成時に自動生成されますが、必要に応じてカスタマイズも可能です。

ジョブタイプ 概要 備考
Spark 知識がついたら追記する。Kinesis or Kafka以外をデータソースとする際に選択?
Spark Streamin 知識がついたら追記する。Kinesis or Kafkaをデータソースとする際に選択?
Python shell 知識がついたら追記する。 LambdaのPythonスクリプトのイメージですが、Lambdaと違いタイムアウト時間を任意に指定できる!!

スクリプトの作成がビジュアルエディタで容易にできるよう[AWS Glue Studio]が準備されていています。
■ビジュアルエディタの選択

項目 概要 備考
Visual with a source and target データソース→トランスフォーム→データターゲットとジョブ構造を指定してスクリプトを作成します。 UIからジョブ構造やテーブル構造等を操作可能
Visual with a blank canvas ライブラリのインポートなど、必要最低限の状態からスクリプトを作成します。 UIからジョブ構造やテーブル構造等を操作可能
Spark script editor 独自のSparkコードを作成またはアップロードします。
Python Shell script editor 独自のPythonシェルスクリプトを作成またはアップロードします。

■AWS Glue StudioのUIイメージ

トリガー

クローラやジョブを開始するトリガーです。

トリガータイプ 概要 備考
スケジュール 時刻や周期をトリガーにします。簡単に言うとcron
ジョブイベント ジョブイベント(ジョブ/クローラ)の成功/失敗/停止/タイムアウトをトリガーにします。 対象のジョブを指定可能
オンデマンド 任意のタイミングで実行します。
EventBridge event EventBridge eventをトリガーにします。

ワークフロー

上記のクローラ、ジョブ、トリガーを組み合わせてETL処理フローを作成するツールです。
複雑なフローなど可視化できて効率よくワークフローを作成できます。

下図は画面イメージとこんなフローが作れますよといったサンプルになります。

Aws/Glue/1.基本情報.txt · 最終更新: 2021/10/26 by admin