Aws Glueで主に利用するリソースについて基本情報を記載します。
AWS Glueの機能の一つで、データソースを定期的にチェックし、メタデータをデータカタログに登録/更新する機能です。
メタデータにはテーブル情報(プロパティ、スキーマ、Serde パラメータなど)が含まれます。
データソースからデータターゲットへETL(抽出、変換、書き出し)を行う機能です。※ETL:「抽出(Extract)」「変換(Transform)」「書き出し(Load)」
データソースからデータを抽出し、そのデータを変換してターゲット内にロードするためのスクリプトを実行します。
スクリプトはジョブ作成時に自動生成されますが、必要に応じてカスタマイズも可能です。
ジョブタイプ | 概要 | 備考 |
---|---|---|
Spark | 知識がついたら追記する。Kinesis or Kafka以外をデータソースとする際に選択? | |
Spark Streamin | 知識がついたら追記する。Kinesis or Kafkaをデータソースとする際に選択? | |
Python shell | 知識がついたら追記する。 | LambdaのPythonスクリプトのイメージですが、Lambdaと違いタイムアウト時間を任意に指定できる!! |
スクリプトの作成がビジュアルエディタで容易にできるよう[AWS Glue Studio]が準備されていています。
■ビジュアルエディタの選択
項目 | 概要 | 備考 |
---|---|---|
Visual with a source and target | データソース→トランスフォーム→データターゲットとジョブ構造を指定してスクリプトを作成します。 | UIからジョブ構造やテーブル構造等を操作可能 |
Visual with a blank canvas | ライブラリのインポートなど、必要最低限の状態からスクリプトを作成します。 | UIからジョブ構造やテーブル構造等を操作可能 |
Spark script editor | 独自のSparkコードを作成またはアップロードします。 | |
Python Shell script editor | 独自のPythonシェルスクリプトを作成またはアップロードします。 |
クローラやジョブを開始するトリガーです。
トリガータイプ | 概要 | 備考 |
---|---|---|
スケジュール | 時刻や周期をトリガーにします。簡単に言うとcron | |
ジョブイベント | ジョブイベント(ジョブ/クローラ)の成功/失敗/停止/タイムアウトをトリガーにします。 | 対象のジョブを指定可能 |
オンデマンド | 任意のタイミングで実行します。 | |
EventBridge event | EventBridge eventをトリガーにします。 |