Glueにはどのような機能があるか調べてみました。
Glueとは?
公式では簡単に、「AWS Glue はフルマネージド型のデータ抽出、変換、ロード (ETL) サービスです」と説明されています。
機能
- JSON、CSV、ORC 、Apache Parquet、Apache Avro等のファイルを好きなファイル形式に変換して出力できる。
- テーブルの列名、必要な列などを変換してファイルに出力できる。
- ジョブ作成時に、pythonスクリプトが自動生成され、自分で編集もできる。
- トリガー指定をして、ジョブを実行することで好きなタイミングでETLができる。
使い方
- ジョブの作成
どのようにデータを変換するかを設定してジョブを作成する。 - トリガーの設定
どのタイミングでジョブを実行するかを決める。
クリックで実行、時間指定で実行、ほかのジョブ完了で実行ができる。 - ジョブの実行
ジョブを実行して、データの変換、出力を行います。