☁️ くもをもくもくまなぶ

クラウドコンピューティングサービスの学んだことを中心につらつらと書いています

アナリティクス強化月間 Glue DataBrew

AWS エバンジェリストシリーズ AWSの基礎を学ぼう

AWS Glue

  • Serverless ETL
    • データの取り出し、変換、取り込み
  • Catalog
    • いろいろなサービスから参照するインベントリ(整理された台帳)

AWS Glue Studio

https://docs.aws.amazon.com/ja_jp/glue/latest/ug/what-is-glue-studio.html

  • ローコードで触れる

AWS Glue Databrew

https://aws.amazon.com/jp/blogs/news/announcing-aws-glue-databrew-a-visual-data-preparation-tool-that-helps-you-clean-and-normalize-data-faster/

  • ノーコードで触れる

Handson Part

教材
  • https://github.com/harunobukameda/AWS-Glue-DataBrew
    (もしこのブログを見て実施される方で、GitHubアカウントをお持ちの方は上記のリポジトリからForkしてください)
    • 実施環境(Region)はN.Virginiaのみで挙動確認
      • CloudFormation Templateがすごいよくできあがっている
実際に行った結果
  • Cloud Formation実行後に生成されるS3
  • レシピ でrawデータに対する変換処理ステップを定義
  • 順次変換したCSVの結果(S3)
  • オブジェクトに含まれているデータの分布状況の表示
  • エディタ画面を表示しようと読み込んでいる様子
  • エディタ画面が表示された様子
  • 読み込んだデータから予めどういったデータ整理をするとよいかを提示してくれる(レコメンデーション)
  • データ品質ルールセットですでにあるオブジェクトに対する条件付き抽出
  • 異なるオブジェクト同士の結合(今回はCSV同士)
  • S3に保存済みのデータに対して変換処理を行い、S3の別ファイルとしてエクスポート
参考

まとめ

AWS Glueを取り扱うのに、ほとんどGUIで簡潔することに驚きました。

また操作感としては普段AWSの画面に慣れている人は少し違和感があるように感じますが、
BIツール、マイクロソフトのPowerBIとPower Queryで操作した経験のある人は違和感なく入れると思います。

AWS Glueとその周りがすごい進化をしているので、今後もアップデートは見逃せないなぁと思いつつ、
操作のハードルが下がってきているので、もっと学んでいかなければなぁと思いました。