アナリティクス強化月間 Glue DataBrew

読了時間(目安): 1 分
記事の文字数: 3808 文字
Page content

AWS エバンジェリストシリーズ AWSの基礎を学ぼう

アナリティクス強化月間 Glue DataBrew

AWS Glue

  • Serverless ETL
    • データの取り出し、変換、取り込み
  • Catalog
    • いろいろなサービスから参照するインベントリ(整理された台帳)

AWS Glue Studio

https://docs.aws.amazon.com/ja_jp/glue/latest/ug/what-is-glue-studio.html

  • ローコードで触れる

AWS Glue Databrew

https://aws.amazon.com/jp/blogs/news/announcing-aws-glue-databrew-a-visual-data-preparation-tool-that-helps-you-clean-and-normalize-data-faster/

  • ノーコードで触れる

Handson Part

教材

  • https://github.com/harunobukameda/AWS-Glue-DataBrew
    (もしこのブログを見て実施される方で、GitHubアカウントをお持ちの方は上記のリポジトリからForkしてください)
    • 実施環境(Region)はN.Virginiaのみで挙動確認
      • CloudFormation Templateがすごいよくできあがっている

実際に行った結果

  • Cloud Formation実行後に生成されるS3

9

  • レシピ でrawデータに対する変換処理ステップを定義

1

  • 順次変換したCSVの結果(S3)

4

  • オブジェクトに含まれているデータの分布状況の表示

5

  • エディタ画面を表示しようと読み込んでいる様子

6

  • エディタ画面が表示された様子

10

  • 読み込んだデータから予めどういったデータ整理をするとよいかを提示してくれる(レコメンデーション)

2

  • データ品質ルールセットですでにあるオブジェクトに対する条件付き抽出

7

  • 異なるオブジェクト同士の結合(今回はCSV同士)

8

  • S3に保存済みのデータに対して変換処理を行い、S3の別ファイルとしてエクスポート

11

参考

まとめ

AWS Glueを取り扱うのに、ほとんどGUIで簡潔することに驚きました。

また操作感としては普段AWSの画面に慣れている人は少し違和感があるように感じますが、
BIツール、マイクロソフトのPowerBIとPower Queryで操作した経験のある人は違和感なく入れると思います。

AWS Glueとその周りがすごい進化をしているので、今後もアップデートは見逃せないなぁと思いつつ、
操作のハードルが下がってきているので、もっと学んでいかなければなぁと思いました。

Share on:
comments powered by Disqus