100日後にエンジニアになるキミ - 89日目 - データ

昨日までのはこちら

本日はETLについてです。

ETLについて

ETLとはExtract/Transform/Loadの略でデータウェアハウスにおける工程を指す言葉です。

Extract : 外部のデータソースからデータを抽出する
Transform : 抽出したデータを目的に応じて変換・加工する
Load : データウェアハウス(データベース)などに加工済みのデータをロードする

通常ログファイルなどはそのままの形でデータベースに投入することもありますが
中には不要なデータだったり、データの形状が分析する際に好ましくない形であることがあります。

そんな時はよりデータ分析をしやすい形にデータを加工してからデータ投入を行うことがあります。

この工程をまとめてETLと読んでいます。

参考：
https://docs.microsoft.com/ja-jp/azure/architecture/data-guide/relational-data/etl

抽出 (Extract)

ETLの第1工程はデータソースからデータを抽出することです。
ファイルやデータベースが主なデータソースとなったり
たいていのデータウェアハウス構築では、複数のデータソースからデータを集積します。

ここのデータの形式がバラバラだったり、粒度もまちまちであると言うようなケースもあり
データソースから適切な形で必要な分のデータを抽出する仕組みが必要になります。

変換・加工 (Transform)

つぎに変換・加工の工程では、データソースから抽出したデータを一連の規則にしたがって
データ投入が可能な形に加工を行います。

変換や加工の方法には以下のようなものがあります。

・特定カラムの選択
・カラム分割(日付やカンマつなぎのデータなど)
・データの統合(複数データからの集約)
・データの集約(複数カラムでの集計、計算値の代入)
・データクレンジング(NULL値の削除、値の変換、データ型の変換、不要文字の削除)
・匿名加工(個人情報など)
・代替値に変換
・データの転置

などなど、機械学習で言う前処理と似たような加工を施します。
これにより投入が可能なデータに加工を行います。

ロード (Load)

最後はデータ投入の工程です。
通常はデータウェアハウス(DWH)にロードします。

最終的には分析用のデータベースに対して加工済みのデータを投入することとなります。

ETLを行うには

ETLは非常に複雑な工程を行うプログラムを作成することで実行することができます。
ただし、最近ではETLを専門に行うツールなどが出来ているため
それを用いて簡易に行うケースが増えているようです。

ETLツールについて

ETLを行うためのツールはたくさん出回っていますが
いくつかのツールをご紹介します。

AWS Glue

AWS GlueはクラウドベースのETLツールです。
データファイルをAWS S3などのクラウドストレージに置くケースは多く
S3上のファイルの読み書きしてデータの加工を行うことができるので親和性が高いです。

ScalaまたはPythonでETLコードを書いて複雑な加工を行うことができます。

Cloud Data Fusion
こちらもGoogle CloudのETLサービスです。
GUIからノンプログラミングでデータパイプラインが構築可能な
グラフィカルETLツールという感じでしょうか。

データを変換をプログラミングできるコンポーネントもあるので
複雑な変換ロジックへの対応も可能です。

embulk

参考：https://github.com/embulk/embulk

オープンソースのETLツールになります。
ローカルやサーバーにインストールして使うことができます。
プラグインも多数揃っており様々なデータソースに接続しデータ加工部分も細かく指定できます。

お金をかけずに軽めにやりたいという場合に安価でETLの仕組みを作ることができます。

まとめ

ETLはデータ分析を行うためのデータを整備する部分で必ず利用されます。
データの転送と合わせてデータ分析者にとっては欠かすことのできない部分になります。

最近ではより簡易に行うことのできるツールも増えてきているので
自前でプログラムを書くよりは正確で、工数も少なくできるため
相性の良いETLツールを調べておくことも必要かと思います。

君がエンジニアになるまであと11日

作者の情報

乙pyのHP：
http://www.otupy.net/

Youtube：
https://www.youtube.com/channel/UCaT7xpeq8n1G_HcJKKSOXMw

Twitter：
https://twitter.com/otupython

100日後にエンジニアになるキミ - 89日目 - データ - ETLについて

ETLについて

抽出 (Extract)

変換・加工 (Transform)

ロード (Load)

ETLを行うには

ETLツールについて

まとめ

作者の情報

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？