Quantcast
Channel: 初心者タグが付けられた新着記事 - Qiita
Viewing all articles
Browse latest Browse all 21097

100日後にエンジニアになるキミ - 89日目 - データ - ETLについて

$
0
0

昨日までのはこちら

100日後にエンジニアになるキミ - 88日目 - データ - データ転送について

100日後にエンジニアになるキミ - 86日目 - データベース - Hadoopについて

100日後にエンジニアになるキミ - 76日目 - プログラミング - 機械学習について

100日後にエンジニアになるキミ - 70日目 - プログラミング - スクレイピングについて

100日後にエンジニアになるキミ - 66日目 - プログラミング - 自然言語処理について

100日後にエンジニアになるキミ - 63日目 - プログラミング - 確率について1

100日後にエンジニアになるキミ - 59日目 - プログラミング - アルゴリズムについて

100日後にエンジニアになるキミ - 53日目 - Git - Gitについて

100日後にエンジニアになるキミ - 42日目 - クラウド - クラウドサービスについて

100日後にエンジニアになるキミ - 36日目 - データベース - データベースについて

100日後にエンジニアになるキミ - 24日目 - Python - Python言語の基礎1

100日後にエンジニアになるキミ - 18日目 - Javascript - JavaScriptの基礎1

100日後にエンジニアになるキミ - 14日目 - CSS - CSSの基礎1

100日後にエンジニアになるキミ - 6日目 - HTML - HTMLの基礎1

本日はETLについてです。

ETLについて

ETLとはExtract/Transform/Loadの略でデータウェアハウスにおける工程を指す言葉です。

Extract : 外部のデータソースからデータを抽出する
Transform : 抽出したデータを目的に応じて変換・加工する
Load : データウェアハウス(データベース)などに加工済みのデータをロードする

通常ログファイルなどはそのままの形でデータベースに投入することもありますが
中には不要なデータだったり、データの形状が分析する際に好ましくない形であることがあります。

そんな時はよりデータ分析をしやすい形にデータを加工してからデータ投入を行うことがあります。

この工程をまとめてETLと読んでいます。

image.png

参考:
https://docs.microsoft.com/ja-jp/azure/architecture/data-guide/relational-data/etl

抽出 (Extract)

ETLの第1工程はデータソースからデータを抽出することです。
ファイルやデータベースが主なデータソースとなったり
たいていのデータウェアハウス構築では、複数のデータソースからデータを集積します。

ここのデータの形式がバラバラだったり、粒度もまちまちであると言うようなケースもあり
データソースから適切な形で必要な分のデータを抽出する仕組みが必要になります。

変換・加工 (Transform)

つぎに変換・加工の工程では、データソースから抽出したデータを一連の規則にしたがって
データ投入が可能な形に加工を行います。

変換や加工の方法には以下のようなものがあります。

・特定カラムの選択
・カラム分割(日付やカンマつなぎのデータなど)
・データの統合(複数データからの集約)
・データの集約(複数カラムでの集計、計算値の代入)
・データクレンジング(NULL値の削除、値の変換、データ型の変換、不要文字の削除)
・匿名加工(個人情報など)
・代替値に変換
・データの転置

などなど、機械学習で言う前処理と似たような加工を施します。
これにより投入が可能なデータに加工を行います。

ロード (Load)

最後はデータ投入の工程です。
通常はデータウェアハウス(DWH)にロードします。

最終的には分析用のデータベースに対して加工済みのデータを投入することとなります。

ETLを行うには

ETLは非常に複雑な工程を行うプログラムを作成することで実行することができます。
ただし、最近ではETLを専門に行うツールなどが出来ているため
それを用いて簡易に行うケースが増えているようです。

ETLツールについて

ETLを行うためのツールはたくさん出回っていますが
いくつかのツールをご紹介します。

AWS Glue

AWS GlueはクラウドベースのETLツールです。
データファイルをAWS S3などのクラウドストレージに置くケースは多く
S3上のファイルの読み書きしてデータの加工を行うことができるので親和性が高いです。

ScalaまたはPythonでETLコードを書いて複雑な加工を行うことができます。

Cloud Data Fusion
こちらもGoogle CloudのETLサービスです。
GUIからノンプログラミングでデータパイプラインが構築可能な
グラフィカルETLツールという感じでしょうか。

データを変換をプログラミングできるコンポーネントもあるので
複雑な変換ロジックへの対応も可能です。

embulk

image.png

参考:https://github.com/embulk/embulk

オープンソースのETLツールになります。
ローカルやサーバーにインストールして使うことができます。
プラグインも多数揃っており様々なデータソースに接続しデータ加工部分も細かく指定できます。

お金をかけずに軽めにやりたいという場合に安価でETLの仕組みを作ることができます。

まとめ

ETLはデータ分析を行うためのデータを整備する部分で必ず利用されます。
データの転送と合わせてデータ分析者にとっては欠かすことのできない部分になります。

最近ではより簡易に行うことのできるツールも増えてきているので
自前でプログラムを書くよりは正確で、工数も少なくできるため
相性の良いETLツールを調べておくことも必要かと思います。

君がエンジニアになるまであと11日

作者の情報

乙pyのHP:
http://www.otupy.net/

Youtube:
https://www.youtube.com/channel/UCaT7xpeq8n1G_HcJKKSOXMw

Twitter:
https://twitter.com/otupython


Viewing all articles
Browse latest Browse all 21097

Trending Articles