BigQueryがSQL初心者練習に丁度よかった話

経緯

前回、ER図ランチについての記事を書きましたが（🍄マリオカートのER図に付いて考える）、
実際に図をいくつか書いてみて、データの成り立ちが何となくわかってきたかな？というタイミングで
実践的にクエリを書いていくことになりました。

今回は

Google BigQueryの画面を初めて見る人が、実際にSELECT文を書いてみた

という方式の回です。
ランチをしながら1時間で行うことのできた内容となります。
このBigQueryの機能、最初から出会いたかった。

🔰

`0.何のためにやるの？`

参加者はPMの方々＋エンジニアの方々。

PMでも分析クエリが書けるようになれば、クエリの作成を都度お願いしなくてもいい。
自分で書くのが１番早いですし、
PVやUU等の簡単なデータ抽出なら、サッと書いてデータを見れるようになろう！・・・を目指します。

今回の記事は構文についてあまり触れませんが、
BigQueryの機能の使い方に重きを置いて紹介してみます。

`1.必要なデータセットを準備する`

今回はGoogle Cloud Platform（GCP）を使用しました。
データセット（テーブルの集合体）をGoogleが無料で一般公開しており、

・とりあえずSQLを書いて実行してみたい！
・クエリ書く練習したいけど環境がない・・・！こまった

という人にうってつけのようです。もちろんブラウザ上で動作します。

その中で、「SF Film Locations（SF映画のロケ地）」のデータセットを使用します。
（もちろん、一覧から探して興味のあるカテゴリで練習するのが１番です！）

`2.どんなデータを取りたいか設定する`

クエリを書く＝欲しいデータが具体的に決まっている、という事がほとんどだと思います。
こんなデータ取ってみたいな、を決めてみましょう。

・今回設定されたお題
・ジョージ・ルーカスの映画
・ロケ地の多い映画上位30件
・配信タイトル数が多い配給会社上位30社
・最新の映画10件

・使えるようになりたいキーワード
SELECT・・・取得項目
FROM・・・取得テーブル
WHERE・・・絞り込み条件
ORDER BY・・・並び替え
GROUP BY・・・集計単位
LIMIT・・・取得件数

それでは実際に書いていきます。

`3.BigQueryのデータセットページにアクセスする`

「SF Film Locations」のページにアクセスします。
このデータセットにどんなデータが入っているのか、という説明が書かれています。
「データセットを表示」をクリックし、クエリのエディタを開きましょう。

これがクエリを書くエディタ画面。

san_francisco_film_locationsが選択された状態で開きました。
左のリストでは、他のデータセットを一覧で見ることができます。

bigquery-public-data(プロジェクト名)＞ san_francisco_film_locations(データセット名)
という階層が左のリストから確認できます。

もし色々クリックして迷子になってしまったら、
リソースの検索にデータセット名（san_francisco_~）を入力してソートすることも可能です。

`4.どんなデータが入っているか見てみる`

1で述べたとおり、データセットはテーブルの集合体です。
データセット san_francisco_film_locationsをクリックして展開してみると、
film_locationsというテーブルが入っていることが確認できます。

テーブルをクリックで、以下のようなテーブル情報を見ることもできます。
頻繁に使う部分なので、どうやって辿り着くか覚えておくと便利です。

・スキーマ：
　　フィールド名一覧と、フィールドごとの型（入るデータが文字列なのか、数値なのかなど）
・詳細：
　　テーブルの作成日時、情報など
・プレビュー：
　　テーブルに格納されているデータのプレビュー

`5.とりあえず取得してみる`

まず、基本的なSQLの構文で取得してみます。

SELECT[カラム名]FROM[テーブル名]

に沿ってデータを取得してみます。
最初は構文としてとりあえず全取得してみようという事で、
「*(アスタリスク)」をSELECTの後に入れ、テーブル名に film_locationsを入力します。

SELECT*FROMfilm_locations

実行してみると、エラーが出ました。

左のリソース一覧を見るとわかりますが、
自分が複数のプロジェクトにアクセスできる場合、万が一同じテーブル名が存在していたらどれ？となる場合もありますよね。
それと同じで、正しいパスを指定してあげて分かりやすくなるように修正します。

--[プロジェクト名].[データセット名].[テーブル名]で記述してみたSELECT*FROM`bigquery-public-data.san_francisco_film_locations.film_locations`

プロジェクト名はテーブルの詳細→表IDから確認できます。
正しい記述をしたのち、バッククォートで囲んで実行してみます。

めでたく初取得できました！

`6.条件を追加して絞り込む`

さらに詳しく文を書いていきます。
2.で設定されたお題に沿ってクエリを書いていきましょう。
冒頭で述べた通り、構文については軽くで触れます。

・ジョージ・ルーカスの映画を抽出

directorのカラムが「ジョージ・ルーカス」の行を抽出します。

SELECT*FROM`bigquery-public-data.san_francisco_film_locations.film_locations`WHEREdirector='George Lucas'

ジョージの綴りがわからなければ、部分一致で指定することもできます。
しかし、ジョージから始まる directorが複数人いたら全部ヒットしてしまうので、注意して使用しましょう。

SELECT*FROM`bigquery-public-data.san_francisco_film_locations.film_locations`WHEREdirectorLIKE'George%'

前方一致だと上記の書き方になります。%部分がほにゃららを意味します。
LIKEは色んなパターンで一致させられるので、調べて使用してくださいね。

以下、他のお題についても書いてみました。

・ロケ地の多い映画上位30件

COUNT関数を使って指定項目の数をカウントします。

クエリ

SELECTtitle,COUNT(locations)FROM`bigquery-public-data.san_francisco_film_locations.film_locations`GROUPBYtitle

実行結果

このままだとランキング付けされていないので、ORDER BY [並び変えたいカラム名]で並び替えます。
デフォルトは昇順です。
今回は降順にしたいのでDESCをカラム名の後に入れます。
また、「f0_」という列名になっているので、AS [列名]で新しいカラムに名前を付けてあげます。

クエリ

SELECTtitle,COUNT(locations)ASlocation_countFROM`bigquery-public-data.san_francisco_film_locations.film_locations`GROUPBYtitleORDERBYlocation_countDESCLIMIT30

実行結果
30件取れました。

・配信タイトル数が多い配給会社上位30社

SELECTdistributor,COUNT(DISTINCTtitle)AStitle_countFROM`bigquery-public-data.san_francisco_film_locations.film_locations`GROUPBYdistributorORDERBYtitle_countDESCLIMIT30

・最新の映画10件

「最新の」：release_yearの降順
「映画」：titleごとに1行ずつ
「10件」：LIMITで10件に制限

SELECTDISTINCTtitle,release_yearFROM`bigquery-public-data.san_francisco_film_locations.film_locations`ORDERBYrelease_yearDESC,titleLIMIT10

`7.学習まとめ`

今回は
BigQueryのデータセットを使ってSQL文を実行する方法、
また、基本的な構文について学びました。
SELECT・・・取得項目
FROM・・・取得テーブル
WHERE・・・絞り込み条件
ORDER BY・・・並び替え
GROUP BY・・・集計単位
LIMIT・・・取得件数

SQL文については、基本の基本な部分は完了となります。

どんなに長いクエリでも、シンプルな記述の集まりです。
何百行もあるクエリを目の前にした時、こんなの読めない・・・！と最初は思うものですが、
分解していくと意味がわかるようになります。

BigQueryで練習して慣れてみましょう！

`8.さらにやってみて欲しいこと`

・可読性を意識する

クエリを読みやすくするために、インデントを追加するなどして見やすくします。

とても見やすいです。

自分で書いたクエリなら中身がわかるのは当然。
ですが、他の人から見ても読みやすい書き方を意識することで、自然と綺麗な書き方ができると思います。
BigQueryでは便利な成形機能があるので、以下のものを使用してみても良いかもしれません。

1.command + shift + F
（「ショートカットメニュー」→「クエリを書式設定」で確認できる）
2.「展開」→「フォーマット」

・コメントを挿入する
BigQueryに限らず、SQL文の中ではコメントを書くことができます。頭に半角ハイフンを2つ入れるだけです。
長いクエリを書いているうちに、分からなくなってきたらコメントで残してみましょう。
これは他の人に向けて読みやすくする為にも使用することがあります。

--ここで全部取ってるよSELECT*FROM`bigquery-public-data.san_francisco_film_locations.film_locations`

`9.次のステップは？`

次のステップとしては、以下のようなものがあるかなと思います。

・複数テーブルにまたがってSELECTする（JOIN）
・すでにある値からさらに計算する（%や日付の加算・減算）
・条件によって値を分岐（100以上の値ならフラグを立てる）

これらは、用途に合わせた関数を使うことになります。

検索するとたくさんの関数が出てくるので、最初はどれを使えば良いか迷うことも多いはずです。
結果の値がイメージできなければ、とりあえず書いてみる！のをオススメします。

（特に慣れていないと専門用語が多く、結局どれを使えば良い？となるので）

🔰
やってみれば怖くない、とりあえずチャレンジしてみましょう〜！
とても良い練習台でした。

今回も主催の方々、ありがとうございました。

BigQueryがSQL初心者練習に丁度よかった話

経緯

`0.何のためにやるの？`

`1.必要なデータセットを準備する`

`2.どんなデータを取りたいか設定する`

`3.BigQueryのデータセットページにアクセスする`

`4.どんなデータが入っているか見てみる`

`5.とりあえず取得してみる`

`6.条件を追加して絞り込む`

`7.学習まとめ`

`8.さらにやってみて欲しいこと`

`9.次のステップは？`

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？