はじめに

GCPのGoogle AutoMLTranslationを使う機会があったので記録としてメモしていこうと思います！
学習にかかるお値段すごいのでなかなか手が出せなかったのですが、機会に恵まれて良かったです :sunny:

GCP

GCPとはGoogle Cloud Platformの略でGoogleさんが運営しているクラウドサービスになります。
できることはいろいろあるのですが、今回はその中のGoogle AutoMLTranslationを使用します！

AutoML

AutoMLとは機械学習の知識がなくてもモデルの構築を可能にするシステムのことです。
データの前処理から、訓練用、テスト用にデータを分けて、モデルを作って、パラメータを調整して、、、などの処理がすでにでいるようになっていて、データさえそろっていればモデルのトレーニングがすぐにできてしまう優れもの！
しかも今回使用するGoogleのAutoMLはモデルができたら作成したモデルをすぐにAPIにできるし、GoogleCloud上に直接デプロイが可能なのだそうです！

使い方

AutoMLTranslationの使い方を紹介していきます！
詳しく載っているのはもちろんドキュメントなので詳しくはこちらを参照して下さい。
Google AutoMLTranslationのドキュメント

学習を始める前に

こちらのドキュメントを参考にしてAutoMLが使えるようにして下さい。
始める前に
（サービスアカウントはAPIとして使用するときに必要だっただけな気がするので多分APIを使用しないならいらない）

データセット作成

左端のナビゲーションメニューを開いて「翻訳」を見つけ出して、翻訳のダッシュボードを開きます。

今回は左のAutoMLTranslationを使用します。

開始をクリックするとデータセット画面に移行します。

「データセットを作成」をクリックするとデータセット作成画面が現れます。

やることは、
・データセット名を決める
・ソース言語(翻訳したい言語)を決める
・ターゲット言語(翻訳結果として出して欲しい言語)を決める
例）日本語から英語に翻訳して欲しいとき
　　ソース言語→日本語
　　ターゲット言語→英語

全部決めたら「作成」ボタンを押す。

これでデータセットが作成されました！

しかしこのデータセットの中にはまだ何もデータが入っていません。
ここからデータを入れていこうと思います。

データ作成

データはソース言語とターゲット言語の文章の対訳になります。
例)　日本語を英語に訳すモデルを作りたいとき

日本語	英語
こんにちは	Hello
初めまして	Nice to meet you
ねこが可愛い	Cat is cute

このような対訳を自分のカスタマイズしたい分野に合わせて作っていきます。
ソース言語は左、ターゲット言語は右にして対訳を作成します。
データの形式は.tsvにして下さい。
データセットを何処かから引っ張ってきてもこの形に準じていれば大丈夫です！
わたしはデータがなかったので作ることになりましたが、、、

また、データのファイルはtrain,val,testの3つに予め分けておくことをお勧めします。

注意
test,valにそれぞれ１００以上の例文が入っていないと学習ができません

データを用意できたら、先ほど作成したデータセットにインポートしていきます。
作成したデータセットを選択し、インポートタブを開きます。

Cloud Strageにデータのファイルを入れておくと便利なのでそちらをお勧めしますが、パソコンからもファイルのアップロードが可能です。
その際もCloud Strageに保存することになるのでバケットは作っておくといいと思います。
また、バケットを作成するときはリージョンをus-centralにして下さい。

そしておすすめはトレーニング、検証、テストに別のファイルを使用します(上級者向け)にチェックを入れて、それぞれファイルをインポートすることです。
よくわからない仕様ですが、それをしない場合testの内容が書き換えられてしまうことがあります。

またすごく困ったのは、test,valにそれぞれ１００以上の例文が入っていないと学習ができないことです。
これでいつものtrain:80%, val:10%, test:10%　を守るとなると、全部で1000文必要になります、、
ただ勉強でやるには自分で作るとなると過酷ですね、、

ファイルを指定できたら、「続行」ボタンをクリック。
インポートに少し時間がかかります。

学習

インポートができたらトレーニングタブに移動します。

インポートしたファイル名と正常にインポートされた例文数が表示されます。
トレーニングを開始ボタンを押すと、「新しいモデルのトレーニング」という画面が出てきます。

やることは、
1.モデル名を決定する
2.ベースモデルの決定
です。
2.について、最初はGoogle NMTモデルのみが選択できます。
一つでも、あるソース言語とターゲット言語の組み合わせでモデルを作成すれば、その作成したモデルをベースに追学習させることができるようになります。
精度をどうしてもあげたいときは作成したモデルにどんどん追学習していく方がお勧めです。(過学習かも。。？)
わたしの場合、一回の学習ではほとんどNMTと変わらない結果でした。
わたしのデータに同音異義語が多かったせいかもしれませんが、、

１、２、ができたら「トレーニングを開始」ボタンを押すと学習が始まります。
ここからが長い、、もし1000文入れていたら２時間はかかります。
そして大体２時間で１万円程度のお金が吹っ飛びます！！お気をつけ下さい。

予測

学習が終わったら、予測のタブに移動して例文を入力してみると、新しくできたモデルとGoogleNMTモデルの出力結果を比較することができます。

また、モデルIDや、APIの使いかたなども表示されています！
ぜひ使ってみて下さい！

終わりに

今回、初めてAutoMLという技術に触れさせていただき、とても勉強になりました。
実際に使ってみた感想としては、評価関数にBLEUを使っていたり、そもそもデータを集める時点で機械学習の知識が一切いらないとは思えないな、というのが正直なところです！
でも、自分でモデルを作成しないでいいというのは確かに楽だし、すぐにAPIとして利用できるのも便利だなと思いました！
データ突っ込むだけって楽ですねぇ〜！
でも工夫できるとこがデータしかないので精度あげなきゃってなると大変でした、、
勉強として触れるのはなかなか大変なことだとは思いますが、興味があったら是非やってみて下さい :hugging:

参考文献

Google AutoML Translationドキュメント

Google AutoML Translationの使い方

はじめに

GCP

AutoML

使い方

学習を始める前に

データセット作成

データ作成

学習

予測

終わりに

参考文献

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？