失敗談

過去記事にて、競艇の順位予想をするプログラムを作成し、紹介しました。

↓過去記事については、下記リンクを参照してください。↓
【ディープラーニング】機械学習初心者が競艇１位予想を作れるのか試してみた。

プログラムに関してはある程度の評価をいただきましたが、ひとつ気になることが私にはありました。

それは、データ収集の大変さでした。

Webページからデータを収集していたので、この作業を楽にするのはスクレイピングをすることだとはわかっていました。

しかし私は、食わず嫌いというのとディープラーニングで手一杯だった為、難しそうなスクレイピングの中身さえ確認せずにコピーアンドペーストをしてデータを集めていました。

実際にスクレイピングの基礎を学習してみて、まず取り掛かりやすさに驚き、私が必死にコピーアンドペーストして収集していたテキストが

<pre>テキスト</pre>

のみで囲われていたことに絶望しました。

つまり、基礎でも取得できる単純なソースコードで構成されていたという訳です。

これで私は、開発に取り掛かる前にきちんと設計することの大切さを学びました。

設計さえしていれば、より短い時間で、効率よく円滑に作業が進んでいたはずです。

設計することは基本だと思いますが、きちんとしないと私のようになってしまうので気をつけてください。

モジュール

importrequestsfrombs4importBeautifulSoupimporttime

Requests
BeautifulSoup4

これらは追加モジュールなのでターミナル(Mac)でインストールする必要があります。

$pip install requests
$pip install BeautifulSoup4

ソースコード

importrequestsfrombs4importBeautifulSoupimporttimedate=["202004","202003","202002","202001","201912","201911","201910","201909","201908","201907","201906","201905","201904","201903","201902","201901"]withopen("scraping_data.txt","a",encoding='utf-8')asf:formonthindate:fordayinrange(1,32):try:ifnum<10:url="URL/{}/12/0{}.html".format(month,day)else:url="URL/{}/12/{}.html".format(month,day)exceptValueError:passresponse=requests.get(url)response.encoding=response.apparent_encodingbs=BeautifulSoup(response.text,"html.parser")forpreinbs.find_all("pre"):f.write(pre.text)time.sleep(1)print("{}: 書き込み完了".format(month))

Pythonの基礎は特に説明を付け加える必要がない場合の説明は省かせていただきます。

url

URLを見てみると、日付を変えるごとに

URL/202004/12/04.html

のようにURLの一部が変更されるだけなのでこれを利用して取得しました。

if-else

ifnum<10:url="URL/{}/12/0{}.html".format(month,day)else:url="URL/{}/12/{}.html".format(month,day)

1~9日では、URL内で「01」のように表現されているので分岐させています。

try-except

try:ifnum<10:url="URL/{}/12/0{}.html".format(month,day)else:url="URL/{}/12/{}.html".format(month,day)exceptValueError:pass

URL内に任意の日付が存在しない場合があったので、指定のURLがなかったときに発生するValueErrorをexcept文で無視しています。

requests

requests.get(url)

response=requests.get(url)

HTTPリクエストを送り、HTTPレスポンスを取得することができます。
これによりHTMLを取得することができます。

レスポンスのエンコーディング

response.encoding=response.apparent_encoding

日本語などでは、エンコーディングを適切に判断できずに、文字化けしてしまう可能性があります。

response.encoding

encodingプロパティは、サーバーから返されるレスポンスの文字エンコーディングで、これに従い、コンテンツを変換することができます。

response.apparent_encoding

サーバーから返された文字エンコーディングが不明な時にコンテンツの中身をチェックした上で、適切な文字エンコーディングを返してくれます。

response.text

取得したHTMLを表示します。

BeautifulSoup

bs=BeautifulSoup(response.text,"html.parser")

BeautifulSoupを使用するには

第一引数：HTMLを渡します。
第二引数：HTMLパーサーを渡します。種類は多数存在しますが、今回は最初から使える"html.parser"を使っています。

HTMLパーサー

HTMLを字句解析して、タグを判断してデータ構造として取得するプログラムのことです。

BeautifulSoup.find_all()

forpreinbs.find_all("pre"):f.write(pre.text)

()内に指定されたタグをすべて取得します。
それをforループにかけることで、一つずつ指定のタグを取得することができます。

timeメソッド

importtimetime.sleep(1)　# 1秒間プログラムを停止する

time.sleep()

任意の時間の間プログラムを停止することができます。

スクレイピングをすることで重要なのは、相手サイトに迷惑をかけないようにすることです。

最低でも1秒以上は時間を開けるようにしましょう。

リンク

BeautifulSoup 公式ドキュメント

【失敗談】スクレイピングを約１時間学んだだけで作業時間が激減した件。

失敗談

モジュール

ソースコード

url

if-else

try-except

requests

requests.get(url)

レスポンスのエンコーディング

response.encoding

response.apparent_encoding

response.text

BeautifulSoup

HTMLパーサー

BeautifulSoup.find_all()

timeメソッド

time.sleep()

リンク

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？