Pythonでクローラーを開発するときに気をつけること

クローラーの特性

状態を持つクローラー

HTTPはステートレスに設計されたプロトコルです
状態を持ちたい時は、Cookieを使います。
必ずしも、クローラー作成で、Cookieの送受信を実装する必要もない。RequestライブラリのSessionオブジェクトを使う。
また、Refererでも状態を表すことができる。

ログインの実装などに使う。

JavaScriptを解釈するクローラー

SPAなどは、HTMLにコンテンツを含まれていない。その場合h、JavaScriptを解釈する必要がある。

Selenium (プログラムからブラウザークォ自動操作するツール)
Puppeteer (Google Chromeを自動操作するためのNode.jsのライブラリ)

などが自動操作ツールとしてあります。

不特定多数のWebサイトを対象とするクローラー

Google botなど

この3つの特性があるが、どのパターンのクローラーであっても以下の点に気をつけた方がいい。

収集したデータの利用において注意

著作権
利用規約と個人情報を気をつけないといけません。

クローリングの負荷に関する注意

同時接続数
クロール間隔を意識し、負荷を意識しないといけない。

robots.txt

Webサイトの管理者がクローラーに対して特定のページをクロールしないよう指示数ために、robots.txtとrobots metaタグが広く使われている。

robots.txt: Webサイトのトップディレクトリに配置されるテキストファイル
robots metaタグ: クローラーへの指示が記述されている。

urllib.robotparserというPythonのライブラリを使うと、robots.txtの情報を取得できる。

XMLサイトマップ

Webサイトの管理者がクローラーに対してクロールして欲しいURLのリストを提示捨ためのXMLファイル。

XMLサイトマップを参照してクロールすると、クロールが必要なページだけで済むので効率的でうす。

連絡先の明示

User-Agentヘッダーに、任意の文字列を記入して、アクセスする。

ステータスコードとエラー処理

ステータスコードによって、エラー処理をかえておくことで、ネットワークエラー（接続できないなど）の場合はリトライするといった処理ができる。

Pythonでクローラーを開発するときに気をつけること

クローラーの特性

状態を持つクローラー

JavaScriptを解釈するクローラー

不特定多数のWebサイトを対象とするクローラー

収集したデータの利用において注意

クローリングの負荷に関する注意

robots.txt

XMLサイトマップ

連絡先の明示

ステータスコードとエラー処理

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？