PythonでHTTPキャッシュを使う

クローラー作成の時には、繰り返しの実行を念頭におくと思います。
そこで、クローラー先にサイトのキャッシュが気になります。

キャッシュがかかった状態で再度、実行しても同じページをみていて取得できるデータが同じです。

今回は、PythonにおけるHTTPキャッシュについてまとめたいと思います。

HTTPキャッシュ

HTTPキャッシュは、RFC7234で定められている。
HTTPサーバはレスポンスにキャッシュに関するヘッダーをつけることで、HTTPクライアントに足しいてコンテンツのキャッシュ方針を指示できる。

HTTPヘッダー	Right align
Cache-Control	コンテンツをキャッシュしても良いかなど、キャッシュ方針を細かく指示する
Expires	コンテンツの有効期限を示す
Etag	コンテンツの識別子を表す。コンテンツが変わるとEtagの値も変わる
Last-Modified	コンテンツの最新更新日時を表す
Pragma	Cache-Controlと似たものだったが、現在では後方互換のためだけに残されている
Vary	値に含まれるリクエストヘッダーの値が変わるとサーバーが返すレスポンスも変わることを表す

強いキャッシュ

Cache-Control
Expires

は、クライアントは一度レスポンスをキャッシュすると、有効期限が切れるまではリクエストを送らず、キャッシュされたレスポンスを使う。

弱いキャッシュ

Last-Modified
Etag

は、クライアントは一度レスポンスをキャッシュすると、次回から条件付きのリクエストを送り、サーバーは更新がない場合は304というステータスコードで空のレスポンスボディを返す。

PythonでHTTPキャッシュを使う

importrequestsfromcachecontrolimportCacheControlfromcachecontrol.cachesimportFileCachesession=requests.Session()# sessionをラップしたcached_sessionを作る。
# キャッシュはファイルとして .webcache ディレクトリ内に保存する。
cached_session=CacheControl(session,cache=FileCache('.webcache'))response=cached_session.get('URL')# response.from_cache属性でキャッシュから取得されたレスポンスかどうかを取得できる。
print(f'from_cache: {response.from_cache}')print(f'status_code: {response.status_code}')

2回目からはキャッシュされている内容が返ってきます。

PythonでHTTPキャッシュを使う

HTTPキャッシュ

強いキャッシュ

弱いキャッシュ

PythonでHTTPキャッシュを使う

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？