webページからデータを取得する方法は
こちら
正規表現でWebページからデータを抜き出す
標準ライブラリのreモジュールを使う。
公式ドキュメント
importrefromhtmlimportunescapefromurllib.parseimporturljoin# Webページからhtmlデータを取得
forpartial_htmlinre.findall(正規表現):# 取得した情報から、特定の情報を正規表現で取得
# 正規表現では、re.search()をする
lxmlでWebページからデータを抜き出す
lxmlとは
C言語で書かれたXML処理の著名なライブラリであるlibxml2とlibxsltのPythonパインディング。
公式ドキュメント
importlxml.htmla=htmlをファイルを読み込みhtml=a.getroot()#引数のURLを基準として、全てのa要素をhref属性を絶対URLに変換する
html.make_link_absolute(URL)forbinhtml.cssselect(CSSセレクタで、要素を指定):# 要素を取得