Beautiful Soup
Beautiful Soupとは
覚えやすいシンプルなAPIが特徴のスクレイピングライブラリです。
fromurllib.parseimporturljoinfrombs4importBeautifulSoup#HTMLファイルを読み込む
withopen('htmlファイル')asf:soup=BeautifulSoup(f,'html.parser')# 取得したい要素のリストをselectで取得する
forainsoup.select(要素)#取得したい要素を引き出す
pyquery
pyqueryとは
pyqueryはjQueryと同じような使い方でHTMLからスクレイピングできるライブラリ。内部的にlxmlを使用しており、高速に処理できる。
frompyqueryimportPyQueryaspq# HTMLファイルを読み込んでPyQueryオブジェクトを得る
d=pq(filename='htmlファイル')# 取得したい要素のリストを取得する
foraind(要素):#取得したい要素を引き出す