Quantcast
Channel: 初心者タグが付けられた新着記事 - Qiita
Viewing all articles
Browse latest Browse all 21085

PythonのライブラリでHTMLのスクレイピングをしてみる

$
0
0

Beautiful Soup

Beautiful Soupとは

覚えやすいシンプルなAPIが特徴のスクレイピングライブラリです。

公式

fromurllib.parseimporturljoinfrombs4importBeautifulSoup#HTMLファイルを読み込む
withopen('htmlファイル')asf:soup=BeautifulSoup(f,'html.parser')# 取得したい要素のリストをselectで取得する
forainsoup.select(要素)#取得したい要素を引き出す

pyquery

pyqueryとは

pyqueryはjQueryと同じような使い方でHTMLからスクレイピングできるライブラリ。内部的にlxmlを使用しており、高速に処理できる。

公式

frompyqueryimportPyQueryaspq# HTMLファイルを読み込んでPyQueryオブジェクトを得る
d=pq(filename='htmlファイル')# 取得したい要素のリストを取得する
foraind(要素):#取得したい要素を引き出す

Viewing all articles
Browse latest Browse all 21085

Trending Articles