*https://www.crummy.com/software/BeautifulSoup/bs4/doc/
*http://kondou.com/BS4/ Beautiful Soup4 日本語
*2012年5月にBS3の開発が終了し、現在ではBS4の利用が推奨されています
*BS3はPython3に対応していません
*ただし、BS3のスクリプトのほとんどはimport文を変えるだけでBS4でも動きます
==インストール==
from bs4 import BeautifulSoup # To get everything
==解析==
*===文字列およびファイルハンドルによる文書解析===
soup = BeautifulSoup(open("index.html"))
soup = BeautifulSoup("<html>data</html>")
===URLを指定して解析===*U[[Rhttps://docs.python.org/ja/2.7/library/urllib2.html urllib2 モジュールは、Python 3 で urllib.request, urllib.error に分割されました。]]Lを指定して解析 <pre>import urllib2 from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen('http://xxxxx.com'))</pre>*Python3<pre>import urllib.request as requestfrom bs4 import BeautifulSoup soup = BeautifulSoup(urllib2urllib.request.urlopen('http://xxxxx.com'))</pre>===エンコードの変換===*文字化けする場合(例えばSHIFT-JIS)の対処<pre>response = urllib.request.urlopen(url)html = response.read().decode(response.headers.get_content_charset(), errors='ignore')parsed_html = BeautifulSoup(html, 'html.parser')</pre>
==オブジェクト==
*[[Beautiful Soup]] は複雑なHTML文書を、Python オブジェクトのツリーに変換する