差分

834 バイト追加、 2020年9月18日 (金) 14:14

→‎解析

*https://www.crummy.com/software/BeautifulSoup/bs4/doc/

*http://kondou.com/BS4/ Beautiful Soup4 日本語

*2012年5月にBS3の開発が終了し、現在ではBS4の利用が推奨されています

*BS3はPython3に対応していません

*ただし、BS3のスクリプトのほとんどはimport文を変えるだけでBS4でも動きます

==インストール==

from bs4 import BeautifulSoup # To get everything

==解析==

*===文字列およびファイルハンドルによる文書解析===

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

===URLを指定して解析===*U[[Rhttps://docs.python.org/ja/2.7/library/urllib2.html urllib2 モジュールは、Python 3 で urllib.request, urllib.error に分割されました。]]~~Lを指定して解析~~ <pre>import urllib2 from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen('http://xxxxx.com'))</pre>*Python3<pre>import urllib.request as requestfrom bs4 import BeautifulSoup soup = BeautifulSoup(~~urllib2~~urllib.request.urlopen('http://xxxxx.com'))</pre>===エンコードの変換===*文字化けする場合(例えばSHIFT-JIS)の対処<pre>response = urllib.request.urlopen(url)html = response.read().decode(response.headers.get_content_charset(), errors='ignore')parsed_html = BeautifulSoup(html, 'html.parser')</pre>

==オブジェクト==

*[[Beautiful Soup]] は複雑なHTML文書を、Python オブジェクトのツリーに変換する

Piroto

ビューロクラット、インターフェース管理者、管理者

12,673

回編集

MyMemoWiki

差分

Beautiful Soup (ソースを閲覧)

2020年9月18日 (金) 14:14時点における版

案内メニュー

個人用ツール

名前空間

変種

表示

その他

検索

案内

ツール

プログラミング言語

Web

OS/環境

データベース

Database|データベース製品

アーキテクチャ・モデリング・パターン

環境

Webサービス

プロジェクトマネージメント

仮想化

Network

Office

CMS

構成管理

ツール

文章

音楽

教養

デザイン

業務

その他