差分

284 バイト追加、 2020年9月18日 (金) 14:14

from bs4 import BeautifulSoup # To get everything

==解析==

*===文字列およびファイルハンドルによる文書解析===

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

*===URLを指定して解析===

*[[https://docs.python.org/ja/2.7/library/urllib2.html urllib2 モジュールは、Python 3 で urllib.request, urllib.error に分割されました。]]

<pre>

from bs4 import BeautifulSoup

soup = BeautifulSoup(urllib.request.urlopen('http://xxxxx.com'))

</pre>

===エンコードの変換===

*文字化けする場合(例えばSHIFT-JIS)の対処

<pre>

response = urllib.request.urlopen(url)

html = response.read().decode(response.headers.get_content_charset(), errors='ignore')

parsed_html = BeautifulSoup(html, 'html.parser')

</pre>

Piroto

ビューロクラット、インターフェース管理者、管理者

12,673

回編集

MyMemoWiki

差分

Beautiful Soup (ソースを閲覧)

2020年9月18日 (金) 14:14時点における版

案内メニュー

個人用ツール

名前空間

変種

表示

その他

検索

案内

ツール

プログラミング言語

Web

OS/環境

データベース

Database|データベース製品

アーキテクチャ・モデリング・パターン

環境

Webサービス

プロジェクトマネージメント

仮想化

Network

Office

CMS

構成管理

ツール

文章

音楽

教養

デザイン

業務

その他