搜尋

Beautiful Soup 函式庫

Beautiful Soup 函式庫 ( 模組 ) 是一個 Python 外部函式庫,可以分析網頁的 HTML 與 XML 文件,並將分析的結果轉換成「網頁標籤樹」( tag ) 的型態,讓資料讀取方式更接近網頁的操作語法,處理起來也更為便利,這篇教學會介紹 Beautiful Soup 函式庫的基本用法。

快速導覽:

本篇使用的 Python 版本為 3.7.12,所有範例可使用 Google Colab 實作,不用安裝任何軟體 ( 參考:使用 Google Colab )

安裝 Beautiful Soup 模組

如果是使用 Colab 或 Anaconda,預設已經安裝了 Beautiful Soup 函式庫,不用額外安裝,如果是本機環境,輸入下列指令,就能安裝 Beautiful Soup 函式庫 ( 依據每個人的作業環境不同,可使用 pip 或 pip3 或 pipenv )。

pip install beautifulsoup4

import Beautiful Soup

要使用 Beautiful Soup 必須先 import Beautiful Soup 模組。

from bs4 import BeautifulSoup

開始使用 Beautiful Soup

將 HTML 的原始碼 ( 純文字 ) 提供給 Beautiful Soup,就能轉換成可讀取的標籤樹 ( tag ),所以通常會搭配 requests 爬取網頁內容一併使用,下方的程式碼執行後,會使用 requests 抓取「台灣水庫即時水情 」網頁的原始碼,接著使用 Beautiful Soup 轉換成標籤樹,最後印出 title 的標籤。

import requests
from bs4 import BeautifulSoup

url = 'https://water.taiwanstat.com/'
web = requests.get(url)                        # 取得網頁內容
soup = BeautifulSoup(web.text, "html.parser")  # 轉換成標籤樹
title = soup.title                             # 取得 title
print(title)                                   # 印出 title ( 台灣水庫即時水情 )

認識基本網頁架構

使用 Beautiful Soup 時,會讀取特定的網頁結構 ( 如同上面的範例會從網頁原始碼裡讀取 title 的標籤 ),因此必須要從網頁原始碼著手,稍微了解網頁的架構,如果要觀看原始碼,可以用瀏覽器 ( Chrome ) 開啟網頁,用滑鼠在網頁的任意位置按下右鍵,點選「檢視網頁原始碼」。

Python 教學 - Beautiful Soup 函式庫 - 認識基本網頁架構

點選後,會開啟網頁的原始碼,這也是使用 requests 會讀取到的基本資料。

Python 教學 - Beautiful Soup 函式庫 - 開啟網頁的原始碼

網頁是由「標籤」的語法所構成,標籤 ( tag ) 指的是由「<」和「>」包覆的代碼,通常沒有斜線的「<標籤>」作為開頭,有斜線「</標籤>」做為結尾,標籤代碼並不會顯示在網頁中,只有被標籤包覆的內容才會顯示在網頁裡,而標籤也會互相層疊包覆,形成所為的「巢狀結構」。

每個標籤和所包覆的內容,會組合成一個 DOM ( 文件模型 ),網頁的程式通常會針對 DOM 去做運算和處理,也可以針對不同的 DOM,給予不同的 id 或樣式屬性 ( attribute、class、style...等 ),只要知道 DOM 的標籤,或是取得特定的 id、class 或 attribute,就能進一步透過程式控制 DOM

下圖是一個簡單網頁範例,左方的原始碼會產生右方的網頁內容,當中包含 h1、h2、div、ul、li...等標籤。

Python 教學 - Beautiful Soup 函式庫 - 左方的原始碼會產生右方的網頁內容

網頁解析器

當藉由 requests 取得網頁原始碼後,Beautiful Soup 還需要第二個「解析器」的參數,將原始碼的「純文字」,轉換成可供分析取用的「標籤樹」,Python 本身內建「html.parser」的解析器,也可以使用下方指令,另外安裝「html5lib」解析器 ( 依據每個人的作業環境不同,可使用 pip 或 pip3 或 pipenv )。

pip install html5lib

安裝後,只要更換第二個參數,就可以更換解析器,下方的程式碼使用 html5lib 解析器 ( 不需要 import,安裝後就可以使用 ),html5lib 的容錯率比 html.parser 高,但解析速度比較慢。

import requests
from bs4 import BeautifulSoup

url = 'https://water.taiwanstat.com/'
web = requests.get(url)
# soup = BeautifulSoup(web.text, "html.parser")  # 使用 html.parser 解析器
soup = BeautifulSoup(web.text, "html5lib")       # 使用 html5lib 解析器
title = soup.title
print(title)

Beautiful Soup 的方法

下方列出 Beautiful Soup 尋找網頁內容的方法,當中最常使用的是 find_all()、find() 和 select()

方法 說明
select() 以 CSS 選擇器的方式尋找指定的 tag。
find_all() 以所在的 tag 位置,尋找內容裡所有指定的 tag。
find() 以所在的 tag 位置,尋找第一個找到的 tag。
find_parents()、find_parent() 以所在的 tag 位置,尋找父層所有指定的 tag 或第一個找到的 tag。
find_next_siblings()、find_next_sibling() 以所在的 tag 位置,尋找同一層後方所有指定的 tag 或第一個找到的 tag。
find_previous_siblings()、ind_previous_sibling() 以所在的 tag 位置,尋找同一層前方所有指定的 tag 或第一個找到的 tag。
find_all_next()、find_next() 以所在的 tag 位置,尋找後方內容裡所有指定的 tag 或第一個找到的 tag。。
find_all_previous()、find_previous() 所在的 tag 位置,尋找前方內容裡所有指定的 tag 或第一個找到的 tag。

下方的程式碼,使用 Beautiful Soup 取得範例網頁中指定 tag 的內容。

範例網頁:https://www.iana.org/domains/

import requests
from bs4 import BeautifulSoup

url = 'https://www.iana.org/domains/'
web = requests.get(url)
soup = BeautifulSoup(web.text, "html.parser")

print(soup.select('#logo'))            # 搜尋 id 為 logo 的 tag 內容
print('\n----------\n')

print(soup.find_all('div',id="logo"))  # 搜尋所有 id 為 logo 的 div
print('\n----------\n')

divs = soup.find_all('div')            # 搜尋所有的 div
print(divs[1])                         # 取得搜尋到的第二個項目 ( 第一個為 divs[0] )
print('\n----------\n')

# 從搜尋到的項目裡,尋找父節點裡所有的 li
print(divs[1].find_parent().find_all('li'))
print('\n----------\n')

# 從搜尋到的項目裡,尋找父節點裡所有 li 的第三個項目,找到他後方同層的所有 li
print(divs[1].find_parent().find_all('li')[2].find_next_siblings())
print('\n----------\n')

# 從搜尋到的項目裡,尋找父節點裡所有 li 的第三個項目,找到他前方同層的所有 li
print(divs[1].find_parent().find_all('li')[2].find_previous_siblings())

Python 教學 - Beautiful Soup 函式庫 - Beautiful Soup 的方法

由於 find_all() 是使用頻率最高的方法,所以也可以簡化成下列的寫法:

import requests
from bs4 import BeautifulSoup

url = 'https://www.iana.org/domains/'
web = requests.get(url)
soup = BeautifulSoup(web.text, "html.parser")

print(soup.find_all('a'))    # 等同於下方的 soup('a')
print(soup('a'))             # 等同於上方的 find_all('a')

Beautiful Soup 方法的參數

使用 Beautiful Soup 方法時,可以加入一些參數,幫助更近一步的篩選搜尋結果,下方是一些常用的參數:

參數 說明
string 搜尋 tag 包含的文字。
limit 搜尋 tag 後只回傳多少個結果。
recursive 預設 True,會搜尋內容所有層,設定 False 只會搜尋下一層。
id 搜尋 tag 的 id。
class_ 搜尋 tag class,因為 class 為 Python 保留字,所以後方要加上底線。
href 搜尋 tag href。
attrs 搜尋 tag attribute 屬性。

下方的程式碼,使用 Beautiful Soup 取得範例網頁中指定 tag 的內容,並加入參數做進一步的篩選。

範例網頁:https://www.iana.org/domains/

import requests
from bs4 import BeautifulSoup

url = 'https://www.iana.org/domains/'
web = requests.get(url)
soup = BeautifulSoup(web.text, "html.parser")
print(soup.find_all('a'))                     # 找出所有 a tag
print(soup.find_all('a', string='Domains'))   # 找出內容字串為 Domains 的 a tag
print(soup('a', limit=2))                     # 找出前兩個 a tag

取得並輸出內容

抓取到內容後,可以使用下列兩種常用的方法,將內容或屬性輸出為字串:

方法 說明
.get_text() 輸出 tag 的內容。
[屬性] 輸出 tag 裡某個屬性的內容。

下方的程式碼執行後,會先輸出第一個 a tag 的內容,接著輸出第一個 a tag 裡 href 屬性的內容。

import requests
from bs4 import BeautifulSoup

url = 'https://www.iana.org/domains/'
web = requests.get(url)
soup = BeautifulSoup(web.text, "html.parser")
print(soup.find('a').get_text())   # 輸出第一個 a tag 的內容
print(soup.find('a')['href'])      # 輸出第一個 a tag 的 href 屬性內容

抓取水庫的容量

如果是「靜態」頁面 ( 不需要跟伺服器溝通、頁面內容不是動態產生 ),透過 Beautiful Soup 都能很輕鬆的抓取到對應的內容,抓取到內容後,將內容輸出為純文字。

下方的程式碼執行後,會抓取水庫的名稱以及最大容量 ( 因即時水位是動態產生,所以單純用這個方法讀取 )。

範例網頁:https://water.taiwanstat.com/

import requests
from bs4 import BeautifulSoup

url = 'https://water.taiwanstat.com/'
web = requests.get(url)
soup = BeautifulSoup(web.text, "html.parser")
reservoir = soup.select('.reservoir')     # 取得所有 class 為 reservoir 的 tag
for i in reservoir:
  print(i.find('div', class_='name').get_text(), end=' ')  # 取得內容的 class 為 name 的 div 文字
  print(i.find('h5').get_text(), end=' ')   # 取得內容 h5 tag 的文字
  print()

Python 教學 - Beautiful Soup 函式庫

參考資料

更多內容可以參考 Beautiful Soup 的官方網站說明:

意見回饋

如果有任何建議或問題,可傳送「意見表單」給我,謝謝~

Python 教學

基本介紹

Python 學習導讀 關於 Python 使用 Google Colab 使用 Anaconda 使用 Python 虛擬環境 Python 範例集錦

資料型別

變數 variable 變數 ( 全域、區域 ) 數字 number 文字與字串 string 文字與字串 ( 常用方法 ) 文字與字串 ( 格式化 ) 串列 list 串列 ( 常用方法 ) 元組/數組 tuple 字典 dictionary 集合 set

語法觀念

縮排和註解 運算子 operator 邏輯判斷 ( if、elif、else ) 邏輯判斷 ( and 和 or ) 重複迴圈 ( for、while ) 例外處理 ( try、except ) 生成式 comprehension 物件類別 class 物件繼承 inheritance 匯入模組 import

函式操作

函式 function 匿名函式 lambda 遞迴 recursion 產生器 generator 裝飾器 decorator 閉包 closure

內建函式&方法

輸入與輸出 數學計算 字串操作與轉換 迭代物件轉換 迭代物件操作 檔案讀寫 ( open ) eval() 與 exec()

標準函式庫&模組

隨機數 random 數學 math 數學統計函式 statistics 時間與日期 datetime 時間處理 time 日曆 calendar 使用正規表達式 re 檔案操作 os 查找匹配檔案 glob 壓縮檔案 zipfile 高階檔案操作 shutil 高效迭代器 itertools 容器資料型態 collections CSV 檔案操作 JSON 檔案操作 threading 多執行緒處理 concurrent.futures

網路爬蟲

Python 網路爬蟲導讀 關於網路爬蟲 破解反爬蟲的方法 Requests 函式庫 Beautiful Soup 函式庫 Selenium 函式庫 爬取 PTT 文章標題 自動下載 PTT 正妹圖片 同時下載多張圖片 爬取統一發票號碼對獎 爬取空氣品質指標 ( AQI ) 爬取氣象預報 爬取現在天氣 LINE Notify 雷達回波圖 LINE Notify 即時地震資訊 爬取臺灣銀行牌告匯率 爬取 Yahoo 股市即時股價 爬取 LINE TODAY 留言 批次下載 Pinterest 圖片 登入 Mobile01 截圖下載 Twitter 自動上傳圖文

網頁服務與應用

Flask 函式庫 使用 ngrok 服務 Google Cloud Functions 串接 Gmail 寄送電子郵件 讀取 Google 試算表 寫入 Google 試算表 發送 LINE Notify 通知 使用 Dialogflow Dialogflow+Webhook 伺服器串接 Dialogflow

LINE BOT 教學

LINE BOT 教學導讀 建立 LINE Channel 設定 Colab 開發環境 建立並串接 Webhook 解析 LINE 的訊息 自動回覆訊息 主動推播訊息 建立圖文選單 切換圖文選單 發送樣板訊息 發送 Flex Message 使用 Requests 傳送訊息 使用 LINE URL Scheme 氣象機器人 (1) 氣象機器人 (2) 氣象機器人 (3) 氣象機器人 (4) 串接 Dialogflow (1) 串接 Dialogflow (2) 串接 Dialogflow (3) 串接 Dialogflow (4)

OpenCV 教學

OpenCV 教學導讀 OpenCV 函式庫 開啟並顯示圖片 寫入並儲存圖片 讀取並播放影片 寫入並儲存影片 取得影像資訊 旋轉/翻轉/改變尺寸 影像的幾何變形 影像的色彩轉換 繪製各種形狀 影像加入文字 剪裁影像 調整對比和亮度 負片效果 影像模糊化 影像的疊加與相減 二值化黑白影像 影像的侵蝕與膨脹 影像邊緣偵測 魔術棒填充顏色 影像遮罩 邊緣羽化效果 馬賽克效果 子母畫面影片 萬花筒影片效果 多畫面延遲播放影片 搞笑全景影片合成效果 凸透鏡效果 ( 魚眼效果 ) 倒數計時自動拍照效果 線性漸層填色 合成半透明圖片 將指定的顏色變透明 處理 gif 動畫 影片轉透明 gif 動畫 辨識 QRCode 和 BarCode 掃描 QRCode 切換效果 偵測滑鼠事件 滑鼠選取自動馬賽克 即時在影片中繪圖 偵測鍵盤行為 加入滑桿 ( Trackbar )

AI 影像辨識教學

AI 影像辨識教學導讀 OpenCV 人臉偵測 OpenCV 人臉馬賽克 OpenCV 五官偵測 OpenCV 汽車偵測 OpenCV 行人偵測 OpenCV 辨識不同人臉 OpenCV 單物件追蹤 OpenCV 多物件追蹤 OpenCV 抓取特定顏色 OpenCV 追蹤並標記顏色 情緒辨識與年齡偵測 辨識微笑,拍照儲存 使用 Mediapipe Mediapipe 人臉偵測 Mediapipe 人臉網格 Mediapipe 手掌偵測 Mediapipe 姿勢偵測 Mediapipe 全身偵測 Mediapipe 物體偵測 Mediapipe 人物去背 Mediapipe 手勢辨識 辨識比中指,自動馬賽克 用手指在影片中畫圖 手指擦除鏡子霧氣效果 即時合成搞笑橘子臉 Jupyter 安裝 Tensorflow 使用 Teachable Machine 辨識剪刀、石頭、布 辨識是否戴口罩 辨識手寫數字

NumPy 教學

NumPy 教學導讀 NumPy 函式庫 資料型態 建立陣列 讀取陣列 迭代陣列 陣列項目賦值 修改陣列形狀 修改陣列項目 填充陣列 分割陣列 合併陣列 陣列排序 廣播 搜尋陣列項目 算數計算 數學函式 隨機數 字串操作處理

matplotlib 圖表

matplotlib 教學導讀 matplotlib 函式庫 Figure 和 Axes Figure 參數設定 建立多個子圖表 設定圖表標籤 設定座標軸位置 設定座標軸刻度文字 資料文字標記 加入顏色對照表 使用極座標系統 使用 3D 圖表 圖表顯示中文 下載儲存圖表 顯示圖片 製作圖表動畫 ( 圖表 ) 折線圖 ( 圖表 ) 散布圖 ( 圖表 ) 長條圖 ( 圖表 ) 圓餅圖 ( 圖表 ) 甜甜圈圖 ( 圖表 ) 等高線圖 ( 圖表 ) 階梯折線圖 ( 圖表 ) 堆疊折線圖 ( 圖表 ) 堆疊長條圖 ( 圖表 ) 極座標長條圖 ( 圖表 ) 極座標散布圖 ( 圖表 ) 3D 柱狀長條圖 ( 圖表 ) 3D 散布圖

Tkinter 設計介面

Tkinter 教學導讀 建立 Tkinter 視窗 Label 標籤 Button 按鈕 Radiobutton 單選按鈕 Checkbutton 複選按鈕 Entry 單行輸入框 Text 多行輸入框 Listbox 列表選擇框 OptionMenu 下拉選單 Scale 數值調整滑桿 Spinbox 數值調整元件 Frame 框架 LabelFrame 標籤框架 Scrollbar 滾動條 Canvas 畫布 Menu 選單 Messagebox 訊息提示框 Photoimage 顯示圖片 ttk.Progressbar 進度條 ttk.Combobox 下拉選單 Pack 基本版面佈局 Grid 格狀版面佈局 Place 位置版面佈局 範例 - Label 製作時鐘 範例 - 點擊按鈕開檔案 範例 - 開啟多個檔案 範例 - 開啟並壓縮檔案 範例 - 開啟並顯示圖片 範例 - 調整圖片亮度對比 範例 - 簡單計算機 範例 - 發送 LINE Notify

PyQt5 設計介面

PyQt5 教學導讀 PyQt5 函式庫 使用 Qt designer 建立 PyQt5 視窗 QLabel 標籤 QPushButton 按鈕 QRadioButton 單選按鈕 QCheckBox 複選按鈕 QGraphicsView 顯示圖片 QLineEdit 單行輸入框 QTextEdit 多行輸入框 QListWidget 列表選擇框 QComboBox 下拉選單 QSpinBox 數值調整元件 QTimeEdit 時間調整元件 QDateEdit 日期調整元件 QSlider 數值調整滑桿 QProgressBar 進度條 QFileDialog 選擇檔案視窗 QMessageBox 對話視窗 QInputDialog 輸入視窗 QMenuBar 視窗選單 QTimer 定時器 QThread 多執行緒 QSS 樣式設定 QWebEngineView 網頁 Layout 佈局 ( 垂直水平 ) Layout 佈局 ( Grid 網格 ) Layout 佈局 ( Form 表單 ) 偵測滑鼠事件 偵測鍵盤與快速鍵組合 偵測與控制視窗 範例 - 電腦攝影機 範例 - 攝影機拍照錄影 範例 - 簡單錄音機

影音處理範例

批次圖片轉檔 批次調整圖片尺寸 調整圖片亮度和對比 裁切與旋轉圖片 拼接多張圖片 圖片加上 logo 浮水印 圖片加上文字浮水印 圖片馬賽克效果 圖片模糊化 圖片銳利化 讀取與修改圖片 Exif 圖片轉文字 ( OCR ) 讀取聲音資訊、輸出聲音 聲音剪輯與串接 聲音音量調整 聲音混合與反轉 改變聲音速度 播放聲音 麥克風錄音 顯示聲波圖形 影片轉檔 取出影片聲音或加入聲音 影片剪輯與合併 影片混合與排列顯示 改變影片尺寸、旋轉翻轉 調整影片速度、倒轉影片 調整影片亮度/對比/顏色 影片轉 gif 動畫 影片中加入文字 影片自動加上字幕 影片截圖、圖片轉影片

實際應用範例

下載 Youtube 影片 下載 Youtube 清單影片 定時自動螢幕截圖 LINE Notify 傳送螢幕截圖 批次重新命名檔案 產生 QRCode 產生 BarCode 讀取 PDF 內容 PDF 拆分/合併/插入/刪除 讀取 EXCEL 內容 寫入資料到 EXCEL CSV 寫入 EXCEL 讀取電腦資訊 偵測電腦螢幕解析度 查詢電腦對內對外 IP 查詢網站 IP、ping IP 製作 MacOS app

基礎範例

電費試算 攝氏/華氏轉換 公分/英吋換算 判斷平年與閏年 找出不重複字元 找出中間的字元 大樂透電腦選號 下載進度條 星號金字塔 數字金字塔 猜數字 ( 猜大猜小 ) 猜數字 ( 幾 A 幾 B ) 簡單時鐘 ( 世界時間 ) 計算 BMI 數值 計算年紀 ( 歲、月、天 ) 產生身分證字號 ( 隨機 ) 檢查身分證字號 統一發票對獎 羅馬數字轉換

數學範例

兩個數字的四則運算 計算多個數字的總和 費波那契數列 九九乘法表 質因數分解 快速找出質數 最小公倍數 ( 多個數字 ) 最大公因數 ( 多個數字 )

ZeroJudge 解答

關於 ZeroJudge a001: 哈囉 a002: 簡易加法 a003: 兩光法師占卜術 a004: 文文的求婚 a005: Eva 的回家作業 a006: 一元二次方程式 a009: 解碼器 a010: 因數分解 a013: 羅馬數字 a015: 矩陣的翻轉 a017: 五則運算 a020: 身分證檢驗 a021: 大數運算 a022: 迴文 a024: 最大公因數(GCD) a034: 二進位制轉換 a038: 數字翻轉 a040: 阿姆斯壯數 a042: 平面圓形切割 a044: 空間切割 a053: Sagit's 計分程式 a054: 電話客服中心 a058: MOD3 a059: 完全平方和 a065: 提款卡密碼 a095: 麥哲倫的陰謀 a104: 排序 a147: Print it all a148: You Cannot Pass?! a149: 乘乘樂 a215: 明明愛數數 a216: 數數愛明明 a224: 明明愛明明 a225: 明明愛排列 a244: 新手訓練~for+if a248: 新手訓練~陣列應用 a263: 日期差幾天 a271: 彩色蘿蔔 a291: nAnB problem a410: 解方程 a414: 位元運算之進位篇 a417: 螺旋矩陣 a524: 手機之謎 a528: 大數排序 a647: 投資專家 a693: 吞食天地 a738: 最大公約數 a746: 畫蛇添足 a799: 正值國 a915: 二維點排序 b265: Conformity b294: 經濟大恐荒 b367: 翻轉世界 b374: 求眾數 b511: 換銅板 b558: 求數列第 n 項 e267: Group Reverse d073: 分組報告 d294: 算算算 Easy d485: 我愛偶數 d827: 買鉛筆