安装

bs4是Python用来解析HTML/XML的库,它是第三方库,需要我们安装

1
pip install bs4 

常用语法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
from bs4 import BeautifulSoup # 引入bs4组件

# 解析内容。第一个参数是被解析的内容。第二个参数是声明被解析对象的类型
result = BeautifulSoup(text, 'html.parser')

# 从解析内容中查找数据
result.find(标签,属性=值) # 查找第一个符合内容的数据
result.find_all(标签,属性=值) # 查找所有符合内容的数据。

page = result.find('div', class_='conDiv') # class是Python内置属性,为了不报错用class_代替
page = result.find('div', attrs={'class': 'conDiv'}) # 和上面的表达式相同

page.text # 获取标签中的文字
page.get('url') # 获取标签的url属性