A simple and beautiful blog
bs4是Python用来解析HTML/XML的库,它是第三方库,需要我们安装
1
pip install bs4
1234567891011121314
from bs4 import BeautifulSoup # 引入bs4组件# 解析内容。第一个参数是被解析的内容。第二个参数是声明被解析对象的类型result = BeautifulSoup(text, 'html.parser')# 从解析内容中查找数据result.find(标签,属性=值) # 查找第一个符合内容的数据result.find_all(标签,属性=值) # 查找所有符合内容的数据。page = result.find('div', class_='conDiv') # class是Python内置属性,为了不报错用class_代替page = result.find('div', attrs={'class': 'conDiv'}) # 和上面的表达式相同page.text # 获取标签中的文字page.get('url') # 获取标签的url属性
Seraching...