1
2
3
4
5
6
7#引用爬虫模块
import urllib.request
#向指定网址发送get请求,返回response对象
response = urllib.request.urlopen('http://www.baidu.com/')
# 读取对象内容
html = response.read()
print(html)
上面就是一个简单的爬虫。
用抓包工具可以看到User-Agent: Python-urllib/3.8。
我们需要模拟浏览器请求,下面对它进行简单包装。
1 | import urllib.request |
这样User-Agent就变成浏览器了