Xpath

xpath是一门在HTML/XML中查找信息的语言,Python的lxml库引入了xpath。在Python中引入lxml就可以解析HTML 安装pip install lxml 基础应用from lxml import etree # 导入xpath # etree.XML(content) # 解析xml文档 # etree.HTML(content) # 解析html文档 # etre . . .

Bs4

安装bs4是Python用来解析HTML/XML的库,它是第三方库,需要我们安装 pip install bs4 常用语法from bs4 import BeautifulSoup # 引入bs4组件 # 解析内容。第一个参数是被解析的内容。第二个参数是声明被解析对象的类型 result = BeautifulSoup(text, 'html.parser') # 从解析内 . . .

Re 正则表达式

re是Python内置的模块,通过它提供了对正则表达式的支持 基础应用# 引入re import re # 匹配字符串中所有符合正则的内容 re.findall('\d','中国移动:10086;中国联通10010') # 返回列表['10086', '10010'] # 匹配字符串中所有符合正则的内容。 ls = re.find . . .

使用代理Proxy

爬取内容时,我们的ip可能会被网站封掉。这个时候就需要用代理来爬。下面是使用代理的简单例子 import requests proxies = { "https": "112.47.3.53:3128", # "http": "112.47.3.53:3128", } respo . . .

requests.session()会话保持

有的网站需要登录才能访问。这时候可以用requests模块中的session保持会话。session在发起请求的时候,会自动保存和发送cookie以达到保持会话的目的 下面以17k小说网为例介绍session的用法 # 17k小说网 import requests # 开启session对话 session = requests.session() # 登录地址 login_url =  . . .
2021-03-29
| |

Requests

Requests 是Python的第三方库,用来处理HTTP请求 安装$ pip install requests 使用# 引用requests类 import requests ulr = "xxx" params = { "xx":"xxx", } headers={"User-Ag . . .
2021-03-29
| |

第一个爬虫

#引用爬虫模块 import urllib.request #向指定网址发送get请求,返回response对象 response = urllib.request.urlopen('http://www.baidu.com/') # 读取对象内容 html = response.read() print(html) 上面就是一个简单的爬虫。 用抓包工具可以看到User-Agen . . .
2021-03-29
| |

Pyenv 实现Python 版本完美切换

Pyenv 是Python版本管理工具 安装pyenv包brew install pyenv 查看是否安装成功 pyenv -v出现版本号的上述提示则表示安装成功 Pyenv 的使用查看pyenv中可安装的Python版本 pyenv install --list 会列出可安装的Python版本号,如 Available versions: 3.7.9 3.7.10 3.8.0 3.8-dev . . .
2021-03-29
| |

Mac下安装python

安装Mac系统自带Python2.7,而我们安装Python3的时候,可以通过brew命令安装或者官网的pkg安装 # 更新brew(非必须步骤) brew update # 安装Python3 brew install python3 路径根据不同的安装方法,Python存放于不同的路径 来源 Python安装路径 系统默认(2.7) /System/Library/Framewo . . .
2021-03-29
| |

Mac安装homebrew国内镜像最佳实践

/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)" 初步介绍几个brew命令 本地软件库列表:brew ls 查找软件:brew search google(其中google替换为要查找的关键字) 查看brew版本:brew -v 更新brew版本:b . . .
2021-03-23
| |
123