相思资源网 Design By www.200059.com

Python requests 模块

  requests 模块是我们使用的 python爬虫 模块 可以完成市场进80%的爬虫需求。

安装

pip install requests

使用

requests模块代码编写的流程:

  • - 指定url
  • - 发起请求
  • - 获取响应对象中的数据
  • - 持久化存储
-------------案例-------------------------
import requests
# 指定url
url="https://www.sogou.com/"
# 发起请求
response = requests.get(url)
# 获取响应对象中的数据
page_text = response.text
# 持久化存储
with open('./sogou.html','w',encoding='utf-8') as fp:
  fp.write()
-------------------------------------------

参数

# post 数据
response = requests.post(url=url,data=data,headers=headers)

# get 数据
response = requests.get(url=url,data=data,headers=headers)

# 返回二进制数据
response.content 

# 返回字符串数据  
response.text  

# 返回json对象   
response.json()

其他了解

1、该模块实现爬取数据前需要查找需要爬取数据的指定URL,可通过浏览器自带抓包功能。

# 浏览器抓取 Ajax 请求
F12 --> Network --> XHR --> Name --> Response

2、上面的headers参数是进行UA伪装为了反反爬

反爬机制:UA检测 --> UA伪装

3、下面是http我们爬包是常用的请求头参数

- accept: 浏览器通过这个头告诉服务器,他所支持的数据类型
  - Accept-Charset:浏览器通过这个头告诉服务器,它支持那种字符集
  - Accept-Encoding:浏览器通过这个头告诉服务器,支持的压缩格式
  - Accept-Language:浏览器通过这个头告诉服务器,他的语言环境
  - Host:浏览器同过这个头告诉服务器,想访问哪台主机
  - If-ModifiedSince:浏览器通过这个头告诉服务器,缓存数据的时间
  - Heferer:浏览器通过这个头告诉服务器,客户及时那个页面来的,防盗链
  - Connection:浏览器通过这个头告诉服务器,请求完后是断开链接还是保持链接
  - X-Requested-With:XMLHttpRequest 代表通过ajax方式进行访问
  - User-Agent:请求载体的身份标识

以上就是浅析Python requests 模块的详细内容,更多关于Python requests 模块的资料请关注其它相关文章!

标签:
Python,requests,模块,Python,requests

相思资源网 Design By www.200059.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
相思资源网 Design By www.200059.com

评论“浅析Python requests 模块”

暂无浅析Python requests 模块的评论...

稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!

昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。

这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。

而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?