没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
1
Python 网络爬虫与信息提取课程笔记
1. requests 库方法
requests.request(method, url, **kwargs) 构造一个请求,支撑以下各种基础方法
requests.get(url,params=None,**kwargs) 获取 HTML 网页,对应于 HTTP 的 GET
requests.head(url,**kwargs) 获取 HTML 头信息,对应于 HTTP 的 HEAD
requests.post(url, data=None, json=None,**kwargs) 向 HTML 提交 POST 请求,对应 POST
requests.put(url,data=None,**kwargs) 向 HTML 提交 PUT 请求,对应 PUT
requests.patch(url,data=None,**kwargs) 向 HTML 提交局部修改请求,对应 PATCH
request.delete(url,**kwargs) 向 HTML 提交删除请求,对应 DELETE
user <get, header> Internet <post, put, patch, delete> user
URL: http://host[:port][path]
# host-Internet 主机域名或 IP 地址;port-端口号;path-请求资源路径
URL 是通过 HTTP 协议存取资源的 Internet 路径。
Robots 协议: https://www.jd.com/robots.txt
2. r = requests.get(url,params=None) # response
r.status_code 返回状态,200 表示连接成功
r.text url 页面内容,字符串形式
r.content HTTP 响应内容的二进制形式
r.encoding header 中猜测的相应内容编码方式
r.apparent_encoding 从内容分析出的编码方式
r.request.headers 返回 headers
r.request.url
3. requests 库异常
requests.ConnectionError 网络连接错误
requests.HTTPError HTTP 错误异常
requests.URLRequired URL 缺失异常
requests.TooManyRedirects 超过最大重定向次数
requests.ConnectTimeout 连接远程服务器超时
requests.Timeout 请求 URL 超时
通用框架:异常处理
1. import requests
2. def getHTMLText(url):
3. try:
4. r = requests.get(url, timeout=30)
5. r.raise_for_status()
6. r.encoding = r.apparent_encoding
7. return r.text
8. except:
9. return 'Error!'
10.
11. if __name__ == '__main__':
12. url = 'https://www.baidu.com'
13. print(getHTMLText(url))
资源评论
蓝洱
- 粉丝: 23
- 资源: 316
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功