【免费】18-【嵩天】Python网络爬虫与信息提取1资源-CSDN文库

需积分: 0 116 浏览量 2022-08-03 16:45:08 上传评论收藏 413KB PDF 举报

资源推荐

资源详情

资源评论

1

Python 网络爬虫与信息提取课程笔记

1. requests 库方法

requests.request(method, url, **kwargs) 构造一个请求，支撑以下各种基础方法

requests.get(url,params=None,**kwargs) 获取 HTML 网页，对应于 HTTP 的 GET

requests.head(url,**kwargs) 获取 HTML 头信息，对应于 HTTP 的 HEAD

requests.post(url, data=None, json=None,**kwargs) 向 HTML 提交 POST 请求，对应 POST

requests.put(url,data=None,**kwargs) 向 HTML 提交 PUT 请求，对应 PUT

requests.patch(url,data=None,**kwargs) 向 HTML 提交局部修改请求，对应 PATCH

request.delete(url,**kwargs) 向 HTML 提交删除请求，对应 DELETE

user <get, header> Internet <post, put, patch, delete> user

URL: http://host[:port][path]

# host-Internet 主机域名或 IP 地址；port-端口号；path-请求资源路径

URL 是通过 HTTP 协议存取资源的 Internet 路径。

Robots 协议: https://www.jd.com/robots.txt

2. r = requests.get(url,params=None) # response

r.status_code 返回状态，200 表示连接成功

r.text url 页面内容，字符串形式

r.content HTTP 响应内容的二进制形式

r.encoding header 中猜测的相应内容编码方式

r.apparent_encoding 从内容分析出的编码方式

r.request.headers 返回 headers

r.request.url

3. requests 库异常

requests.ConnectionError 网络连接错误

requests.HTTPError HTTP 错误异常

requests.URLRequired URL 缺失异常

requests.TooManyRedirects 超过最大重定向次数

requests.ConnectTimeout 连接远程服务器超时

requests.Timeout 请求 URL 超时

 通用框架：异常处理

1. import requests

2. def getHTMLText(url):

3. try:

4. r = requests.get(url, timeout=30)

5. r.raise_for_status()

6. r.encoding = r.apparent_encoding

7. return r.text

8. except:

9. return 'Error!'

10.

11. if __name__ == '__main__':

12. url = 'https://www.baidu.com'

13. print(getHTMLText(url))

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

内容反馈

蓝洱

粉丝: 23
资源: 316

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip