跟着嵩天老师学习爬虫三大模块笔记跟着嵩天老师学习爬虫三大模块笔记
request模块模块
HTTP协议方法 requests库方法 说明
GET requests.get(url,params=None,**kwarges) 请求获取url位置的资源
HEAD requests.head(url,**kwargs) 请求获取url位置资源的响应消息报告,即获得该资源的头部信息
POST requests.post(url,data=None,json=None,**kwarges) 请求像URL位置的资源后附加新的数据
PUT requests.put(url,data=None,**kwarges) 请求向url位置存储一个资源,覆盖原URL位置的资源
PATCH requests.patch(url,data=Noen,**kwarges) 请求局部更新URL位置的资源,即改变该处资源的部分内容
DELETE
requests.delete(url,**kwarges)
请求删除URL位置存储的资源
六种方法是基于requests.request方法的:
requests.request(method,url,**kwarges),其中包括13个访问控制参数:paramsdatajsonheaderscookiesauthfillestimeoutproxiesallow_redirectsstreamverifycert
一般框架:一般框架:
try: r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
except:
return "产生异常"
正则表达式正则表达式re模块模块
正则表达式正则表达式
是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个”规则字符串“,这个”规则字符串“用来表达对字符串的一种过滤逻辑
标明开头和结尾
Name 标签的名字,
的名字是p,格式:.name
attributes 标签的属性,字典形式组织(键和值),格式:.attrs Navigablestring 标签内非属性字符串,格式:.string comment 标签内字符串的注释部分
标签树的下行遍历:标签树的下行遍历:
属性 说明
.contens 子节点的列表,将所有儿子节点存入列表
.children 子节点的迭代类型,与.contens类似,用于循环遍历儿子节点
.descendants 子孙节点的迭代类型,包含所有子孙节点,用于循环遍历
标签树的上行遍历:标签树的上行遍历:
属性 说明
.parents 节点的父亲标签
.parents 节点先辈标签的迭代类型用于循环遍历先辈节点
标签树的平行遍历:标签树的平行遍历:
属性 说明
.next_sibling 返回按照HTML文本顺序的下一个平行节点的标签
.previous_sibling 返回按照HTML的文本顺序的上一个平行节点标签
.next_siblings 迭代类型,返回按照HTML文本顺序的后续所有平行节点的标签
.previous_siblings 迭代类型,返回按照HTML文本顺序的前续所有平行节点的标签
条件:平行遍历发生子啊同一个父亲节点下的各节点间ps: Navigablestring也会构成标签树得节点,不能认为平行遍历到的下一个节点就是标签类型
实例实例
我将老师给的代码整合到一起,每句基本都会有注释,还没有学习python的小伙伴又不想看视频的话,把这些代码码一码也就差不多啦! 要注意的是,这里基本都是输出语句,一定
要慢慢体会,print一个语句运行以下,比较输出结果分析输出内容一步步来,学完一个知识块以后记得注释掉,再接着学下一个知识块,我这样学自我感觉棒棒哒~~~~下面这个就不
要注释掉了喔
评论0