爬基本原讲解
么是爬?
么是爬?
请求站并提取数据的动化程序
爬基本流程
1
2
3
4
发起请求
通过HTTP库向标站点发起请求,即发
送个Request,请求可以包含额外的
headers等信息,等待服务响应。
解析内容
得到的内容可能是HTML,可以正则表达式、
解析库进解析。可能是Json,可以直接转为Json
对象解析,可能是进制数据,可以做保存或者进
步的处。
获取响应内容
如果服务能正常响应,会得到个Response,
Response的内容是所要获取的内容,类型可能有
HTML,Json字符,进制数据(如图视频)等类型。
保存数据
保存形式多样,可以存为本,也可以保
存数据库,或者保存特定格式的件。
么是Request和Response?