没有合适的资源?快使用搜索试试~ 我知道了~
Python爬虫入门:如何爬取招聘网站并进行分析
需积分: 50 147 下载量 173 浏览量
2018-06-13
12:14:30
上传
评论 30
收藏 1021KB PDF 举报
温馨提示
试读
15页
python爬虫实操干货,一分钟了解全国行业工资水平,适合新手,数据抓取、清洗、结果分析一步到位,快快行动起来
资源推荐
资源详情
资源评论
0 前言
工作之余,时常会想能做点什么有意思的玩意。互联网时代,到处都是互联网思维,
大数据、深度学习、人工智能,这些新词刮起一股旋风。所以笔者也赶赶潮流,买
了本 Python 爬虫书籍研读起来。
网络爬虫,顾名思义就是将互联网上的内容按照自己编订的规则抓取保存下来。理
论上来讲,浏览器上只要眼睛能看到的网页内容都可以抓起保存下来,当然很多网
站都有自己的反爬虫技术,不过反爬虫技术的存在只是增加网络爬虫的成本而已,
所以爬取些有更有价值的内容,也就对得起技术得投入。
1 案例选取
人有 1/3 的时间在工作,有一个开心的工作,那么 1/3 的时间都会很开心。所以我
选取招聘网站来作为我第一个学习的案例。
前段时间和一个老同学聊天,发现他是在从事交互设计(我一点也不了解这是什么
样的岗位),于是乎,我就想爬取下前程无忧网(招聘网_人才网_找工作_求职_上
前程无忧)上的交互设计的岗位需求:
2 实现过程
我这里使用 scrapy 框架来进行爬取。
2.1 程序结构
C:\Users\hyperstrong\spiderjob_jiaohusheji
│scrapy.cfg
│
└─spiderjob
│ items.py
│ pipelines.py
│ settings.py
│ __init__.py
│ middlewares.py
├─spiders
│ jobSpider.py
│ __init__.py
其中:
items.py 是从网页抽取的项目
jobSpider.py 是主程序
2.2 链接的构造
用浏览器打开前程无忧网站 招聘网_人才网_找工作_求职_上前程无忧,在职务搜索
里输入“交互设计师”,搜索出页面后,观察网址链接:
【交互设计师招聘】前程无忧手机网_触屏版
http://search.51job.com/jobsearch/search_result.php?fromJs=1&k
eyword=%E4%BA%A4%E4%BA%92%E8%AE%BE%E8%AE%A1%E5%B8%88&keywordty
pe=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9
网址链接中并没有页码,于是选择第二页,观察链接:
剩余14页未读,继续阅读
资源评论
qq_26478271
- 粉丝: 2
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功