使用scrapy框架爬取拉勾网数据资源-CSDN文库

共14个文件

py：7个

pyc：6个

cfg：1个

python爬虫

需积分: 50 40 浏览量 2017-09-02 20:03:56 上传评论 2 收藏 10KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

lagou.rar （14个子文件）

lagou

scrapy.cfg 254B

lagou

settings.py 3KB

pipelines.py 1KB

middlewares.py 2KB

__init__.py 0B

items.py 737B

__pycache__

__init__.cpython-35.pyc 154B

pipelines.cpython-35.pyc 2KB

items.cpython-35.pyc 679B

settings.cpython-35.pyc 296B

spiders

__init__.py 161B

lagou_spider.py 3KB

__pycache__

__init__.cpython-35.pyc 162B

lagou_spider.cpython-35.pyc 3KB

import os import re import codecs import json import sys from scrapy import Spider from scrapy.selector import Selector from lagou.items import LagouItem from scrapy.http import Request from scrapy.http import FormRequest from scrapy.utils.response import open_in_browser class TencentSpider(Spider): name = "lagou" #allowed_domains = ["lagou.com"] custom_settings = { "DEFAULT_REQUEST_HEADERS": { 'Accept': 'application/json, text/javascript, */*; q=0.01', 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'zh-CN,zh;q=0.8', 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8', 'Host': 'www.lagou.com', 'Origin': 'https://www.lagou.com', 'Referer': 'https://www.lagou.com/jobs/list_java?', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36', 'X-Anit-Forge-Code': '0', 'X-Anit-Forge-Token': 'None', 'X-Requested-With': 'XMLHttpRequest' }, "ITEM_PIPELINES": { 'lagou.pipelines.LagouPipeline': 300 } } def start_requests(self): #修改city参数更换城市 url = "https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&isSchoolJob=0&city=广州" requests = [] for i in range(1, 60): #修改kd参数更换关键字 formdata = {'first':'false', 'pn':str(i), 'kd':'java'} request = FormRequest(url, callback=self.parse_model, formdata=formdata) requests.append(request) print(request) return requests def parse_model(self, response): print(response.body.decode()) jsonBody = json.loads(response.body.decode()) results = jsonBody['content']['positionResult']['result'] items=[] for result in results: item=LagouItem() item['name']=result['positionName'] item['workLocation']=result['city'] if result['district']: item['workLocation']+=result['district'] if result['businessZones']: for zone in result['businessZones']: item['workLocation'] += zone #item['catalog'] item['money']=result['salary'] item['demand']=result['workYear']+"/"+result['education'] item['skillLabel']=",".join(result['positionLables']) item['positionAdvantage']=result['positionAdvantage'] item['publishTime']=result['formatCreateTime'] item['company']=result['companyFullName'] item['companyField']=result['industryField'] item['companyLabelList']=",".join(result['companyLabelList']) item['detailLink']="https://www.lagou.com/jobs/"+str(result['positionId'])+".html" item['detailCompany']="https://www.lagou.com/gongsi/"+str(+result['companyId'])+".html" items.append(item) return items

评论收藏

内容反馈