python 2.x; scrapy spider; 京东数据抓取；大众点评网数据抓取；豆瓣数据抓取.zip

共10个文件

py：8个

readme：1个

cfg：1个

需积分: 5 0 下载量 58 浏览量 2024-04-25 23:11:02 上传评论收藏 5KB ZIP 举报

温馨提示

Big Data （大数据），或称巨量资料，指的是在传统数据处理应用软件不足以处理的大或复杂的数据集。大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言，大数据的出现促成广泛主题的新颖研究。这也导致各种大数据统计方法的发展。大数据并没有统计学的抽样方法；它只是观察和追踪发生的事情。因此，大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于技术进步，发布新数据的便捷性以及全球大多数政府对高透明度的要求，大数据分析在现代研究中越来越突出。

资源推荐

资源详情

资源评论

收起资源包目录

python 2.x; scrapy spider; 京东数据抓取；大众点评网数据抓取；豆瓣数据抓取.zip （10个子文件）

content

README 2KB

app

__init__.py 0B

pipelines.py 283B

spiders

__init__.py 161B

douban_spider.py 1KB

jd_spider.py 1KB

dp_spider.py 1KB

items.py 282B

settings.py 606B

scrapy.cfg 248B

共 10 条

# -*- coding: utf-8 -*- import scrapy from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.http import Request class DpSpiderSpider(scrapy.spider.Spider): name = "dp_spider" allowed_domains = ["dianping.com"] #只抓取前3个url以做演示，如果需要抓取更多，可以用yield创建更多得Request。 start_urls = [] for i in range(1,3): start_urls.append('http://www.dianping.com/search/category/1/10/o10p'+str(i)) #需要处理的http状态 handle_httpstatus_list = [404,403] def parse(self, response): print '\n' print 'crawl url = ', response.url #403错误，禁止抓取，则暂停10分钟 if response.status == 403: print 'meet 403, sleep 600 seconds' import time time.sleep(600) yield Request(response.url, callback=self.parse) #404，页面不存在，直接返回即可 elif response.status == 404: print 'meet 404, return' #正常处理 else: hxs = scrapy.Selector(response) xs = hxs.xpath('//ul[@class=\"shop-list J_shop-list\"]/li') for x in xs: shopid = x.xpath('a/@href').extract()[0].split('/')[-1] print 'shopid = ', shopid shopname = x.xpath('a/img/@title').extract()[0] print "shopname = ", shopname

评论收藏

内容反馈