# jd_spider
用scrapy框架写的京东爬虫,可以抓取京东商品信息和评论
# 1、目的:
<li>1、爬取京东的商品信息(以电子烟为例)</li>
<li>2、爬取商品的评论信息</li>
#2、抓取到的数据属性如下所示
<br>
##商品数据
<br>
![image](http://img.blog.csdn.net/20160706175045922)
<br>
##评论数据
<br>
![image](http://img.blog.csdn.net/20160706174754513)
<br>
#3、使用说明:
##(1)抓取商品信息和抓取评论分别写在了两个不同的爬虫里
<p>抓取商品信息代码在jd_home.py中,数据库在setting.py中修改ITEM_PIPELINES,使用MySQLPipeline</p>
<p>抓取评论代码在jd_comment.py中,数据库在setting.py中修改ITEM_PIPELINES,使用CommentPipeline</p>
##(2)setting.py文件
<p>默认开启了代理IP,因为IP的存活期的限制,要定期更新PROXIES中IP信息,可从网站:http://www.xicidaili.com/ 中找免费的代理IP</p>
<p>如果不想使用代理IP,可以将DOWNLOADER_MIDDLEWARES代码注释掉</p>
<p>数据库的配置:<p>
<li>setting.py中可以配置数据库的主机,端口,用户名,密码和数据库名信息</li>
<li>pipeline.py中在sql语句中配置你要存入的表的名称。</li>
<li>数据库表结构:</li>
<li>jd_comment.sql:评论数据</li>
<li>jd_goods.sql:商品数据</li>
<br>
<p>在使用本爬虫中,因为在抓取评论信息时需要用到goods.xls文件。因此需要先抓取商品信息,然后将商品信息的相关内容导出到goods.xls中(这里提供了一个goods.xls的格式供参考)</p>
<p>goods.xls格式:第1列:商品ID,第2列:商品评论数;第3列:商品的commentVersion</p>
<p>在一个工程中,抓取商品信息和抓取评论信息不能同时进行。</p>
<br>
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
京东爬虫,可抓取京东商品信息和评论.zip (30个子文件)
SJT-code
scrapy.cfg 262B
jd_spider
__init__.py 0B
pipelines.py 6KB
settings.pyc 3KB
middlewares.pyc 2KB
spiders
jd_comment.pyc 3KB
__init__.py 161B
jd_home.pyc 3KB
__init__.pyc 146B
jd_home.py 3KB
jd_comment.py 3KB
items.py 2KB
__init__.pyc 138B
pipelines.pyc 6KB
settings.py 4KB
middlewares.py 1KB
items.pyc 2KB
.idea
vcs.xml 180B
workspace.xml 36KB
misc.xml 701B
inspectionProfiles
Project_Default.xml 410B
profiles_settings.xml 235B
modules.xml 268B
jingdong.iml 459B
jd_comment.sql 1KB
test.xlsx 23KB
jd_goods.sql 1KB
goods.xls 29KB
good.png 79KB
README.md 2KB
共 30 条
- 1
JJJ69
- 粉丝: 6352
- 资源: 5918
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 适用于 Raspberry Pi 的 Adafruit 库代码.zip
- 章节2:编程基本概念之python程序的构成
- 适用于 Python 的 LINE 消息 API SDK.zip
- 宝塔面板安装及关键网络安全设置指南
- 适用于 Python 的 AWS 开发工具包.zip
- 适用于 Python 3 的 Django LDAP 用户身份验证后端 .zip
- 基于PBL-CDIO的材料成型及控制工程课程设计实践与改革
- JQuerymobilea4中文手册CHM版最新版本
- 适用于 Python 2 和 3 以及 PyPy (ws4py 0.5.1) 的 WebSocket 客户端和服务器库.zip
- 适用于 AWS 的 Python 无服务器微框架.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
前往页