# 京东爬虫
## 抓取评论的关键字
* 用户ID
* 评论内容
* 会员级别
* 点赞数
* 回复数
* 评价星级
* 购买时间
* 手机型号
## 抓取原理
* 分析京东评论界面数据来源及url规律
* 利用requests库访问json格式评论信息
## 运行环境
* Chrome 版本 72.0.3626.109(正式版本) (64 位)
* Python 3.5.2 :: Anaconda 4.2.0 (64-bit)
## 前置库
核心库如下
* requests
* fake_useragent
* BeautifulSoup
在当前目录下的控制台使用以下命令,批量安装上述相关的程序包
```
pip install -r requirements.txt
```
## 使用方法
### 环境
配置代理的终端可以直接使用
`pip install -r requirements`
觉得下载速度慢,可以使用清华镜像源下载相关依赖
`pip install -r requirements -i https://pypi.tuna.tsinghua.edu.cn/simple`
### 运行脚本SpiderScript.py
将文件下载到本地,cmd进入该文件夹
![spider](picture//Snipaste_2019-03-06_22-22-48.PNG)
(注意:在爬取数据之前,尽量确保网络的稳定,这能提高爬虫的效率,爬完所有数据,会存到data目录下的csv文件中)
### 数据分析脚本JDComment_Processing.ipynb
使用Jupyter notebook/lab打开ipynb文件,随后shift+enter逐步执行,即可看到数据处理过程(每个单元格的执行情况)。
分析借助柱状图和词云图来展现手机消费时段以及热点评论词,效果如下
时段分析
[![img](picture/手机购买时段.png)](https://github.com/YuleZhang/JDComment_Spider/blob/master/picture/%E6%89%8B%E6%9C%BA%E8%B4%AD%E4%B9%B0%E6%97%B6%E6%AE%B5.png)
词云图
![img](picture/phoneComment.jpg)
会员分析
![img](picture/月消费与会员等级分析.png)
## 数据处理过程
[content](./数据库报告.pdf)
![avatar](https://profile-avatar.csdnimg.cn/2b17cb8b32224168bb8ed166a94dd8f6_weixin_56154577.jpg!1)
JJJ69
- 粉丝: 6380
- 资源: 5917
最新资源
- 单相Boost PFC双闭环控制仿真模型:高精度功率因数与详细数据测量注释,单相Boost PFC双闭环控制仿真模型:高功率因数0.9995下的电压外环PI与电感电流滞环控制,详细数据测量及模块注释
- 基于Vue框架的消防一体化系统设计源码
- 衢州市乡镇边界,shp格式
- hotgo-移动应用开发资源
- unisrc-单片机开发资源
- 固态继电器电路.zip
- 光控照明灯自动开关.zip
- 光控式道路施工闪烁警示灯控制电路.zip
- 光电传感器与应用电路.zip
- 安川伺服电机与S7-200SMART PLC及MCGS7.7触摸屏联机程序例程:含CAD图纸、参数详解及运行效果视频说明书,安川伺服电机与西门子S7-200SMART PLC及MCGS7.7触摸屏联机
- 红外测量控器的发射与接收.zip
- 红外探测自动开关.zip
- 红外线集成器件sNS9201在延时开关中的应用.zip
- 霍尔传感器与应用电路.zip
- 继电器电路.zip
- 家用彩色幻灯电路.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback-tip](https://img-home.csdnimg.cn/images/20220527035111.png)