没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
jd-spider 爬取京东商品详情页信息:价格,主图,详情图,店铺信息等 反爬策略 通过多次实验发现,京东反爬策略大致如下: 同一IP,同时访问链接次数大于100以上,定义为爬虫,会重定向到京东首页; 爬虫策略 爬取的链接数量过大,采用分批次爬取,每次不超过100个链接数,可以自定义每个批次的数量,在上一个批次全部爬取完之后,进行下一批次的爬取 文本信息,轮播图片来源于相应sku的h5页面,无论提供的链接是pc端还是h5端的,最终都转化为h5链接(因为h5页面比较好爬) 详情图片默认来源于pc页面,若没有,则取对应的h5页面的图片链接 启动方式 默认只爬取页面文本信息,并导出excel npm run jd or 一键爬取文本信息和图片信息 npm run jdImg 需要的数据 默认配置下,只需要下载resource的template.xlsx,并替换需要爬取的url链接,然后执行命令
资源推荐
资源详情
资源评论
收起资源包目录
jd-spider-master.zip (13个子文件)
jd-spider-master
.DS_Store 6KB
utils
queue.js 1KB
resource
.DS_Store 6KB
template.xlsx 9KB
config.js 450B
src
download.js 2KB
jdItemBySku.js 12KB
exportExcel.js 1KB
parseExcel.js 1KB
README.md 1KB
.gitignore 31B
package-lock.json 47KB
package.json 778B
共 13 条
- 1
资源评论
吴玄熙
- 粉丝: 18
- 资源: 4583
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功