intramirror 调查报告
爬取结果:所以商品基本都能搜到,但结果不唯一;
反爬机制:如用多线程爬取数据会触发反爬机制导致 ip 被封。用单线程没有问题。获取
colourCode 需要对 supId 进行加密
爬取方法描述:通过抓包获得三条请求。
第一条请求可以改变 keyword 参数获得条款对应的 spuId 和 saleId
第二条请求通过对应的 spuId 和 saleId 返回价格
第三条请求通过 spuId 和对 spuId 加密过后的 signature 获取颜色编码 colourCode
用 python 的 requests 模块模拟请求,再用正则表达式提取响应数据,匹配 colourCode 进行筛
选,得到的数据写回 excl 中。
项目难点和预期解决方法:难点是 spuId 的加密方法,已通过 apk 反编译成功破
解。没有信息的款号表示已经”soldout”无法获取价格,