# 小爬虫集合地
## 通用工具类 utils
- proxies/ProxiesCrawler 爬取西刺上提供的免费代理ip
- GetProxies(num_of_http_proxies, num_of_https_proxies)
- cls.get_proxies() 爬取方法
- cls.save_file() 将爬取结果保存到文件中
- cls.get_proxies_by_file(filename,type) 解析保存文件
- cls.get_http_proxies_random()/get_https_proxies_random() 获取一个代理ip
- cls.filter_proxies() 通过ip138剔除不可用的代理ip
- ua/FakeUAGetter 获取随机的虚假UA
- from FackUA import my_fake_ua # 单例模式
- my_fake_ua.random # random ua
- email/EmailSender 用于发送email
- EmailSender(smtp_server, sender_name, psw=None)
- cls.send_email(subject, msg, receiver_name) 发送email
## 其他的小爬虫
- PaiPaiTracking 京东拍拍上的兴趣商品爬虫
- 运行方式
- 直接运行 (if_crawling设置为False)
- GitHub action自动运行 (通过PAIPAI_KEYWORD传递keyword,邮箱设置参照自如爬虫)
- 在文件的头部位置有如下几个设置
- if_show_process 是否输出’正在爬取第几页‘的提示
- if_write_to_file 是否需要保存到文件
- search_threshold 搜索词匹配阈值
- filename 结果保存的文件名
- 搜索算法并不完美,当前使用的方法是
- 按照空格切分搜索词
- 计算每个搜索词在商品名称的最大匹配长度并除于关键词长度
- 计算所有关键词的平均最大匹配长度比
- WebRobot-ShadowSky shadowsky的签到爬虫
- 设置Github的secrets或通过os添加环境变量
- SHADOWSKY_ACCOUNT
- SHADOWSKY_PSW
- 通过GitHub的action定时运行
- WechatRobot 微信上的Kindle杂志公社签到爬虫
- 第一次需要修改user_code为自己的签到值
- 直接运行
- 扫码登录
- ZiroomCrawler 自如租房小爬虫
- get_room_search_result(min_lng, max_lng, min_lat, max_lat, zoom, page_num, order_by, sort_flag, room_filter_args,
court_filter_args=None, min_price='', max_price='', feature='', leasetype='', tag='',
resblock_id='', transport='', minute='')
- lng经度 lat维度 zoom缩放等级 此三项用于确定搜索的地图范围 百度地图
- order_by:sellPrice sort_flag:asc 排列方式和顺序
- feature 3 独卫 4 阳台 多选时为:3|4
- leasetype 2 年租
- tag 1 立即 9 预定
- resblock_id 小区id 使用此项则为在该小区中搜索
- trainsport 通勤工具 transit 公交 walk 走路 ride 骑行 minute 通勤时间(分钟) 骑行10分钟大致路程为2km
- 房屋筛选
- room_filter_args 例如形如((5, 2500), (10, 3000), (20, 4000)),含义为(0,5平),价格低于2500,妙哉。[5平,10平),价格为(2500,3000],妙哉。如此类推。当想设置下界时,可通过将第一个条件设置为(5, 0)来排除小于5平的,上界同理
- court_filter_args 小区建筑年代
(^O^)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![exe](https://img-home.csdnimg.cn/images/20210720083343.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![txt](https://img-home.csdnimg.cn/images/20210720083642.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
收起资源包目录
![package](https://csdnimg.cn/release/downloadcmsfe/public/img/package.f3fc750b.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![folder](https://csdnimg.cn/release/downloadcmsfe/public/img/folder.005fa2e5.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/TXT.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
![file-type](https://csdnimg.cn/release/download/static_files/pc/images/minetype/UNKNOWN.png)
共 19 条
- 1
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/2b17cb8b32224168bb8ed166a94dd8f6_weixin_56154577.jpg!1)
JJJ69
- 粉丝: 6262
- 资源: 5775
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
最新资源
- 数据库管理工具:dbeaver-ce-23.0.3-macos-aarch64.dmg
- Delphi 12 控件之DEV自动安装程序.exe
- 数据库管理工具:dbeaver-ce-23.0.2-x86-64-setup.exe
- Delphi 12 控件之AnySQL-0.0.9.rar
- 俄罗斯引擎Yandex的进入.pdf
- 数据库管理工具:dbeaver-ce-23.0.2-stable.x86-64.rpm
- Dephi 12 控件FFVCL – Delphi FFmpeg VCL Components v7.8 for D6-D11
- 基于opencv识别车牌
- PCB三角波与方波发生电路,AD参考
- 数据库管理工具:dbeaver-ce-23.0.2-macos-x86-64.dmg
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback-tip](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)