# CrawlerBySelenium
基于Selenium爬取天眼查数据
本项目是之前练手项目,不保证现在能够运行,且代码编写质量不高,仅供参考
--------------------------------------------
### 爬取内容
1.所有企业对应的网址
2.股东信息的股东、持股比例
3.对外投资的被投资企业、投资比例
4.待完成
### 运行须知
1.下载后解压,安装必要的包
2.在正式开始爬取前,务必先删除res/url/url_info_total.csv,随后务必运行init.py
3.先运行GetURL.py获取网址信息,每次爬取更改begin、end值以确定索引范围为左闭右开的[begin,end),tips:索引从0开始
4.在获取URL后可同步运行GetHolder.py 和 GetInverst.py,分别获取股东信息和对外投资信息。每次爬取更改begin、end值
### 注意事项:
在Crawler.py中:
该行为服务器配置需要:
self.browser = webdriver.Chrome(options=option, executable_path='/root/chromedriver')
本地使用需注释此行并取消注释:
self.browser = webdriver.Chrome(chrome_options=option)
将该行注释可以在运行时弹出chrome浏览器进行监控,服务器运行必须取消注释
option.add_argument("headless")
### 网址匹配:
搜索关键词,先看搜索结果第一项是否匹配,若匹配,搜索企业经营状况,若正常则匹配成功,若异常则匹配结束---1
若不匹配,则考虑将匹配'有限公司'改为匹配‘有限责任公司’(由数据集发现的通性问题),若匹配,搜索企业经营状况,若正常则匹配成功,若异常则匹配结束---2
若不匹配,考虑查询的企业名字完全包含xlsx企业名称的情况,比如河北省xxx公司匹配xxx公司,若匹配,搜索企业经营状况,若正常则匹配成功,若异常则匹配结束---3
若不匹配,考虑查询企业名字去除括号的结果,若匹配,搜索企业经营状况,若正常则匹配成功,若异常则匹配结束---4
若不匹配,查询界面中第一个"历史名称"字段,看跟着的名字是否匹配,重复2、3、4---5
若不匹配,将xxx有限公司改为xxx有限责任公司重新查询,重复2、3、4、5---6
tips:刚开始的几个含英文字母的公司匹配的不太好,但也只有那几个含英文字母的公司,人工处理即可。
### 结果保存:
网址匹配后控制台输出匹配成功个数,同时将无法匹配的企业名写入res/url/unable_1.txt中,将经营状况异常企业名写入res/url/unable_3.txt
网址匹配所有结果整合写入res/url/url_info.csv,状态一列0代表正常,1代表经营状况异常,2代表未找到
爬取股东信息时,会出现无股东信息的情况,写入res/Holder/unable_2.txt中
对于提示超时未获取的企业:该提示取决于网络状况,程序会执行最多五次DealTimeOut()对该文件中的企业进行重新获取,仍未获取的写入res/Holder/unable_4.remain.txt中
对于未知原因信息缺失的企业:原因未知,偶尔会出现,程序会执行最多五次DealUnKnown()对该文件中的企业进行重新获取,仍未获取的写入res/Holder/unable_5.remain.txt中
最后的结果保存在res/Holder/result.txt中
爬取对外投资和爬取股东信息类似,相关文件存储于res/Inverst中
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【资源说明】 基于Selenium爬取天眼查数据资料齐全+详细文档+高分项目+源码.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
资源推荐
资源详情
资源评论
收起资源包目录
基于Selenium爬取天眼查数据资料齐全+详细文档+高分项目+源码.zip (26个子文件)
CSDN
软件
项目授权码.txt 268B
CrawlerBySelenium-master
GetInverst.py 7KB
main.py 20KB
GetURL.py 9KB
dataset
timeout.txt 14KB
unknown.csv 906B
data.xlsx 1.41MB
data_10.xlsx 9KB
.idea
vcs.xml 180B
misc.xml 199B
inspectionProfiles
Project_Default.xml 2KB
profiles_settings.xml 174B
爬虫.iml 331B
modules.xml 264B
deployment.xml 779B
.gitignore 180B
encodings.xml 553B
remote-mappings.xml 296B
Crawler.py 1KB
.gitignore 2KB
GetHolder.py 7KB
Init.py 970B
deal_error.ipynb 22KB
test.py 57B
cookie.pkl 2KB
README.md 3KB
共 26 条
- 1
资源评论
Yuki-^_^
- 粉丝: 3101
- 资源: 2952
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功