# letpub
#### 介绍
用python+selenium+ip代理池多线程爬取letpub网站详情页数据。
可以爬取期刊名字、ISSN编号、影响因子、自引率、h-index、citeScore、期刊简介、期刊官方网站、期刊投稿网址、是否开放OA、涉及的研究方向、出版国家或地区、出版语言、出版周期、WOS期刊SCI分区、中科院预警名单、中科院SCI期刊分区(大类学科、小类学科、分区、是否为Top期刊、是否为综述期刊)、平均审稿速度、平均录用比例
#### 软件架构
本软件使用selenium自动化工具实现数据的采集
#### 安装教程
1. 将项目下载到本地
2. 导入所需要的包,更改代码文件中的文件路径(改成自己的文件路径)
3. 更改spider中login()函数里的letpub邮箱地址、密码;更改数据库密码
4. mysql创建好数据库
5. 导入依赖的包,运行spider.py文件即可(必须要有谷歌浏览器,且chromedriver.exe版本要与谷歌浏览器版本一致)
#### 免责声明
1. 本软件仅供学习交流严禁用于非法用途!否则后果自负!
2. 对于任何原因在使用本软件时可能对用户自己或他人造成的任何形式的损失和伤害,本人概不负责,亦概不承担任何民事或刑事法律责任。
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
用python+selenium+IP代理池多线程爬取letpub网站详情页数据。可以爬取期刊名字、_letpub.zip (21个子文件)
letpub-master
spider
__init__.py 0B
journal.xlsx 4.91MB
spider.py 18KB
LICENSE 34KB
.idea
sqldialects.xml 201B
vcs.xml 180B
misc.xml 185B
dataSources.xml 538B
inspectionProfiles
Project_Default.xml 827B
profiles_settings.xml 174B
modules.xml 264B
letpub.iml 284B
.gitignore 182B
.gitignore 2KB
README.en.md 879B
util
browserUtil.py 2KB
proxies.py 1KB
chromedriver.exe 12.17MB
mysqlUtil.py 4KB
proxies2.py 1KB
README.md 1KB
共 21 条
- 1
资源评论
好家伙VCC
- 粉丝: 2105
- 资源: 9145
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功