用python+selenium+IP代理池多线程爬取letpub网站详情页数据。可以爬取期刊名字、_letpub.zip_selenium怎样设置代理池资源-CSDN文库

共21个文件

xml：7个

py：6个

md：2个

版权申诉

22 浏览量 2024-09-12 10:07:23 上传评论 1 收藏 11.68MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

用python+selenium+IP代理池多线程爬取letpub网站详情页数据。可以爬取期刊名字、_letpub.zip （21个子文件）

folder

letpub-master

folder

spider

__init__.py 0B

journal.xlsx 4.91MB

spider.py 18KB

LICENSE 34KB

folder

.idea

sqldialects.xml 201B

vcs.xml 180B

misc.xml 185B

dataSources.xml 538B

folder

inspectionProfiles

Project_Default.xml 827B

profiles_settings.xml 174B

modules.xml 264B

letpub.iml 284B

.gitignore 182B

.gitignore 2KB

README.en.md 879B

folder

util

browserUtil.py 2KB

proxies.py 1KB

chromedriver.exe 12.17MB

mysqlUtil.py 4KB

proxies2.py 1KB

README.md 1KB

# letpub #### 介绍用python+selenium+ip代理池多线程爬取letpub网站详情页数据。可以爬取期刊名字、ISSN编号、影响因子、自引率、h-index、citeScore、期刊简介、期刊官方网站、期刊投稿网址、是否开放OA、涉及的研究方向、出版国家或地区、出版语言、出版周期、WOS期刊SCI分区、中科院预警名单、中科院SCI期刊分区（大类学科、小类学科、分区、是否为Top期刊、是否为综述期刊）、平均审稿速度、平均录用比例 #### 软件架构本软件使用selenium自动化工具实现数据的采集 #### 安装教程 1. 将项目下载到本地 2. 导入所需要的包，更改代码文件中的文件路径（改成自己的文件路径） 3. 更改spider中login()函数里的letpub邮箱地址、密码；更改数据库密码 4. mysql创建好数据库 5. 导入依赖的包，运行spider.py文件即可(必须要有谷歌浏览器，且chromedriver.exe版本要与谷歌浏览器版本一致) #### 免责声明 1. 本软件仅供学习交流严禁用于非法用途！否则后果自负！ 2. 对于任何原因在使用本软件时可能对用户自己或他人造成的任何形式的损失和伤害，本人概不负责，亦概不承担任何民事或刑事法律责任。

内容反馈

版权申诉

好家伙VCC

粉丝: 2303
资源: 9142

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip