中国知网爬虫.zip_知网爬虫资源-CSDN文库

共30个文件

py：22个

gitkeep：4个

txt：1个

版权申诉

爬虫

4 浏览量 2023-11-09 08:08:13 上传评论收藏 102KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

中国知网爬虫.zip （30个子文件）

empty_file.txt 0B

CnkiSpider-master

doc

.gitkeep 0B

categories.json 61KB

src

Cookie.py 5KB

ListSpider.py 8KB

CnkiSpider.py 5KB

bs4

__init__.py 15KB

dammit.py 29KB

testing.py 24KB

builder

__init__.py 11KB

_lxml.py 8KB

_html5lib.py 10KB

_htmlparser.py 9KB

diagnose.py 6KB

tests

__init__.py 27B

test_builder_registry.py 5KB

test_docs.py 1KB

test_soup.py 17KB

test_htmlparser.py 612B

test_lxml.py 3KB

test_html5lib.py 3KB

test_tree.py 69KB

element.py 60KB

Config.py 7KB

ContentSpider.py 7KB

data

.gitkeep 0B

ListPages

.gitkeep 0B

readme.md 2KB

test

.gitkeep 0B

.gitignore 89B

##bug报告 1. issue 2. pull request 3. 联系颜登程<yanzhou@mail.ustc.edu.cn> ##使用说明 1. 在src/CnkiSpider.py设置检索条件 2. 执行src/CnkiSpider.py抓取数据 3. 抓取数据存储在/data目录下，文件名格式为"data-keyword-年月日时分秒.txt.txt"，如"data-新媒体-20131128224556.txt" 4. 每个数据文件的第一行为字段名称 5. 每次运行都根据当前时间生成新的数据文件 6. 如果抓取过程中断，可以在src/CnkiSpider.py中设置startPage为中断时的页码，并重新运行src/CnkiSpider.py从中断的页面继续抓取，最后将各个数据文件合并 7. 生成的文本文件直接修改后缀名为.csv然后用LibreOffice打开并在LibreOffice中设置字段分隔符为src/CnkiSpider.py中变量fieldsSep设置的字符串 8. Windows下打开Excel 2013,然后【打开】->【浏览】->选择文件（文件名后下拉框选择“文本文件”），出现文本导入向导，设置“文件原始格式”为Unicode（UTF-8)，下一步，设置“分隔符号” 9. 由若要使用文本编辑器打开数据文件，建议使用Notepad++打开。Windows自带的记事本打开大文件会卡死。Notepad++可以自动识别编码格式，防止乱码。 10. 如果数据文件中从某部分开始大量出现关键词字段和分类号字段为空的情况，则将src/CnkiSpider.py中restEvery变量调小，restPeriod变量调大后重试。 ## windows下和linux下使用需要修改的地方 CnkiSpider.py print "----CONTENT:获取第" + str(article["order"]) + "篇文章" ContentSpider.py s = s.replace("【分类号】".decode("utf8"), "")

评论收藏

内容反馈

版权申诉