stopwords.txt
自然语言处理 / jieba分词自定义停用词,共2600行 / txt文件 / stopwords / 学习工作都用得上
第一章 爬虫和数据。 第二章 Requests 模块。 第三章 正则表达式。 第四章 XPATH 提取数据。 第五章 动态 HTML 处理。 第六章 多线程爬虫实现。 第七章:Scrapy 框架初步。 第八章:增量爬虫。 第九章:验证码识别。 第十章 MongoDB 数据库。 第十一章 爬虫项目。 第十二章:Redis 数据库。 第十三章:分布式爬虫 Scrapy-redis 框架。 第十四章:Python 爬虫监控,自定义爬虫。 第十五章:项目实战,考核、爬虫流程。 附录
解压之后,在chrome浏览器--------更多工具--------扩展程序----添加刚刚解压的学术助手文件夹即可。
1,创建logs文件夹,在下面创建log日志文件:C:\MongoDB\Server\3.4\data\logs\mongo.log 2、按照这个路径创建文件夹:C:\MongoDB\Server\3.4\data\db 3.配置环境变量 2.以管理员方式开启cmd 3.进入mongodb的bin文件夹下 4.运行以下命令:(需要根据实际情况修改相应路径) mongod --bind_ip 0.0.0.0 --logpath D:\MongoDB\Server\3.4\data\logs\mongo.log --logappend --dbpath D:\MongoDB\Server\3.4\data\db --port 27017 --serviceName "MongoDB" -serviceDisplayName "MongoDB" --install
chromedriver和phantomjs,使用时将chromedriver和phantomjs文件复制,粘贴到相应路径D:\Anaconda3\Scripts下即可
安装scrapy所需要的依赖文件(Microsoft visual c++ 14.0和NDP46-KB3045560-Web)