没有合适的资源?快使用搜索试试~ 我知道了~
reddit_crawler:一个用于从子redredit收集评论线程的项目,目的是为了进行社交网络分析和定性编码而开发
共11个文件
py:6个
json:1个
md:1个
需积分: 9 0 下载量 49 浏览量
2021-05-22
07:49:11
上传
评论
收藏 19KB ZIP 举报
温馨提示
reddit_crawler 一个用于从子redredit收集评论线程的项目,目的是为了进行社交网络分析和定性编码而开发。 命令行参数 Subreddit 用法:-a subreddit = NAME 指定要爬网的子reddit。 (例如, //reddit.com/r/python应该是-a subreddit = python) 页数 用法:-a pages = INT 要爬网的页面数。 这里的页面指的是导航栏上的“下一页”链接,而不是要刮擦的线程数,通常要遵循的链接或爬网深度。 因此,例如,如果您想返回3页并从中擦除所有注释线程,则可以使用-a pages = 3。 流水线 JsonExport管道 默认管道。 使用JsonLinesItemExporter()将抓取的数据输出到tmp / export.json中。 PostgresExport管道 要使用该数据库,用户和
资源推荐
资源详情
资源评论
收起资源包目录
reddit_crawler-master.zip (11个子文件)
reddit_crawler-master
reddit_crawler
spiders
__init__.py 161B
reddit.py 3KB
items.py 785B
pipelines.py 4KB
settings.py 451B
__init__.py 0B
data
export.json 1B
.gitignore 745B
README.md 1KB
LICENSE 34KB
scrapy.cfg 270B
共 11 条
- 1
资源评论
PaytonSun
- 粉丝: 20
- 资源: 4577
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功