没有合适的资源?快使用搜索试试~ 我知道了~
BaiduPost:爬虫
共3个文件
py:1个
gitignore:1个
md:1个
需积分: 9 1 下载量 81 浏览量
2021-06-28
08:13:14
上传
评论
收藏 3KB ZIP 举报
温馨提示
BaiduPost 百度贴吧爬虫 思路 先以中国科学技术大学为例,熟悉百度贴吧发帖回复等规则 帖子的排序是以最后的动态为准,而帖子内部回复则会放在尾页,故再爬取帖子列表时从第一页开始,在抓取帖子内部的动态时从尾页开始 抓取频率初步设定为两个小时 数据实体 属性 说明 类型 postHttp 帖子唯一链接 string postTitle 帖子标题 string authorID 作者ID string authorName 作者姓名 string postID 帖子唯一ID string postNo 帖子所在楼层 string postType 帖子类型,1开帖文、2跟帖文、3回复 string replyTo 回复给谁 string postContent 帖子内容 string postTime 帖子发表时间 string 如果是开帖文,replyTo为Null 跟帖文,replyT
资源推荐
资源详情
资源评论
收起资源包目录
BaiduPost-master.zip (3个子文件)
BaiduPost-master
BarMain.py 5KB
README.md 1KB
.gitignore 59B
共 3 条
- 1
资源评论
远离康斯坦丁
- 粉丝: 27
- 资源: 4664
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功