没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
2018-02-14 新闻内容爬虫
爬虫过的站点:
1QQ新闻
1,准备爬取滚动新闻页面
2 通过F12 开发工具查找发现,动态获取数据url
3 获取数据格式,
注意:请求页面时,必须加头部信息
4 页面内容解析
5 评论获取
评论页面
评论数据
6 注意
2 新浪
1 准备爬取滚动页面
2 滚动页面类别,只是部分,往后和的url 基本都不更新了
3 动态获取滚动页面数据
4 获取的动态页面新闻条目
5 获取评论内容
3 网易新闻
1 滚动新闻
2 页面内容爬取,
3 获取评论内容
4 南方周未
1 滚动爬取
2 评论内容太少,没看
5 环球网
1 滚动爬取
2 评论太少没看
6
7 中国新闻网
1 滚动新闻
2 获取所有的正文 url
3 评论太少,没看
8 搜狐
1 sohu没有可有滚动新闻页面
2 评论获取
9 央视网
1 滚动页面
2 正则获取正文 url
10 python 执行js 脚本
execjs 方法,尝试可有
1 执行函数
2 js 的JSON数据输出为序列,再转为python JSON
3 JSON-js 包
爬虫过的站点:
1. qq
2. 新浪
3. 网易
4. 南方周未
5. 环球网
6.
7. 中国新闻网
8. 搜狐
9. 央视网
10. python 执行js 脚本
1QQ新闻
说明:新闻数据量最不大,有一些评论。到是可以爬以前的历史数据
1,准备爬取滚动新闻页面
可以选择日期,选择国内,国际,社会三种类型
2 通过F12 开发工具查找发现,动态获取数据url
http://roll.news.qq.com/
http://roll.news.qq.com/interface/roll.php?
0.7455619115457752&cata=newsgn,newsgj,newssh&site=news&date=&page=1&mode=1&
of=json
就是一个随机数
表示先中的3种类型,如果是其他大类,体育或是财经也有其他的小类
如下:
表示所在大类
表示往期回顾日期,不写表示当天向后显示10页,每页50条新闻
表示第几页
表示标题模式 还是摘要模式
3 获取数据格式
获取数据是一个字典,可以使用如一代码查看
注意:请求页面时,必须加头部信息
#必须用 referer 和 user_agent 参数
import requests
import chardet
user_agent = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
referer = "http://news.qq.com/"
#构建页面请求的头部
headers = {'User-Agent':user_agent, "Referer":referer}
#构建页面请求
url ='http://roll.news.qq.com/interface/roll.php?
0.7455619115457752&cata=newsgn,newsgj,newssh&site=news&date=&page=1&mo
de=1&of=json'
response = requests.get(url, headers=headers)
res = chardet.detect(response.content)
response.encoding = res['encoding']
response.text
articleRollDict = json.loads(response.text, encoding=response.encoding)
0.7455619115457752
cata=newsgn,newsgj,newssh
site=news
date=
page=1
mode=1
剩余19页未读,继续阅读
资源评论
Brickie-liu
- 粉丝: 112
- 资源: 28
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功