没有合适的资源？快使用搜索试试~ 我知道了~

文库首页前端Javascript2018-02-14 新闻内容爬虫【上学时做论文自己爬新闻数据，原谅我自己懒发的图片】

2018-02-14 新闻内容爬虫【上学时做论文自己爬新闻数据，原谅我自己懒发的图片】

爬虫

毕业设计

需积分: 5 0 下载量 196 浏览量 2024-02-26 09:41:19 上传评论收藏 750KB PDF 举报

温馨提示

试读

20页

2018-02-14 新闻内容爬虫【上学时做论文自己爬新闻数据，原谅我自己懒发的图片】

资源推荐

资源详情

资源评论

2018-02-14 新闻内容爬虫

爬虫过的站点：

1QQ新闻

1，准备爬取滚动新闻页面

2 通过F12 开发工具查找发现，动态获取数据url

3 获取数据格式，

注意：请求页面时，必须加头部信息

4 页面内容解析

5 评论获取

评论页面

评论数据

6 注意

2 新浪

1 准备爬取滚动页面

2 滚动页面类别，只是部分，往后和的url 基本都不更新了

3 动态获取滚动页面数据

4 获取的动态页面新闻条目

5 获取评论内容

3 网易新闻

1 滚动新闻

2 页面内容爬取，

3 获取评论内容

4 南方周未

1 滚动爬取

2 评论内容太少，没看

5 环球网

1 滚动爬取

2 评论太少没看

7 中国新闻网

1 滚动新闻

2 获取所有的正文 url

3 评论太少，没看

8 搜狐

1 sohu没有可有滚动新闻页面

2 评论获取

9 央视网

1 滚动页面

2 正则获取正文 url

10 python 执行js 脚本

execjs 方法，尝试可有

1 执行函数

2 js 的JSON数据输出为序列，再转为python JSON

3 JSON－js 包

爬虫过的站点：

1. qq

2. 新浪

3. 网易

4. 南方周未

5. 环球网

7. 中国新闻网

8. 搜狐

9. 央视网

10. python 执行js 脚本

1QQ新闻

说明：新闻数据量最不大，有一些评论。到是可以爬以前的历史数据

1，准备爬取滚动新闻页面

可以选择日期，选择国内，国际，社会三种类型

2 通过F12 开发工具查找发现，动态获取数据url

http://roll.news.qq.com/

http://roll.news.qq.com/interface/roll.php?

0.7455619115457752&cata=newsgn,newsgj,newssh&site=news&date=&page=1&mode=1&

of=json

就是一个随机数

表示先中的3种类型，如果是其他大类，体育或是财经也有其他的小类

如下：

表示所在大类

表示往期回顾日期，不写表示当天向后显示10页，每页50条新闻

表示第几页

表示标题模式还是摘要模式

3 获取数据格式

获取数据是一个字典，可以使用如一代码查看

注意：请求页面时，必须加头部信息

#必须用　referer　和　user_agent　参数

import requests

import chardet

user_agent = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36

(KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"

referer = "http://news.qq.com/"

#构建页面请求的头部

headers = {'User-Agent':user_agent, "Referer":referer}

#构建页面请求

url ='http://roll.news.qq.com/interface/roll.php?

0.7455619115457752&cata=newsgn,newsgj,newssh&site=news&date=&page=1&mo

de=1&of=json'

response = requests.get(url, headers=headers)

res = chardet.detect(response.content)

response.encoding = res['encoding']

response.text

articleRollDict = json.loads(response.text, encoding=response.encoding)

0.7455619115457752

cata=newsgn,newsgj,newssh

site=news

date=

page=1

mode=1

剩余19页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

Brickie-liu

粉丝: 112
资源: 28

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

2018-02-14 新闻内容爬虫【上学时做论文自己爬新闻数据，原谅我自己懒发的图片】

爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文

Python网络爬虫教程 数据采集 信息提取课程 09-实例3-股票数据定向爬虫（共23页）.pptx

完整版精品Python网络爬虫教程 数据采集 信息提取课程 12-实例4-股票数据定向Scrapy爬虫（共23页）.pptx

爬虫开发阶段-爬虫基础-MongoDB数据库-爬虫Scrapy框架和案例.zip

完整版精品Python网络爬虫教程 数据采集 信息提取课程 08-实例2-淘宝商品信息定向爬虫（共17页）.pptx

网络爬虫知网某论文数据

网络爬虫论文答辩PPT课件

完整版精品Python网络爬虫教程 数据采集 信息提取课程 06-实例1-中国大学排名爬虫（共26页）.pptx

新闻爬虫的实现

Python网络爬虫教程 数据采集课程 10-Scrapy爬虫框架（共34页）.pptx

网络爬虫.论文答辩PPT

基于Python网络爬虫毕业论文.doc

新闻爬虫系统的设计与实现毕业论文(20210809122908).pdf

spring boot + vue + element-ui + mongodb 实现网易buff爬虫数据可视化.zip

H3C网络大爬虫1-12期全集.rar

JAVA网络爬虫

完整版精品Python网络爬虫教程 数据采集 信息提取课程 02-网络爬虫的盗亦有道（共19页）.pptx

网络爬虫的设计与实现+毕业论文

论文研究-基于NodeJs的网络图片爬虫工具的设计与实现 .pdf

34个经典javaweb项目实例.zip

项目源码：基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计

毕业设计 springBoot人力资源管理系统+毕业论文+前后端源代码

毕业设计：舆情监测系统（SpringBoot+NLP）

基于spring boot的小区物业管理系统源码+论文+答辩ppt

计算机毕业设计：Flask股票数据采集分析可视化系统 python+爬虫+金融数据

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计 项目源码 毕业设计

毕业设计-基于JAVA的springboot超市进销存系统(源代码+论文）

基于51单片机的智能电子秤系统设计(含代码仿真及论文)无需积分！

Python爬取智联招聘网站数据，2023.10.31测试，可跑

最新资源

Python网络爬虫教程数据采集信息提取课程 09-实例3-股票数据定向爬虫（共23页）.pptx

完整版精品Python网络爬虫教程数据采集信息提取课程 12-实例4-股票数据定向Scrapy爬虫（共23页）.pptx

完整版精品Python网络爬虫教程数据采集信息提取课程 08-实例2-淘宝商品信息定向爬虫（共17页）.pptx

完整版精品Python网络爬虫教程数据采集信息提取课程 06-实例1-中国大学排名爬虫（共26页）.pptx

Python网络爬虫教程数据采集课程 10-Scrapy爬虫框架（共34页）.pptx

完整版精品Python网络爬虫教程数据采集信息提取课程 02-网络爬虫的盗亦有道（共19页）.pptx

项目源码：基于Hadoop+Spark招聘推荐可视化系统大数据项目计算机毕业设计

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计项目源码毕业设计