爬虫实验报告 本实验报告的主要目的是从网络上获取新闻与评论等所需数据,做好项目的数据准备工作。实验工具使用Python和格式转换工具(在线小工具:JSON 转 Excel)。实验过程可以分为三个部分:数据获取、数据处理和数据存储。 数据获取:我们使用爬虫技术从央视新闻的微博账户中获取了 2019年 12 月至 2020 年 6 月的新闻。对于每一条新闻,我们关心并截取的数据如下:新闻本身的内容(标题也包含在其中)、评论数、以及评论的具体内容。 数据处理:在获取完所有数据之后,通过格式转换工具将 JSON 格式转换为 Excel 格式。表格的每一行记录了一条新闻的所有数据,其中,第一列记录的是新闻本身的文本内容,第二列记录的是评论总数,第三列及以后每一列记录一条评论。 数据存储:最后,按大作业要求的时间段划分将数据分组并整理成 4 张 Excel 表格,并调整格式,项目数据准备阶段结束。 实验分析:选择央视新闻的微博账户作为数据来源的理由是:第一,央视新闻是我国最重要的官方新闻舆论机构,具有极高的公信力,新闻的准确性能得到最大限度的保证。第二,央视新闻拥有规模庞大的受众人群,所以评论的数量和质量非常满足实验需求。 实验遇到的问题:在爬虫的过程中,我们遭遇到了各种未知的报错和异常,在处理完异常之后会出现因数据缺失而形成的空白。为了消除这些空白对后续工作可能会造成的影响(比如有些文本分析的算法会把空白作为结束的判断依据),我们将会对 Excel 表格中的空白进行特殊处理。 实验代码:实验代码使用 Python 语言,使用 requests 和 BeautifulSoup 库来获取数据,并使用 json 库来处理数据。同时,我们使用了 lxml 库来解析 HTML 代码。 知识点: 1. 爬虫技术:爬虫技术是指从互联网上自动获取数据的过程。本实验使用爬虫技术从央视新闻的微博账户中获取了新闻数据。 2. Python 语言:Python 是一种高级的编程语言,广泛应用于数据科学、人工智能和网络开发等领域。本实验使用 Python 语言来实现爬虫技术。 3. BeautifulSoup 库:BeautifulSoup 库是一个 Python 库,用于解析 HTML 和 XML 文档。本实验使用 BeautifulSoup 库来解析 HTML 代码。 4. JSON 格式:JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,本实验使用 JSON 格式来存储数据。 5. Excel 格式:Excel 是一种电子表格格式,本实验使用 Excel 格式来存储数据。 6. 数据处理:数据处理是指对获取到的数据进行处理和分析,以获得有价值的信息。本实验对获取到的数据进行了处理和分析,并将其存储到 Excel 表格中。 7. 异常处理:异常处理是指在数据处理过程中遇到的错误和异常的处理。本实验中,我们遇到了各种未知的报错和异常,并对其进行了处理。 8. 数据存储:数据存储是指将处理后的数据存储到文件或数据库中。本实验将处理后的数据存储到 Excel 表格中。 9. 公信力:公信力是指新闻机构的公信力和可靠性。本实验选择央视新闻的微博账户作为数据来源,是因为央视新闻具有极高的公信力和可靠性。 10. 大数据分析:大数据分析是指对大量数据进行分析和处理,以获得有价值的信息。本实验对获取到的新闻数据进行了分析和处理,并将其存储到 Excel 表格中。
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![doc](https://img-home.csdnimg.cn/images/20210720083327.png)
![doc](https://img-home.csdnimg.cn/images/20210720083327.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/release/download_crawler_static/86367203/bg1.jpg)
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/e8a74f0aa600409690837889223dd01d_weixin_35740588.jpg!1)
- 粉丝: 24
- 资源: 301
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
最新资源
- 关于如何快速入手Kotlin
- ALTIUM库 常用电阻电容芯片类2D3D PCB封装库AD库(2D3D封装库).zip
- keil5安装教程keil5安装教程
- 所得到的多多多多多多多
- GNSS芯片 AG3335M芯片的,EVB 硬件设计图
- 阿云主机网络连接详细操作.docx
- 网络爬虫软件研究与开发pdf
- Java项目-基于SSM+JSP的母婴用品网站的设计与实现(源码+数据库脚本+部署视频+代码讲解视频+全套软件)
- 基于微信小程序的购物商城app设计带Java后端+源代码+文档说明+数据库.zip
- 基于51单片机外设应用设计.DSN后缀PROTEUS仿真仿真源文件及C语言实例源码例程合集(300个).zip
![feedback](https://img-home.csdnimg.cn/images/20220527035711.png)
![feedback-tip](https://img-home.csdnimg.cn/images/20220527035111.png)
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)