实验报告(爬虫部分)1
需积分: 0 93 浏览量
更新于2022-08-08
收藏 23KB DOCX 举报
爬虫实验报告
本实验报告的主要目的是从网络上获取新闻与评论等所需数据,做好项目的数据准备工作。实验工具使用Python和格式转换工具(在线小工具:JSON 转 Excel)。实验过程可以分为三个部分:数据获取、数据处理和数据存储。
数据获取:我们使用爬虫技术从央视新闻的微博账户中获取了 2019年 12 月至 2020 年 6 月的新闻。对于每一条新闻,我们关心并截取的数据如下:新闻本身的内容(标题也包含在其中)、评论数、以及评论的具体内容。
数据处理:在获取完所有数据之后,通过格式转换工具将 JSON 格式转换为 Excel 格式。表格的每一行记录了一条新闻的所有数据,其中,第一列记录的是新闻本身的文本内容,第二列记录的是评论总数,第三列及以后每一列记录一条评论。
数据存储:按大作业要求的时间段划分将数据分组并整理成 4 张 Excel 表格,并调整格式,项目数据准备阶段结束。
实验分析:选择央视新闻的微博账户作为数据来源的理由是:第一,央视新闻是我国最重要的官方新闻舆论机构,具有极高的公信力,新闻的准确性能得到最大限度的保证。第二,央视新闻拥有规模庞大的受众人群,所以评论的数量和质量非常满足实验需求。
实验遇到的问题:在爬虫的过程中,我们遭遇到了各种未知的报错和异常,在处理完异常之后会出现因数据缺失而形成的空白。为了消除这些空白对后续工作可能会造成的影响(比如有些文本分析的算法会把空白作为结束的判断依据),我们将会对 Excel 表格中的空白进行特殊处理。
实验代码:实验代码使用 Python 语言,使用 requests 和 BeautifulSoup 库来获取数据,并使用 json 库来处理数据。同时,我们使用了 lxml 库来解析 HTML 代码。
知识点:
1. 爬虫技术:爬虫技术是指从互联网上自动获取数据的过程。本实验使用爬虫技术从央视新闻的微博账户中获取了新闻数据。
2. Python 语言:Python 是一种高级的编程语言,广泛应用于数据科学、人工智能和网络开发等领域。本实验使用 Python 语言来实现爬虫技术。
3. BeautifulSoup 库:BeautifulSoup 库是一个 Python 库,用于解析 HTML 和 XML 文档。本实验使用 BeautifulSoup 库来解析 HTML 代码。
4. JSON 格式:JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,本实验使用 JSON 格式来存储数据。
5. Excel 格式:Excel 是一种电子表格格式,本实验使用 Excel 格式来存储数据。
6. 数据处理:数据处理是指对获取到的数据进行处理和分析,以获得有价值的信息。本实验对获取到的数据进行了处理和分析,并将其存储到 Excel 表格中。
7. 异常处理:异常处理是指在数据处理过程中遇到的错误和异常的处理。本实验中,我们遇到了各种未知的报错和异常,并对其进行了处理。
8. 数据存储:数据存储是指将处理后的数据存储到文件或数据库中。本实验将处理后的数据存储到 Excel 表格中。
9. 公信力:公信力是指新闻机构的公信力和可靠性。本实验选择央视新闻的微博账户作为数据来源,是因为央视新闻具有极高的公信力和可靠性。
10. 大数据分析:大数据分析是指对大量数据进行分析和处理,以获得有价值的信息。本实验对获取到的新闻数据进行了分析和处理,并将其存储到 Excel 表格中。
兰若芊薇
- 粉丝: 31
- 资源: 301
最新资源
- matlab平台的垃圾识别定位.zip
- matlab平台的疲劳检测GUI设计.zip
- matlab平台的垃圾分类系统.zip
- matlab平台的苹果水果分级.zip
- matlab平台的漂浮物识别.zip
- matlab平台的疲劳专注度检测系统.zip
- matlab平台的脐橙水果分级.zip
- 连续小波变换加卷积神经网络进行轴承故障诊断
- matlab平台的人脸考勤设计.zip
- matlab平台的人脸购物系统.zip
- matlab平台的人脸识别.zip
- matlab平台的人脸识别系统.zip
- matlab平台的人脸门禁系统.zip
- matlab平台的手势识别设计.zip
- matlab平台的手势控制系统.zip
- matlab平台的手势识别.zip