实验报告(爬虫部分)1

preview
需积分: 0 4 下载量 93 浏览量 更新于2022-08-08 收藏 23KB DOCX 举报
爬虫实验报告 本实验报告的主要目的是从网络上获取新闻与评论等所需数据,做好项目的数据准备工作。实验工具使用Python和格式转换工具(在线小工具:JSON 转 Excel)。实验过程可以分为三个部分:数据获取、数据处理和数据存储。 数据获取:我们使用爬虫技术从央视新闻的微博账户中获取了 2019年 12 月至 2020 年 6 月的新闻。对于每一条新闻,我们关心并截取的数据如下:新闻本身的内容(标题也包含在其中)、评论数、以及评论的具体内容。 数据处理:在获取完所有数据之后,通过格式转换工具将 JSON 格式转换为 Excel 格式。表格的每一行记录了一条新闻的所有数据,其中,第一列记录的是新闻本身的文本内容,第二列记录的是评论总数,第三列及以后每一列记录一条评论。 数据存储:按大作业要求的时间段划分将数据分组并整理成 4 张 Excel 表格,并调整格式,项目数据准备阶段结束。 实验分析:选择央视新闻的微博账户作为数据来源的理由是:第一,央视新闻是我国最重要的官方新闻舆论机构,具有极高的公信力,新闻的准确性能得到最大限度的保证。第二,央视新闻拥有规模庞大的受众人群,所以评论的数量和质量非常满足实验需求。 实验遇到的问题:在爬虫的过程中,我们遭遇到了各种未知的报错和异常,在处理完异常之后会出现因数据缺失而形成的空白。为了消除这些空白对后续工作可能会造成的影响(比如有些文本分析的算法会把空白作为结束的判断依据),我们将会对 Excel 表格中的空白进行特殊处理。 实验代码:实验代码使用 Python 语言,使用 requests 和 BeautifulSoup 库来获取数据,并使用 json 库来处理数据。同时,我们使用了 lxml 库来解析 HTML 代码。 知识点: 1. 爬虫技术:爬虫技术是指从互联网上自动获取数据的过程。本实验使用爬虫技术从央视新闻的微博账户中获取了新闻数据。 2. Python 语言:Python 是一种高级的编程语言,广泛应用于数据科学、人工智能和网络开发等领域。本实验使用 Python 语言来实现爬虫技术。 3. BeautifulSoup 库:BeautifulSoup 库是一个 Python 库,用于解析 HTML 和 XML 文档。本实验使用 BeautifulSoup 库来解析 HTML 代码。 4. JSON 格式:JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,本实验使用 JSON 格式来存储数据。 5. Excel 格式:Excel 是一种电子表格格式,本实验使用 Excel 格式来存储数据。 6. 数据处理:数据处理是指对获取到的数据进行处理和分析,以获得有价值的信息。本实验对获取到的数据进行了处理和分析,并将其存储到 Excel 表格中。 7. 异常处理:异常处理是指在数据处理过程中遇到的错误和异常的处理。本实验中,我们遇到了各种未知的报错和异常,并对其进行了处理。 8. 数据存储:数据存储是指将处理后的数据存储到文件或数据库中。本实验将处理后的数据存储到 Excel 表格中。 9. 公信力:公信力是指新闻机构的公信力和可靠性。本实验选择央视新闻的微博账户作为数据来源,是因为央视新闻具有极高的公信力和可靠性。 10. 大数据分析:大数据分析是指对大量数据进行分析和处理,以获得有价值的信息。本实验对获取到的新闻数据进行了分析和处理,并将其存储到 Excel 表格中。