【免费】实验报告（爬虫部分）1_网络爬虫作业带实验报告资源-CSDN文库

需积分: 0 93 浏览量更新于2022-08-08 收藏 23KB DOCX 举报

爬虫实验报告本实验报告的主要目的是从网络上获取新闻与评论等所需数据，做好项目的数据准备工作。实验工具使用Python和格式转换工具（在线小工具：JSON 转 Excel）。实验过程可以分为三个部分：数据获取、数据处理和数据存储。数据获取：我们使用爬虫技术从央视新闻的微博账户中获取了 2019年 12 月至 2020 年 6 月的新闻。对于每一条新闻，我们关心并截取的数据如下：新闻本身的内容（标题也包含在其中）、评论数、以及评论的具体内容。数据处理：在获取完所有数据之后，通过格式转换工具将 JSON 格式转换为 Excel 格式。表格的每一行记录了一条新闻的所有数据，其中，第一列记录的是新闻本身的文本内容，第二列记录的是评论总数，第三列及以后每一列记录一条评论。数据存储：按大作业要求的时间段划分将数据分组并整理成 4 张 Excel 表格，并调整格式，项目数据准备阶段结束。实验分析：选择央视新闻的微博账户作为数据来源的理由是：第一，央视新闻是我国最重要的官方新闻舆论机构，具有极高的公信力，新闻的准确性能得到最大限度的保证。第二，央视新闻拥有规模庞大的受众人群，所以评论的数量和质量非常满足实验需求。实验遇到的问题：在爬虫的过程中，我们遭遇到了各种未知的报错和异常，在处理完异常之后会出现因数据缺失而形成的空白。为了消除这些空白对后续工作可能会造成的影响（比如有些文本分析的算法会把空白作为结束的判断依据），我们将会对 Excel 表格中的空白进行特殊处理。实验代码：实验代码使用 Python 语言，使用 requests 和 BeautifulSoup 库来获取数据，并使用 json 库来处理数据。同时，我们使用了 lxml 库来解析 HTML 代码。知识点： 1. 爬虫技术：爬虫技术是指从互联网上自动获取数据的过程。本实验使用爬虫技术从央视新闻的微博账户中获取了新闻数据。 2. Python 语言：Python 是一种高级的编程语言，广泛应用于数据科学、人工智能和网络开发等领域。本实验使用 Python 语言来实现爬虫技术。 3. BeautifulSoup 库：BeautifulSoup 库是一个 Python 库，用于解析 HTML 和 XML 文档。本实验使用 BeautifulSoup 库来解析 HTML 代码。 4. JSON 格式：JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，本实验使用 JSON 格式来存储数据。 5. Excel 格式：Excel 是一种电子表格格式，本实验使用 Excel 格式来存储数据。 6. 数据处理：数据处理是指对获取到的数据进行处理和分析，以获得有价值的信息。本实验对获取到的数据进行了处理和分析，并将其存储到 Excel 表格中。 7. 异常处理：异常处理是指在数据处理过程中遇到的错误和异常的处理。本实验中，我们遇到了各种未知的报错和异常，并对其进行了处理。 8. 数据存储：数据存储是指将处理后的数据存储到文件或数据库中。本实验将处理后的数据存储到 Excel 表格中。 9. 公信力：公信力是指新闻机构的公信力和可靠性。本实验选择央视新闻的微博账户作为数据来源，是因为央视新闻具有极高的公信力和可靠性。 10. 大数据分析：大数据分析是指对大量数据进行分析和处理，以获得有价值的信息。本实验对获取到的新闻数据进行了分析和处理，并将其存储到 Excel 表格中。

实验目的：从网络上获取新闻与评论等所需数据，做好项目的数据准备工作

实验工具：Python，格式转换工具（在线小工具：JSON 转 Excel）

实验过程：

第一部分的实验目的是为项目提供数据样本。通过讨论，我们组决定从央视新闻的微博

账户中获取本次实验所需的数据。我们通过爬虫技术从央视新闻的微博账户中获取了 2019

年 12 月至 2020 年 6 月的新闻。对于每一条新闻，我们关心并截取的数据如下：新闻本身的

内容（标题也包含在其中）、评论数、以及评论的具体内容。获取完所有数据之后，通过格

式转换工具将 JSON 格式转换为 Excel 格式。表格的每一行记录了一条新闻的所有数据，其

中，第一列记录的是新闻本身的文本内容，第二列记录的是评论总数，第三列及以后每一列

记录一条评论。最后，按大作业要求的时间段划分将数据分组并整理成 4 张 Excel 表格，并

调整格式，项目数据准备阶段结束。

实验分析：

选择央视新闻的微博账户作为数据来源的理由是：第一，央视新闻是我国最重要的官方

新闻舆论机构，具有极高的公信力，新闻的准确性能得到最大限度的保证。第二，央视新闻

拥有规模庞大的受众人群，所以评论的数量和质量非常满足实验需求。

通过对网址规律的分析，我们选择按天爬取新闻内容，并在前十页评论中随机抽取六页

进行保存。在爬虫的过程中，我们遭遇到了各种未知的报错和异常，在处理完异常之后会出

现因数据缺失而形成的空白。为了消除这些空白对后续工作可能会造成的影响（比如有些文

本分析的算法会把空白作为结束的判断依据），我们将会对 Excel 表格中的空白进行特殊处

理。如果某一栏评论数数据为空（也就是该新闻的全部评论都获取失败了），我们会在这一

栏填补数字 0，如果某一列评论内容为空（也就是仅这一条评论获取失败），我们会在这一

栏填补特殊语段“我是只大大龙”加以区分。

实验代码：

# -*- coding: utf-8 -*-

import random

import requests

from bs4 import BeautifulSoup

import re

import json

import os

import time

from lxml import html

etree = html.etree

class Weibospider:

def __init__(self, date):

下载后可阅读完整内容，剩余6页未读，立即下载

资源推荐

资源评论

兰若芊薇

粉丝: 31
资源: 301

实验报告（爬虫部分）1

爬虫实验报告.docx

《Python网络爬虫》实验报告六.docx

Python网络爬虫实习报告.pdf

《Python网络爬虫》实验报告二.docx

《专业实验I-爬虫》实验报告-北邮2018.pdf

Python网络爬虫实习报告总结归纳.docx

python实现网络爬虫 爬取北上广深的天气数据报告 python.docx

【大数据搜索引擎】实验作业 7&&8 网络爬虫肖建田实验报告

网络爬虫实验报告.doc

python实验报告，大学生日常实验

大学计算机爬虫报告

《Python网络爬虫》实验报告一.docx

爬虫课设及源代码加实验报告

实验报告-爬虫-网络抓取-1.doc

scrapy分布式爬虫（爬虫项目与总结资料）

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

BurpSuite V2024.1.1专业版

BurpLoaderKeygen.jar.zip

Chrome Header Editor 插件

Goby红队版-win-x64-2.4.7版本

软件工程导论(第六版)课后习题答案1

OpenVAS GVM 中文翻译补丁

西南科技大学竞赛与实践 Paillier加密方案的原理、实现与应用

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

最新资源

python实现网络爬虫爬取北上广深的天气数据报告 python.docx