3 / 18

微博评论数据采集示例

另外还有知乎及 Wondrium、Coursera 外国学习平台数据示例如表 2 所示，所有数据总量为 60249 条评论。

Coursera

外国学习平台数据采集示例

2.2.

!"

2

%&'()*+,&-./

原理简介：

2.2.1.

%&

分词是统计词频的必要步骤之一。

我们的最终目的是提取到每条微博数据的关键信息以便以后对搜集到的所有数据做分析，即需要找出每条微

博的关键词。这里使用 jieba 库实现微博文本的分词。jieba 库是一个第三方中文分词库，支持三种分词模式：精

确模式、全模式和搜索引擎模式，这里使用了精确模式，可以将语句精确切分，不存在冗余数据，适合做文本分

析。

2.2.2.

()*+

得到了经过分词的文本数据后，在这时统计词频的话会发现有大量的无用词语，类似于“你的”、“我

的”、“这个”、“那个”等等，所以在统计词频之前还需要经过一个数据清洗的步骤，即删除停用词。

主要方法是：提前创建一个停用词列表“stopwords”，然后遍历每一条经过分词的文本数据，如果句子中有

在停用词列表中的词语，那么将这个词删去。主要步骤如下：

1. 将 2.1 中的爬虫数据按行读入，存在一个 list 中；

2. 创建一个新的临时空字符串，将 list 中的每条文本与停用词列表比较，如果该词不是停用词，那么将此词语添

加到创建的临时字符串中，检查完一条文本后，将此临时字符串输出为清洗后的文本数据。

3. 输出经过清洗的所有文本数据，形式为 txt 文件。

部分清洗结果如图所示：

生产实习 设计文档1

评论0

控制测量生产设计实习二等水准测量技术设计书

生产实习报告(java).doc

模具设计与制造专业生产实习大纲.doc

生产实习文档

燃料乙醇生产工艺设计认识实习报告.doc

计算机实习报告(1).docx

w0j生产实习报告 单片机的电子钟设计报告.doc

沈阳化工大学化学工程及工艺设计专业生产实习报告.doc

沈阳化工大学化学工程施工及工艺设计专业生产实习报告.doc

西工大计算机实习报告.doc

校园网图书管理系统毕业设计文档

2020年程序员实习报告.doc

(第三稿)生产性实习实训基地建设方案设计.doc

单片机焊接实习报告1.doc

ARM实习报告感想.doc

通信专业实习报告(1).doc

生产实习报告-综合布线实训报告.doc

电气自动化实习报告.docx

微软的实习报告.docx

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

软件工程导论(第六版)课后习题答案1

最新资源

生产实习设计文档1

w0j生产实习报告单片机的电子钟设计报告.doc