Python 基于 KMeans 算法进行文本聚类项目实战
1.项目背景
随着计算机技术的发展、Web 应用的逐步普及,大量的电子文本已经触手可
及,文本数据的增多引发了另一个问题:人们如何从规模庞大的文本数据中主动
或被动地发现有用的信息。这是信息检索中的问题,也是深层次文本内容挖掘和
分析中的问题。文本聚类分析是文本挖掘中一个方面的内容,主要应用于加速检
索过程、对搜索引擎检索结果聚类呈现、话题的自动发现、文本摘要等。
文本聚类分析在信息检索(IR,Information Retrieval)领域有相当长的研
究历史,近年来在文本数据上的聚类分析研究和应用越来越受到关注。文本聚类
过程本质上就是将语义相同或者相近的文本聚在一起。
聚类与分类是人们认识自然、获取知识的两种手段。“物以类聚,人以群分”,
人类往往依赖聚类和分类手段来认识客观世界并形成概念体系。比如自然界中的
猴子就是一群具有长尾巴、会爬树等特征的生物,人们依据这些特征来识别和研
究猴子,这是一个分类过程。但这些特征从何而来?这些特征往往是通过这些生
物之间自身的相似性以及他们与其他事物之间的差异性得到的,这个过程就是一
个聚类分析的过程。从众多的事物中自动地获取特征形成概念,其本质上就是一
种聚类分析过程。
2.数据获取
本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:
数据详情如下(部分展示):
编号
字段
备注
1
title
标题
2
tag
标签
3
info
信息
4
comments
评论
5
content
内容
部分数据展示:
- 1
- 2
- 3
- 4
- 5
- 6
前往页