【免费】K-means算法是输入聚类个数k，以及包含n个数据对象的数据库，输出满足方差最小标准k个聚类的一种算法

共10个文件

py：3个

csv：2个

md：2个

聚类算法

需积分: 0 27 浏览量 2023-02-08 13:20:45 上传评论收藏 4.57MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

text-cluster-master.zip （10个子文件）

text-cluster-master

assets

result.png 18KB

main.py 4KB

data

36kr_articles.csv 10.44MB

stop_words.txt 15KB

spider.py 3KB

36kr.csv 713KB

doc2vec-sim.py 4KB

Doc2vec and Kmeans.md 597B

.gitignore 68B

README.md 3KB

# text-cluster 文本聚类 ## K-means K-means算法是输入聚类个数k，以及包含 n个数据对象的数据库，输出满足方差最小标准k个聚类的一种算法。 **基本流程：** - 步骤1：从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类； - 步骤2：再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）； - 步骤3：不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。算法的时间复杂度上界为O(n\*k\*t), 其中t是迭代次数。 k-means算法是一种基于样本间相似性度量的间接聚类方法，属于非监督学习方法。此算法以k为参数，把n 个对象分为k个簇，以使簇内具有较高的相似度，而且簇间的相似度较低。 ## 中心点的个数从3到80对应的误差值的曲线 ![](https://github.com/yanqiangmiffy/text-cluster/blob/master/assets/result.png) ## 10个簇的数据集的个数 ```text Cluster distribution: {3: 133, 9: 93, 1: 131, 4: 497, 5: 328, 6: 263, 8: 78, 2: 46, 0: 164, 7: 67} ``` ## 10个类的tfidf标签结果 ```text Top terms per cluster: Cluster 0 工作人类时间学习事情员工研究生活团队能力 Cluster 1 区块货币比特加密星球数字交易所交易项目技术 Cluster 2 公寓房租长租租金租赁租房房源上涨北京资本 Cluster 3 手机苹果三星小米华为科技智能手机厂商发布推出 Cluster 4 中国特斯拉电影美国明星马斯克谷歌科技产品攻略 Cluster 5 融资投资企业中国教育服务平台行业产品亿美元 Cluster 6 用户品牌平台内容产品视频电商社交程序消费 Cluster 7 城市房价上海房地产房子北京上涨经济一线数据 Cluster 8 汽车驾驶自动特斯拉生产技术中国未来亿美元苹果 Cluster 9 腾讯游戏用户玩家中国内容娱乐视频平台世界 ``` ## 评分 ```text 0.8191335472911944 ``` ## 说明代码大部分来自这篇文章：[K-means算法及文本聚类实践](https://blog.csdn.net/havedream_one/article/details/45146829),只是没有数据集，然后自己手撕写了个36kr文章的爬虫的程序。φ(>ω<*)

评论收藏

内容反馈