<html dir="ltr"><head><title></title></head><body>为解决数据流聚类中的“链式数据”问题以及文本数据流存在的高维、稀疏、多主题问题, 以Squeezer 聚类<br>算法为基础, 重新定义了聚类过程中类的质心、半径和判别距离. 提出了一种改进算法, 通过加入数据预处理环节来<br>提高聚类精度, 通过投影聚类提高聚类效率并为簇赋予语义. 最后通过在互联网新闻语料的聚类实验, 表明了所提出<br>的算法能够以较小的速度代价换来聚类效果的大幅提升, 性能显著优于Squeezer 算法.</body></html>