基于基于K-means的私人微博聚类算法改进的私人微博聚类算法改进
针对私人微博内容进行聚类研究,结合私人微博的内容和结构特点提出了基于K-means的改进聚类算法。通过
添加引用和评论内容丰富了文本内容,降低了短文本矩阵向量严重稀疏性带来的聚类算法准确性降低的影响;
通过甄别“微话题”内容和改进相似度的计算,找到初始化类别并进行初步计算得到合适的类别数目和初始中心
点,解决了K-means算法中聚类数目K需人工指定和初始中心点选取随机性的问题。实验结果表明,改进后的算
法不仅可以自适应地得到K值,较普通的K-means算法在聚类的准确率上有所提高。
摘摘 要要: 针对
关键词关键词: K-means算法;私人微博;初始中心点;自适应
作为Web2.0时代新兴起的一类开放式互联网应用,微博是一种非正式的迷你型博客。据CNNIC(中国互联网信息中心)
发布的数据显示,截至2013年6月底,我国的微博用户已达3.31亿,网民的微博用户比例达到了56.0%,用户每日发布的博文
数多达1亿条。与传统社会媒体相比,微博的发展态势强劲,已成为人们生活中不可或缺的一部分[1]。针对微博的研究是目前
的一大热点,微博不完全同于已有的短文本,它具有简短、实时性及社会性等特征。目前国内大量关于微博的研究都着眼于公
共微博,如从公共微博中挖掘热点事件发现[2]、意见领袖识别、网络内容检测、网络舆情检测等[3]。本文针对私人微博,通
过改进文本信息处理中使用到的聚类方法,对私人微博的内容进行整理和挖掘。对本人微博来说,可以对自己的微博历史内容
整理归类,使得历史数据清晰可用;对他人而言,可以更清楚快速地了解他人微博的整体内容,挑选出自己感兴趣的信息;同
时,也为公共微博的研究提供了支持,可以进一步应用于内容特征、用户兴趣分析和新兴话题检测等。这些功能对于数据量庞
大的微博应用是很有实际意义的。聚类是一种无指导的机器学习方法,在数据挖掘领域中非常活跃,应用非常广泛。它基
于“物以类聚”的原理,按照相似性把个体归为若干类别,使得同一类别差异尽可能小,不同类别差异尽可能大。其中K-means
算法是目前应用最广泛的基于划分的聚类方法。本文的主要工作就是对常用的K-means算法进行改进,使之适应于私人微博文
本。
1 私人微博文本特性分析及相关工作私人微博文本特性分析及相关工作
1.1 私人微博文本特性分析
微博是一种半结构化的数据,不同于其他形式的短文本,微博文本本身就隐含了大量有价值的信息。例如采用新浪微博开
放平台API,除了能够获取一条微博文本内容之外,同时还可以得到21条相关的其他信息。通过对大量个人微博纵向观察,总
结出私人微博的鲜明特性:(1)文本长度短小,限定在140字内,信息量较少;(2)微博文本具有较强的时效性,内容与时间联
系紧密;(3)一个人对某事件的态度和观点基本是一贯而连续的,但是兴趣点的转移却是很快的,这使得文本聚类分析变得复
杂;(4)微博数据分布不平衡,符合相关研究人员提出的文本“长尾现象”;(5)微博结构中含有一些对内容非常重要的补充和提
示,例如微博文本内容中两个“#”之间代表的是“微话题”,表示当前讨论的主题;微博文本内容中“@”符号后面的称谓表示了当
前对话的微博账号;某条微博与其转发或者评论的微博内容上有着紧密的联系;微博转发量、评论量、点赞量这些量化了的数
字提示了微博内容的流行程度及重要程度。
在文本挖掘领域中,与传统文本相比,短文本具有信息量小的缺点,这使得在数学化表示文本内容时,短文本会产生矩阵
向量严重稀疏的问题。但是,微博与其他传统媒体的短文本相比隐含了大量有用的信息,为进行聚类研究提供了可以利用的条
件,使得更有利于进行处理。正是在微博内容和结构上的特点的基础上,本文提出了基于K-means的改进聚类算法。
1.2 相关工作
通常进行文本聚类算法之前,需要经过几个典型步骤:文本表示、特征选择、相似度计算等。文本聚类需要建立文本模
型,将文本转化成数据格式。文本模型反映了数据的关系,并在此基础上采用文本相似度的计算方法,最后采用聚类算法形成
聚簇。
1.2.1 文本表示和特征选择
本文在文本表示上采用了典型的向量空间模型VSM(Vector Space Model)[4],并结合私人微博特点,采取形成伪文档的方
法。微博内容往往与所评论和引用的微博紧密相关,所以把评论内容和引用内容归并到正文内容中,形成伪文档,这样部分解
决了矩阵向量严重稀疏性的问题。如对某用户新浪微博2013年2月14日~2013年6月7日内共492条微博内容进行整理,如表1
所示。
可以看到,微博内容增加了一倍多,字数特别少影响到语义的文本数目大大减少。
然后进行分词预处理,本文采用中科院的汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese
Lexical Analysis System)进行分词。特征选择上采用应用最为广泛的TFIDF(Term FreqencyInverse Document Frequ-
ency)方法[5]。
1.2.2 相似度计算