论文研究-基于SOM聚类的微博话题发现.pdf

所需积分/C币:18 2019-07-22 22:06:12 1.18MB .PDF
48
收藏 收藏
举报

随着微博用户的增多,微博平台的信息更新频繁。针对微博文本的数据稀疏性、新词多、用语不规范等特点,提出了基于SOM聚类的微博话题发现方法。从原始语料中对文本进行预处理,通过词向量模型对短文本进行特征提取,降低了向量维度过高带来的计算量繁重问题。采用改进的SOM对话题进行聚类,该算法改善了传统文本聚类的不足,进而能有效地发现话题。实验表明该算法较传统文本聚类算法的综合指标F值有明显提高。
第3期 宋莉嫏,等:基亍SOM聚类的微博话题发现 673 数据冗余。其结构如图3所示。 元模型进行输入神经元的选择;相反,如果采用极小值原理选 择的输入神经元能使SOM聚类的聚类半径或者权值为发生改 变,则采用极小值原理选择的输入神经元 如果两种方法均能使粲类半径发生改变,本文取变化较大 的方法进行输入神经元的选择;如果两种方法均不能使聚类半 输人层 过流层 输出层 图3改进的SOM组织结构 径发生改变,本文取能够与获胜神经元相似度最大的输入神经 方法。 在SOM屮,每个神经元对应一个与输入向量有相同维度 SOM算法的具体描述如下 的权重向量,根据神经元的输入节点找到获胜节点,根据这两 )在输入层上选择初始聚点作为初始输入节点 个节点计算出获神经元的邻域。神经元的这种相邻关系反 陕了低维度中的空间聚类结构。根据学习率和输入神经元的产生。 b)给输入节点i到输出节点赋一个初始权值,由随机函数 值,sOM能够自动调整输岀神经元的加权向星,这样便能够使 c)反复计算输入节点到所有输出节点之间的距离,找出 神经元之间的加权向量更加接近。但是由于输入神经元的初最小值d,该距离通常称为欧氏距离该输出节点称为获胜节 始向量值不同,从而使输岀神经元之冋具有不同的权重向量。 点i。其计算公式为 近年來基于SOM聚类方法的改进层出不穷,改进的宗旨主要 ‖xn-v (6) 集中在网络拓扑和权重更新上。月前对SOM进行改进的方法其中x是输入向量,w是节点i的权重向量。 主要有两种思路:种是修改网络的神经元模型以适应复杂的 d)更新输出节点i的权值,更新权值的公式为 数据结构4;另一种是将复杂的结构数据分成两个分量,然后 g(t+1)=;(t)+g;(1)(x;(t)-g(t)) 对分离分量进行基于SOM的聚类分析。本文认为基于神其中()为获胜神经元的权值;(t+1)为更新的神经元权 经拓扑距高的权重更新用于这种复杂的输入数据会导致数据值:g(1)是邻域函数,其计算公式为 计算冗余增大。例如,文本字符串之间的编辑距离可用于区分 邻域,但是这样会得到新的权重致使权重方程进行不断的更 g1*(1)=a(:)×e22 新加大了订算量。由文献(16可知,大量的神经细胞可以在其中;代表获胜节点的位置;代表神经网络上邻城节点了的 高维状态空产生复杂的网络行为,神经网络的神经活动对初位置;a(1)是时刻的邻域半径是一个随着时间增加而变化 始值的依赖性很强,这种依赖性的原理涉及到一种最小化的函的趣减函数,其计算公式为 数取值,然而很难找到一种适用于全局化最优的最小值方法。 a(t)=a(0)×(1-y)a(0)∈(0,1) 因此,需要·种求解局部最小值的方法,以减少这种依赖性。 e)重复步骤c)d),直到输入样本为最后一个样本。 为了解决以上问题,本文采用极小值法对SOM网络聚类的初 f)算法结束。 始输入向量进行选择。由于聚类过程中具有相同极小值的两 篇文章有可能不属于同一类,所以可采用极小值法寻找初始的2实验设计分析 输人向量。初始的输入文本向量选择原理是:首先选择sim值 最小的两个向量d和d作为初始输入向量,剩下的输入文本2.1实验预料准备 向呈选择依据式(5)作为选择。 为体现SOM聚类的实验效果,实验总体设计分为以下三 d, 5px cos(d, d,)) (5)个部分:a)实验数据准备工作:b)相似度系数p不同取值的设 定实验;o)为验证SOM聚类冇微博话题发现中具有较好的效 式(5)表示训练集中已经选择了m个输入向量。其中 果,本文分别将文献[18]基于LDA+ K-means的聚类方法与文 an,表示第m+1个输人向量的选择方式;S代表已经选择过献[19]提出的词向量+ single-Pass类方法进行对比实验。 的向量;an为已经选择过的向量;d表示没有选择过的向量。 本文采用网络爬虫方法爬取微博相关数据,对所爬取的博 文献[17]认为RBF神经元模犁具有局部性和高度非线性文进行预处理,包括去停用词、去噪、去除无关符号等处理。由 等特征,这些特性使RBF型神经元模型可以与无监督的聚类文献[6]可知,采用7CA系统分词精度非常高,并且能够 方法组合,使得自组织网络聚类效果更加理想。在自组织聚类自动对词性进行标注。由于动词和名词对主题表达的贡献率 方法中需要通过计算神经的初始权重向量与输入向星之间最大20,所以只保留名词和动词作为特征词。由文献[5]可 的距离来找到最佳匹配神经元,从而更新权重。当使用RBF知,一个话题的发展历程必然要经历三个阶段,即上升、稳定和 型神经元模型时,最佳匹配神经元被简单地定义为具有最大激下降的过程。本文对2016年8月10~15号的微博进行爬虫, 活的神经元。从这个角度来看,大量的HH神经元可被认为获取多于300条的博文数量。随机抽出6个话题共6778 是输入数据的特征表示。因此,本文选择以RBF神经元模型条微博进行研究,抽取的微博话题和数量如表2所示 与极小值原理相结合的方法选择符合条件的神经元诖行聚类 2.2实验评价标准 相结合的原理如下 a)依据极小值原理诜择初识神绎元。 为了方便与相关研究进行实验对比,本文采用召回率R、 b)第二个以及以后的神经元的选择有两种: 查准率PF- Measure作为实验的评价指标,计算公式分别为 如果采用极小值原理选择的输入神经元不能使SOM聚类 召回率: R= (10) n, t n 的聚类半径或者权值为发生改变,而采用RBF神经元模型选 择的输入神经元时聚类半径发生了改变,本文选择RBF神经 查准率 (11 674 计算机应用研究 第35卷 综合指标: 2×RP F R+P (12)图6可以看出,采用基于SOM神经网络聚类的微博话题发现 方法效果优于其他两种方法,该方法较LDA+K- means方法的 其中:n,表示与已检测到的与初始话题i相关的文档数;n,表 综合指标值高约10.1%,较词向量+ Single-pass方法的综合 示没有检测出但与初始话题i相关的文档数;n1表示检测出的指标F值高约2.3% 与初始话题i不相关的文档数。 表2实验语料 0.85 ▲词句量+SM 0.75 序号 话题 数量‖序号 话题 数量 1仙英座流星雨29 王宝强离婚 0.65 0.55 0.7 洪荒之力 1892‖5 里约奥运会1952 使徒行者 青岛啤酒节 主题数 2.3SOM神经网络聚类算法的实验结果 图4不同主题数的实验对比图5话题杳准率的对比实驗 2.3.1相似庋系数p的取值 C.9 输出的神经元向量与平均输出向量之间存在一定的误差, C.8 C.7 其误差公式为 E0=∑‖X-X‖ (13 量+Sige-Pass 其中:κ表示输人向量的平均值;X表示活动的神经元的向量 C.2 C.1 值。本文通过对比实验初始误差c与调整后的误差ε的差值 查准率查全率综合指标F 大小来确定相似度系数ρ的取值,实验结果如表3所示。 图6三和方法的对比实验 表3相似度系数ρ的取值不同时误差的差值变化 3结束语 0.0021 0.00l7 0.0013 0.0011 本文提出的基于SOM聚类的微博话题发现方法,针对微 0.15 0.0014 博的数摒稀疏性、用语不规范、新词岀现频繁等特点,采用词向 由表3叮知,当p的取值太大或者太小时,实验初始误差量模型进行文本特征提取,减少了向量维数过高带来的计算量 与调整后的误差e的差值都比p取0.2时要大,达不到误差繁重问题;.用改进的SOM进行话题聚类,通过对初始输入向 修正的目的,从而影响聚类效果。因此,为了减小实验误差,p量的选择,提高了聚类的精度。后续工作是研究如何更好地改 的取值应为0.2。 进算法质量来减少算法复杂度 由于微博文本自身的数据稀疏性,提供的信息量较少,所参考文献: 以LDA+ K-means模型的主题数不同会对文本聚类造成不同[1 Wang Yuan, Liu jic, Huang Yalou,dta. Using hash tag graph 的实验结果。本文对不同主题数设置实验对比,其实验结果如 based topic model to connect semantically-related words without co-oc 图4所示。图4所小为不同主题数的查准率、查全率和综合指 currence in microblogs [J]. IEEE Trans on Knowledge and Data 标F值的变化。由图4可以看出,当主题数不一样时,查准率 Engineering,2016,28(7):1919-1933 査全率和综合指标F的值也不相同,但能稳定在定的区间[2]贺敏,三丽宏,杜攀,等基于有意义串聚类的微博热点活题发 内。通过实验对比结果可看出,当LDA的话题数为100时整 现方法[J].通信学报,2013,34(z1):256-262 体性能最好,因此,LDA+ K-means模型的主题数采用100*进3贺亮,李芳,基于话题模型的科技文献话题发现和趋分析 行实验。 [J].中文信息学报,2012,26(2):109-115 2.3.2改进的SOM的聚实验结果 [4]徐佳俊,杨飏,姚天昉,等.基于LDA模型的论坛热点话题识别 本文对基于sOM聚类的微博话题发现方法进行实验。首 和追踪[J].中文信息学报,2016,30(1):43-49 [5]刘星星,何婷婷,龚海军,等.网络热点事件发现系统的设计 先对微博文本进行爬虫,然后对文档进行预处理,包括去噪、去 [J].中文信息学报,2008,22(6):80-85 停用词以及去除无关符号等处理。采用 CTCLAS系统对进行[6]格桑多吉,乔少杰,韩耥,等.基于 Single-!ae的网落與情法点 过预处埋的文档进行分词,并对词性进行标注。将处埋过的实 发现算法[冂].电子科技大学学报,2015,44(4):599-604 验语料进行SOM神经网络聚类,并分别与LDA+K- means方[7]杨菲,黄伯雄.词共现网络的遗传算法在治题发现中的应用 法、词共现网络+ Single-Pass方法进行对比,其实验结果如图 [J].计算机工程与软件,2013,49{14):126-129 5、6所示。图5所示为实验语料使用三种方法进行査准率的[8]于洁.sGr;m模型融合词向量投影的微博新词发现[冂].计 对比实验。从图5中可以看出,采用词向量的方法进行实验的 算机系统应月,2016,25(7):130-136 效果明显优于LDA模型,由于词向量可以解次向量维度过高9]刘铭,刘权,刘远超,面向信息检索的快速聚美算法[计 问题,不会因为话题数量的多少而使准确率发生太大的变化。 算机研究与发展,2013,50(7):1452-1463 本文采用改进的SOM网络对实验语料进行聚类的效果优于「101方廷风,陈健.基于词向量距尚的相关词变迁研究—一以《情报 K- means和 Single-Pass方法,原因是K- means进行聚类吋需指 探索》杂志摘要为例冂.情报探索,2015(4):5-7,10 定聚类中心,而 Single-Pas方法进行聚类时则会受到文档输入 [11]郭胜国,郭丹丹.基于词向量的句子相似度计算及其应用研究 J.现代电子技术,2016,38(13):99-107 顺序的影响。改进的SOM聚类时除了不受以上两和问题的干121] Zhao jingling, hang Huiyun, Cui Baojiang. Sentence similarity based 扰之外,还由于输入层后面的过滤层直接去掉了不符合要求的 on semantic vector model[ Cl//Proc of the 9th International Confer 文档,提高了聚类准确度。图6所示为实验语料采用三种方法 ence on P2P, Parallel, Grill, Cloud and Inlernel Compul iny. 2014 进行平均值査准率、査全率和综合指标F值的对比实验。由 499-503. (下转第679页) 第3期 王波,等:自适应布谷鸟搜索的并行 K-mcans聚类算法 679 参考文献 (10) 1 Han Jiawci, Kambcr M, Pci Jian, et al. Data mining concepts and 其中:N表示实验次数,本文N取10;T表示每次独立实验所 techniqucs [ M]. 3rd ed. San Francisco: Morgan Aumann 451-456 消耗的时间,为方便获取,本文直接以程序执行时间来表示。「21汪中,刘黄全,陈恩红,一种优化初始中心点的 K-means算法(J 各类算法平均执行时间如表4所示。 模式识别与人工智能,2009,22(2):299-304. 表410次实验各类算法平均执行时间 [3]李春生,王耀南.聚类屮心初始化的新方法[J].控制理论与应用, 数据集原始 K-means原始Km,文献[6]文献[19 201027(10):1435-1440 串行算法并行算法 PSO-Kmeans ACS-Kmeans本文算法 [4]陶新民,徐晶,杨立袛,等.一种改进的粒子群和K-均值泥合聚类 并行算法串行算法 算法[J].电子与信息学报,2010,32(1):92-97 27.92 ABCDE [5 L. Bin, Ju Fangyuan. An optimized genel ie K-means cluslering algo rilhIn C//Pror of Inlernalinnal Conference on Compuler Sciene:e and 1325.12 782.23 1252.34 Information Processing. Piscataway: IEEE Press, 2012: 1296-1299 2892.561428.311203.712366.381138.33 N/A 9721.667892.76NA7523.9[6」马汉达,郝晓宇,马仁庆.基于Ⅲacop的并行 PSO-Kmeans算法实 现Wb日志挖菰[冂].计算机科学,2015,42(s1):470-473 由表4可知,对于五组样本数递增的随机数据集,当样本[7] Yang Xinshe,Dbs. Cuckoo scarch via Levy flights[C]/Peof 数较少时, Hadoop分布式平台的并行算法处理效率比单机串 World Congress on Nature Biologically Inspired Computing. 2009 行算法效率低;但当样本数增多时, Hadoop分布式平台的并行 210-214 处理效率逐渐高于单机串行算法,特别是对于数据集E,串行 「8郑洪清,周永权.一种自适应步长布谷鸟搜索算法「J.计算机工 程与应用,2013,49(10):68-71 算法的处理效率过低,程序已不能在本次实验机器上正常执行[91 Raveendra. dE based job scheduling in grid enviroments I].Jur- (内存溢出),这是由于样本较少时, Hadoop分布式平台需要不 nal of Computer Networks, 2013, 1(2 ): 28-31 断地读写和传输数据占用较多时间,实际计算时间占比较10]陈后,龙文求解工程结构优化问题的改进布谷乌搜索算法[J 小,而单机的中行算法不需要与其他机器交互所以效率更 计算机应用研究,2014,31(3):679-683 [11 Fisler L, Yang Xinshe, Fisler D, el (l. Cuckoo search: a brief litera 高;但当样本数量达到一定规模时,单机系统资源有限,所以串 ture review[ M]//Cuckoo Search and Firefly Algorithm, Volume 516 行算法执行时间很长,而 Hadoop分布式平台并行处理由于可 of the Series Studlies in Computational Intelligence. Berlin: Springer 利用的资源吏多所以效率表现更好。并且与文献[6]中提出 Verlag,2013:49-6 的P(- Kmeans并行算法相比,在数据量较大吋本文算法执行 12] Yang Xinshe, Dcb S Cuckoo scarch: recent advances and applications T J. Neural Computing and Applications, 2014, 24(1): 169-174 耗时更少。 「13]欧阳喆,周永权.自适应步长萤火虫仇亿算法「J.计算机应用 01131(7):1804-180 4结束语 [14 White T. Hadoop the definitive guide[M]. 4th ed. Sebastopol O Reilly Media, 2015: 3-1 本文提出了一种基于自适应布谷鸟搜索的并行K-meas[15] Ghemawat S, Gobioff H, Leung s t. The Google file system[C]∥ 聚类算法,解决了原始K-eas棗类算法全局搜索能力差,以 Proc of the 19th ACM Symposium on Operating Systems Principles 及在样本数据量较大吋单机串行环境下效率低等问题。通过 2003:19-43. [16 Dean J, ghe lilied dala p 在 I ladoo分布式计算平台上进行实验对比分析,结果表明相 clusters[ C]//Proc of Conference on Symposium on Opearting Systems 对于原始Kτ means算法和基于粒了群优化算法的K- means算 Design Implementation. 2004: 107-113 法本文改进算法的聚类准确性和大数据情景下的执行效率均17] Chang h, Dean J, Ghemawat,ctnt. Bigtable: a distributed storag 有所提高。但本文研究也存在·些局限性,样本数据间仅考虑 systcm for structured data[ C//Proc of USENIX Symposium rating Systems Design and Implementation. [S 1.1: USENIX Associ 了欧氏距离作为 K-means聚类算法的测度,未考虑集群节点数 ation,2006:15 量对算法效率的影响,初始聚类屮心釆用随机获取的方式会影[18]喻金平,郑杰,梅宏标,基于改进人二蜂群算法的K-均值聚类算 响算法的稳定性,算法还有优化的空间。总体来说,布谷鸟搜 法[J].计算机应用,2014,34(4):1065-1069,1088 索算法作为一种新的元启发式徉体智能与仿生算法,不仅叮以[19]杨辉华,王克,李灵巧,等.基于自适应布谷鸟搜索算法的K- means 聚类算法及其应用[J].计算机应月,2016,36(8):20662070 运用于 K-means聚类算法的改进,而且为如何从海量数据中快[20]周婷,张君瑛,罗成。共于Hap的Kmem聚类算法的实现 速准确地发现有用信息提供了一种新的研究思路。 J].计算机技术与发展,2013,23(7):18-20 (上接笫674页) ervoir computing model for visual object recognition[ C 1//Proc of In [13]刘芳.基于SOM聚类的可视化方法及应用研究[J].计算杌应用 ternational Joint Conference on Neural Networks. 2016: 1325-1332 开究,2012,29(4):1300-1303,1306 18 Qiu Lin, Xu Jungang. A Chinese word clustering method using latent 14 Gartner T. A survey of kernrls for structured data[ J]. ACM SIGK- dirichlet allocation and K-means [C//Proc of the 2nd International DD Explorations Newsletter, 2003, 5(1): 49-58 Conference on Advances in Computer Science and Engineering 15]Hammer B, Micheli A, Sperduti A, et al. Recursive self-organizing 2013:267-270 network models[J]. Neural Networks, 2004, 17(8): 1061-1085 L19 Yan Danfeng, Ilua Enzheng, Ilu Bo. An improved single-pass algo- I 16 Tsutsumi K, Nakajima K. Maximum/minimum detection by a mo- rithm for Chinese microblog topic detection and tracking [C//P dule-based neural nel werk with redundan arehilerlure[C|//Pror: nf of IEee Iulerralional corgress on big dala. 2016. 251-258 International Joint Confcrcncc on Neural丶 cworks.I909:58-561.[20]郑飞,张蕾.基于分癸的中文微博热点话题发现方法研究[C]/ 17 Deng Zhidong, Mao Chengzhi, Chen Xiong. Deep self-organizing res 笫29次全国计算杌安全学术交流会论文集.2014:311-314.

...展开详情
试读 5P 论文研究-基于SOM聚类的微博话题发现.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于SOM聚类的微博话题发现.pdf 18积分/C币 立即下载
1/5
论文研究-基于SOM聚类的微博话题发现.pdf第1页

试读结束, 可继续读1页

18积分/C币 立即下载