没有合适的资源?快使用搜索试试~ 我知道了~
Spark框架下均值漂移算法对舆情聚类的分析.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 97 浏览量
2022-06-24
13:45:49
上传
评论
收藏 451KB DOCX 举报
温馨提示
试读
10页
Spark框架下均值漂移算法对舆情聚类的分析.docx
资源推荐
资源详情
资源评论
引言
网络舆情潜移默化地影响着社会发展和人们的日常生活,由于其具有快捷性、开放性、突发性和隐蔽
性的传播特点,加强舆情分析、监测和研判能力对于打造健康的网络环境具有重要意义。
在舆情分析监测中,使用聚类分析技术可以快速发现舆论热点并预测其发展趋势,有效辅助舆情决策 。
聚类是将物理或抽象对象的集合分类成由类似对象组成的多个簇的过程
[
]
。根据舆情信息的特征对舆
情数据集进行聚类分析,使得同类舆情数据对象置于同一簇中,可揭示数据之间的内在关联,发掘其
潜在规律与应用价值。
相关研究
近年来,许多类型的聚类分析算法与大数据处理技术相结合,被应用于文本分析研究中,如高维多视
图智能聚类算法
[
]
、并行 文本聚类算法
[
]
、矩阵优化与数据降维的文本聚类算法
[
]
等。
作为目前主流的大数据处理分析框架,采用内存计算模式,结合大数据查询分析计算(
) 、流 式计算( )、机器 学习( ) 和
等 多 种 计 算 范 式 , 同 时 使 用 弹 性 分 布 式 数 据 集 ( !
, )和有向无环图("#"$"",#)的抽象计算流程,极大提升
了机器学习和数据挖掘的计算性能
[
%
]
。目前,基于 框架的聚类分析研究有很多,例如何倩等
[
&
]
基于 框架实现并行计算,设计了一种海量数据快速聚类算法;刘鹏等
[
'
]
设计了 框架
下的 并行聚类算法; 等
[
(
]
基于 框架下的聚类算法研究了民族文化资源分类;
)*! 等
[
+
]
利用 ,- 算法结合 框架优化了新闻主题聚类方法; 等
[
]
利用
聚类算法结合 框架分析了高校学生大数据信息; * 等
[
]
对现有基于 框架的并行聚
类算法进行了分类和总结;于苹苹等
[
]
针对文本分类算法计算量大、处理速度慢的问题,优化了基
于 框架的 近邻算法;徐宁等
[
]
提出基于 并行预处理的方法分析配电网大数据。
然而,传统 聚类算法需要事先设定类别数量 值,聚类结果受 值影响较大。均值漂移
(.)算法无需指定聚类数目,是无参密度估计算法,其根据数据概率密度不断移动均值
质心,最终将聚类中心漂移到该簇类样本点集合的高密度区域
[
]
。 文献[%]详细分析了
框架的特性和 . 算法的原理,并阐述了该算法在 框架中的并行化实现原理。本文基
于文献[%]的研究结果,将大量舆情信息数据集储存在分布式文件系统 / 上,通过 #0 中文
分词库对其进行分词,然后采用 中的 1*2" 算法抽取分词后的舆情信息特征,最
后利用 框架并行计算模型和 . 算法原理对舆情信息的特征数据集进行聚类,以获取
舆情信息聚类结果。
舆情聚类流程与关键技术
3 舆情聚类流程
舆情信息聚类主要根据同类文档相似度较大、不同类文档相似度较小的假设,将一系列舆情信息分为
若干个簇
[
&
]
,是一种无监督机器学习方法,无需训练过程和预先类别标注,具有较强的灵活性和自
动化处理能力,是分析舆情信息的有效手段。舆情信息的聚类流程包括信息预处理、特征提取和聚类
分析 个阶段,具体如图 所示。
资源评论
罗伯特之技术屋
- 粉丝: 3643
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功