没有合适的资源?快使用搜索试试~ 我知道了~
基于云计算平台Hadoop的并行k_means聚类算法设计研究_赵卫中1
需积分: 0 0 下载量 132 浏览量
2022-08-04
14:05:26
上传
评论
收藏 347KB PDF 举报
温馨提示
试读
4页
摘要随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等。深入研
资源详情
资源评论
资源推荐
第
38
卷
第
10
期
2011
年
10
月
计 算 机 科 学
Com
p
uter
Science
Vol.38No.10
Oct
2011
到稿日期
:
2010
-
11
-
01
返修日期
:
2011
-
03
-
21
本文受国家自然科学基金
(
60933004
,
60975039
,
61072085
),
国家
973
项目
(
2007CB311004
),
西北师范大学青年教师科研能力提升计划骨干项目
(
NWNU
-
LKQN
-
10
-
1
),
湘潭大学博士启动基金
(
10QDZ42
),
湖 南 省 教 育 厅 一 般 项 目
(
09C967
)
资助
。
赵卫中
(
1981-
),
男
,
博士
,
讲师
,
主要研究领域为机器学习
、
数据挖掘
、
算法分析 与 设计
,
E
-
mail
:
zhaoweizhon
g
@
g
mail.com
;
马慧 芳
(
1981-
),
女
,
博士
,
副教授
,
主要研究领域为机器学习
、
数据挖掘
;
傅燕翔
(
1979-
),
女
,
讲师
,
主要研究领域为人机界面交互
;
史忠植
(
1941-
),
男
,
研究员
,
博士生导师
,
主要研究领域为人工智能
、
机器学习
、
神经计算
、
认知科学
。
基于云计算平台
Hadoo
p
的并行
k
-
means
聚类算法设计研究
赵卫中
1
,
4
马慧芳
2
,
4
傅燕翔
3
史忠植
4
(
湘潭大学信息工程学院
湘潭
411105
)
1
(
西北师范大学数学与信息科学学院
兰州
730070
)
2
(
湘潭大学机械工程学院
湘潭
411105
)
3
(
中国科学院计算技术研究所智能信息处理重点实验室
北京
100190
)
4
摘
要
随着数据库技术的发展和
Internet
的迅速普及
,
实际应用中需要处理的数据量急剧地增长
,
致聚类研究面临
许多新的问题和挑战
,
如海量数据和新的计算环境等
。
深入研究了基于云计算平台
Hadoo
p
的并行
k
-
means
聚类算
法
,
给出了算法设计的方法和策略
。
在多个不同大小数据集上的实验表明
,
设计的并行聚类算法具有优良的加速比
、
扩展率和数据伸缩率等性能
,
适合用于海量数据的分析和挖掘
。
关键词
云计算
,
Hadoo
p
平台
,
并行
k
-
means
,
Ma
p
Reduce
Research
on
Parallel
k
-
means
Al
g
orithm
Desi
g
n
Based
on
Hadoo
p
Platform
ZHAO
Wei
-
zhon
g
1
,
4
MA
Hui
-
fan
g
2
,
4
FU
Yan
-
xian
g
3
SHI
Zhon
g
-
zhi
4
(
Colle
g
e
of
Information
En
g
ineerin
g
,
Xian
g
tan
Universit
y
,
Xian
g
tan
411105
,
China
)
1
(
Colle
g
e
of
Mathematics
and
Information
,
Northwest
Normal
Universit
y
,
Lanzhou
730070
,
China
)
2
(
Colle
g
e
of
Mechanical
En
g
ineerin
g
,
Xian
g
tan
Universit
y
,
Xian
g
tan
411105
,
China
)
3
(
Ke
y
Laborator
y
of
Intelli
g
ent
Information
Processin
g
,
Institute
of
Com
p
utin
g
Technolo
gy
,
Chinese
Academ
y
of
Sciences
,
Bei
j
in
g
100190
,
China
)
4
Abstract
In
the
p
ast
decades
,
data
clusterin
g
has
been
studied
extensivel
y
and
a
mass
of
methods
and
theories
have
been
achieved.However
,
with
the
develo
p
ment
of
database
and
p
o
p
ularit
y
of
Internet
,
a
lot
of
new
challen
g
es
such
as
massive
data
and
new
com
p
utin
g
environment
lie
in
the
research
on
data
clusterin
g
.We
conducted
a
dee
p
research
on
p
arallel
k
-
means
al
g
orithm
based
on
Hadoo
p
,
which
is
a
new
cloud
com
p
utin
g
p
latform.We
showed
how
to
desi
g
n
p
aral
-
lel
k
-
means
al
g
orithms
on
Hadoo
p
.Ex
p
eriments
on
different
size
of
datasets
demonstrate
that
our
p
ro
p
osed
al
g
orithm
shows
g
ood
p
erformance
on
s
p
eedu
p
,
scaleu
p
and
sizeu
p
.Thus
it
fits
to
data
clusterin
g
on
hu
g
e
datasets.
Ke
y
words
Cloud
com
p
utin
g
,
Hadoo
p
,
Parallel
k
-
means
,
Ma
p
Reduce
1
引言
聚类是数据挖掘中重要的研究课题之一
。
所谓 聚类
,
就
是将物理或抽象对象的集合组成为由类似的对象组成的多个
类或簇的过程
。
由聚类生成的簇是一组数据对象的集合
,
同
一簇中的对象尽可能相似
,
而不同簇中的对象尽可能相异
[
1
]
。
随着数据库技术的成熟和数据应用的普及
,
商业
、
企业
、
科研
机构或者政府部门都积累了大量的
、
以不同形式存储的数据
。
如何存储
、
处理这些海量数据
,
以及进一步从中挖掘出有用
的
、
可以指导应用的知识
,
成为一个棘手的问题
。
在面对海量
数据时
,
现有的聚类算法在时间复杂性和空间复杂性上遇到
了瓶颈
,
这也是聚类算法研究领域中亟需解决的问题之一
。
解决该问题的一个思路就是将并行处理技术应用到聚类中
,
设计出高效的并行聚类算法
,
来提高聚类算法处理海量数据
时的性能
。
云计算作为一种新兴的商业计算模型得到了人们的广泛
关注
[
2
-
5
]
。
Hadoo
p
是一个可以更容易开发和并行处理大规模
数据的云计算平台
,
它的主要特点包括扩容能力强
、
成本 低
、
效率高以及可靠性好等
。
Hadoo
p
平台由两部分组成
:
Ha
-
doo
p
分布式文件系统
(
HDFS
)
[
6
]
和
Ma
p
Reduce
计算模型
[
7
]
。
HDFS
采用
M
/
S
架构
,
一个
HDFS
集群是由一个管理节
点
(
Namenode
)
和一定数目的数 据节点
(
Datanode
)
组成
,
每个
节点均是一台普通
PC
。
在使用上
,
HDFS
与单机上的文件系
统非常类似
,
同样可以建目录
,
创建
、
复制
、
删除 文件
,
查看 文
件内容等
。
但其底层实现上是把文件切割成块
,
然后这些块
分散地存储于不同的数据节点上
。
每个块还可以复制若干
·
661
·
郭逗
- 粉丝: 30
- 资源: 318
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0