没有合适的资源?快使用搜索试试~ 我知道了~
计算机研究 -基于Global K-means的多维数据聚类算法研究及其GPU加速.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 32 浏览量
2022-06-26
05:30:19
上传
评论
收藏 8.5MB PDF 举报
温馨提示
试读
73页
计算机研究 -基于Global K-means的多维数据聚类算法研究及其GPU加速.pdf
资源推荐
资源详情
资源评论
第~章绪论
第一章绪论
1.1研究背景和选题意义
信息时代最大的特点就是:随着人们生产生活产生的数据量急速增加,同时
随着计算机技术和信息技术的大力发展,人们可以方便地获取和存储大量的数据,
同时也造成了海量的数据堆积。那么,怎样从这些数据中提取对数据库拥有者有
价值的信息呢?人们对这个问题的兴趣正在不断的增长。而且已经形成了致力于
这个任务的一个学科:“数据挖掘(data
mining)”。数据挖掘,也可称为数据开采、
数据采掘,简单的说,它就是从大量的、不完全的、有噪声的、模糊的、随机的
实际应用数据中,提取隐含其中的、人们事先不知道的但又是潜在有用的信息和
知识的过程【¨。当今社会的信息数据量都大得惊人,而我们所需要的只是其中一
部分数据,甚至是一小部分数据,这就需要我们能够从大量的数据中经过分析匹
配,获得需要的数据信息,从而提高工作效率,增强竞争力。
…~’
数据库、人工智能和数理统计是数据挖掘的三个强大的技术支柱。发展于统
计学的聚类分析作为数据挖掘的一项主要功能和任务,已经成为数据挖掘中的一
个重要的研究领域,至今已有很多学者提出了大量的理论和方法,取得了丰硕的
研究成果。但是聚类中还存在很多问题,尤其随着数据挖掘技术的广泛应用,数
据挖掘所面对的数据对象日趋复杂,聚类分析也面临更多新的内容和挑战。这就
要求对现有聚类技术进行不断地改进,同时提出新的聚类方法以满足新的应用。
1.2聚类分析
聚类分析是数据挖掘技术中重要的组成部分,对各种数据现象的分析起着至
关重要的作用。聚类分析利用很少量的先验知识或者不利用先验知识,来分析和
挖掘数据的潜在信息。聚类操作中要划分的类事先未知,类的形成完全是数据驱
动的,属于一种无监督的学习方法,所以聚类又叫无监督分类。聚类的目的是将
有限的无标签数据通过一定对数据结构的理解和数据分布的分析自然的划分到一
些数据集上。简单的描述,它的主要目的是将数据空间中的数据划分到若干个类
中,其中将度量相近的数据点划分到相同的类中,而将度量较远的数据点划分到
不同的类中。
2
基于Global
K.means的多维数据聚类算法研究及其GPU加速
1.2.1聚类分析的基本概念
在数据挖掘中,聚类分析(无监督分类)和分类分析(有监督分类)之间既有联系
也有区别‘2们。它们都是将未知模式的数据集分成若干个类。但通常,有监督分类
提供若干己标记的对象,需要解决的问题是为一个新遇到的但无标记的对象进行
标记,而聚类算法则根据一定的准则将无标签的数据划分到一个确定的类别数中,
但是,具体的准则并没有通用的准则【2¨。大多数学者主要考虑按照类内一致性紧
密,类间一致性分散的准则来划分数据【221【231,在该模式下,相同类别的数据彼此
间是相似的,同时不同类别之间的数据是不相似的。这里相似的概念是以某种距
离度量方式为标准的,按照该标准,数据度量在同一类别之间最小化,而在不同
类别之间最大化。
聚类分析的数学定义:
给定一组输入的数据集合x={而,而,...,xjr},其中_=(_.,屯:,...,妇)7∈吼d,
X,,可以被看成是属性、维数或者变量,根据数据间的相似程度将数据集合分成k
类c={G,...,Q)(K≤N),满足:
1.
e≠①,f=l,...,K;
2.
U!.e=x;
3.
Cf
r、C,=彩,f,J=19.+-9K且f≠J
对于硬划分聚类,每个样本仅仅属于一个类别。但是,一个样本也可能以一
定的隶属度%,_,e[o,l】而属于所有的类别,%√中,代表第,个类别,歹代表第,个
样本,同时应满足下列的条件:
c N
∑珥,.,=l,Ⅵand∑%,-,<Ⅳ,Vi
i=1
i=1
这就是著名的模糊聚类算法。
1.2.2聚类分析的数据结构
本节我们研究在聚类分析中经常出现的数据结构。聚类算法一般采用两种具
有代表性的数据结构,一个是数据矩阵,一个是相异度矩阵【24】。
1.数据矩阵:用P个变量来表示n个样本,例如用年龄、身高、体重、性别、
种族等属性来表示“人”的特征。这种数据结构是关系表的形式,或者看成刀×p(n
剩余72页未读,继续阅读
资源评论
programyp
- 粉丝: 86
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- apk.tw_LineLite_v8a_v.2.17.1_sign.apk
- Elasticsearch实战:构建高效搜索系统的秘诀.zip
- HTML+CSS+JS网页设计:从入门到精通.zip
- 数据库课程设计:从理论到实践的全面指南.zip
- Python闭包:深入理解与应用场景解析.zip
- Win64OpenSSL-3-3-0.exe
- 课高分程设计-基于C++实现的民航飞行与地图简易管理系统-南京航空航天大学
- 航天器遥测数据故障检测系统python源码+文档说明+数据库(课程设计)
- 北京航空航天大学操作系统课设+ppt+实验报告
- 基于Vue+Echarts实现风力发电机中传感器的数据展示监控可视化系统+源代码+文档说明(高分课程设计)
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功