没有合适的资源?快使用搜索试试~ 我知道了~
论文研究-分布式并行PCA算法在大样本数据集中的应用 .pdf
需积分: 0 7 下载量 98 浏览量
2019-08-17
23:39:43
上传
评论
收藏 702KB PDF 举报
温馨提示
试读
10页
分布式并行PCA算法在大样本数据集中的应用,张涛,王纯,主成分分析(principal components analysis,PCA)是一种被广泛应用的线性降维方法。传统的PCA计算方法都是采用单节点在内存中对数据进行处�
资源推荐
资源详情
资源评论
http://www.paper.edu.cn
- 1 -
中国科技论文在线
分布式并行 PCA 算法在大样本数据集中的
应用
#
张涛
1,2
,王纯
1,2
,李炜
1,2**
基金项目:国家 973 计划项目(No. 2012CB315802);国家自然科学基金(No. 61072057,60902051,61101119);
长江学者和创新团队发展计划资助;国家科技重大专项(No. 2011ZX03002-001-01,移动互联网总体架构
研究);中央高校基本科研业务费专项资金(BUPT2009RC0505)
作者简介:张涛(1987),男,硕士研究生,主要研究方向为分布式计算
通信联系人:王纯(1970),男,高工,主要研究方向为下一代网络,通信软件. E-mail: wangchun@ebupt.com
(1. 北京邮电大学网络与交换技术国家重点实验室,北京 100876; 5
2. 东信北邮信息技术有限公司,北京 100191)
摘要:主成分分析(principal components analysis,PCA)是一种被广泛应用的线性降维方法。
传统的 PCA 计算方法都是采用单节点在内存中对数据进行处理,面对海量的样本数据,这
种处理方式已经很难满足需求。本文提出了一种基于 MapReduce 计算模型的分布式并行10
PCA 计算方法,能够不受样本数量的限制,针对海量样本数据高效的进行计算。在介绍了
分布式 PCA 计算方法之后,对计算性能做了详细的对比实验。最后对一个电子商务网站 2000
多万用户的样本集进行了性能实验。
关键词:主成分分析,分布式,并行计算,大样本
中图分类号:TP391 15
Application of Distributed Parallel PCA Algorithm in Large
Sample data sets
Zhang Tao
1,2
, Wang Chun
1,2
, LI Wei
1,2
(1. State Key Lab of Networking and Switching Technology, Beijing University of Posts and 20
Telecommunications, Beijing 100876,P.R.China;
2. EBUPT Information Technology Co., Ltd. Beijing 100191,P.R.China)
Abstract: Principal component analysis (PCA) is a widely used linear dimension reduction
method. Traditional PCA calculation method uses/applies a single node for data processing in the
memory. While this approach is hard to meet the requirements in face of massive sample data set. 25
This paper presents a distributed parallel computing method of PCA based on MapReduce
computational model, which is not limited by the quantity of samples and is efficient for the
calculation of massive sample data. After the introduction of distributed computing method of
PCA, we made a detailed contrast experiment on the computing performance. Finally, we made a
performance test on more than 20 million sample sets of users from an e-commerce Website. 30
Key words: Principal Components Analysis;parallel computing;distributed;Large sample
0 引言
在数据分析、统计分析中,主成分分析(principal components analysis,PCA)是一种分
析、简化数据集的技术。它是一个正交化线性变换。这个变换把数据变换到一个新的坐标系35
统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在
第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持
数据集中对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样
低阶成分往往能够保留住数据的最重要方面
[1]
。
资源评论
weixin_39840387
- 粉丝: 784
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 直接插入排序,冒泡排序,直接选择排序.zip
- 在排序2的基础上,再次对快排进行优化,其次增加快排非递归,归并排序,归并排序非递归版.zip
- 实现了7种排序算法.三种复杂度排序.三种nlogn复杂度排序(堆排序,归并排序,快速排序)一种线性复杂度的排序.zip
- 冒泡排序 直接选择排序 直接插入排序 随机快速排序 归并排序 堆排序.zip
- 课设-内部排序算法比较 包括冒泡排序、直接插入排序、简单选择排序、快速排序、希尔排序、归并排序和堆排序.zip
- Python排序算法.zip
- C语言实现直接插入排序、希尔排序、选择排序、冒泡排序、堆排序、快速排序、归并排序、计数排序,并带图详解.zip
- 常用工具集参考用于图像等数据处理
- 音乐展示网页、基于Stenography的图像数字水印添加与提取,以及基于颜色矩和Tamura算法的图像相似度评估算法py源码
- 基于EmguCV(OpenCV .net封装),图像数字水印加解密算法的实现,其中包含最低有效位算法,离散傅里叶变换算法+文档书
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功