没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
第 1 页
2016 年 11 月
岳凯
Spark 2 学习总结
第 2 页
目 录
I
大数据基本概念
II
Spark 基本知识
Spark 数据分析案例
IV
III
Spark 进阶知识
第 3 页
大数据基本概念
大数据的 5V 特点( IBM 提出):
Volume (大量)
Velocity (高速)
Variety (多样)
Value (价值)
Veracity (真实性)
大数据不解释因果关系,只关心相关性
第 4 页
大数据基本概念
Google 三篇论文,奠定了大数据算法的基础
2003 年,发布 Google File System 论文
这是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量
数据进行访问的应用,运行于廉价的普通硬件上,提供容错功能。从根本
上说:文件被分割成很多块,使用冗余的方式储存于商用机器集群上。
2004 年,发布 MapReduce 论文
论文描述了大数据的分布式计算方式,主要思想是将任务分解后在多台
处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处
理。
2006 年,发布 Bigtable 论文,
启发了无数的 NoSQL 数据库,如:
Cassandra 、 HBase 、 MongoDB 等等。
第 5 页
大数据基本概念
互联网大数据的典型代表包括:
用户行为数据:精准广告投放、内容推荐、行为习惯
和喜好分析、产品优化等
用户消费数据:精准营销、信用记录分析、活动促
销、理财等
用户地理位置数据: O2O 推广,商家推荐,交友推
荐等
互联网金融数据: P2P ,小额贷款,支付,信用,
供应链金融等
用户社交等 UGC 数据:趋势分析、流行元素分析、
受欢迎程度分析、舆论监控分析、社会问题分析等
剩余63页未读,继续阅读
资源评论
萍民
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功