没有合适的资源?快使用搜索试试~ 我知道了~
从“存储系统”、“处理系统”和“分析方法”来看大数据平台IntetixFoundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。解决问题时需要哪些技能呢?当你去处理还没发生的事件,即便是很大数据量的分析,也需要一定程度的直觉。但很明显基于数据分析的决策比直觉意见更可信,因为它排除了决策人的偏好、品味和经验,客观对待问题。毫无疑问数据很重要,但不断增长的数据使得数据处理越来越难。我们需要的
资源推荐
资源详情
资源评论
怎么搞个大数据平台?怎么搞个大数据平台?
从“存储系统”、“处理系统”和“分析方法”来看大数据平台
Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科
学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性
地践行着我们的使命:为美好生活洞见数据价值。
解决问题时需要哪些技能呢?
直觉和数据分析能力。
当你去处理还没发生的事件,即便是很大数据量的分析,也需要一定程度的直觉。但很明显基于数据分析的决策比直觉意见更
可信,因为它排除了决策人的偏好、品味和经验,客观对待问题。
毫无疑问数据很重要,但不断增长的数据使得数据处理越来越难。我们需要的不仅仅是数据,还有技术。大数据科技存储了大
量的数据,搜索出有意义的可视化数据,通过预测数据为应用程序进行内部业务处理。为让大家更为清楚地了解大数据平台技
术,本文把不同的平台技术分类成三方面:“存储系统”、“处理系统”和“分析方法”,并且描述相关的产品和技术。
存储系统方面
Parallel DBMS
NoSQL
这两个系统都用外扩方法存储大数据。
Parallel DBMS
目前的RDBMS技术适用于所有单系统邻域,专业的架构类系统让处理OLAP,文本,串流,和高纬度数据变得更出色。同时
随着环境的变化,RDBMS对此也在OLTP处理领域做出了相应的改变。
NoSQL
NoSQL,是一个新存储系统的总括,为了简化碎片简易定义的数据模型而出现。它是分布的基础,并使得在一个分布复制环
境或者约束隔离下的要求没那么严格。
VoltDB
VoltDB系统是由适合高性能的OLTP环境的格式组成,通过水平分割表数据建立高速率的OLTP系统。
图1展示了要求仅在一个分区内操作的某个任务连续地在相应的分区内被执行,并且需要在多个分区处理的某一任务被协调者
处理。如果有很多操作需要在几个分区处理,行和大小不宜过大。
SAP HANA
SAP HANA是SAP公司的一个基于记忆的存储系统。它的特点是组织一个系统最佳化的分析任务,比如OLAP。如果所有数据
在系统内存内,那么重中之重是突破内存和CPU缓存之间的瓶颈。为了最小化缓存缺失,处理带有时间的连续数据是更有利
的,这意味着分析许多OLAP时列结构表可能更有利。
面向列的表有很多优势,典型实例是一个高数据压缩率和处理速度。如果一个相同的数据域,与完全整合在一起的数据块相
比,几个数据域对数据压缩更好。下面的图展示了行结构和列结构方法的简明对比。
Vertica
Vertica是OLAP专业的数据库,它通过列方法在磁盘上存储数据。不共享方式的MPP结构包含一个最佳化写入的存储,写入更
快,在压缩的形式下读入存储,并且管理双侧数据流元组移动。下面的图3帮助理解Vertica结构:
剩余6页未读,继续阅读
资源评论
weixin_38625708
- 粉丝: 4
- 资源: 944
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功