没有合适的资源?快使用搜索试试~ 我知道了~
浅谈大数据生态圈.pptx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 113 浏览量
2022-06-22
02:12:46
上传
评论
收藏 2.33MB PPTX 举报
温馨提示
试读
22页
浅谈大数据生态体系 Talking about big data ecosystem 浅谈大数据生态圈全文共22页,当前为第1页。 浅谈大数据生态圈全文共22页,当前为第2页。 何为大数据 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 大数据的特点: 一是数据体量巨大。至少是PB级别以上量级的数据 二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。 三是处理速度快。数据处理遵循"1秒定律",可从各种类型的数据中快速获得高价值的信息。 四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。 浅谈大数据生态圈全文共22页,当前为第3页。 大数据,首先你要能存的下大数据 传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。 比如你说我要获取/hdfs/tmp/file1的数据,你引用的是
资源详情
资源评论
资源推荐
浅谈大数据生态体系
Talking about big data ecosystem
何为大数据
•
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、
管理和处理的数据集合。
•
大数据的特点:
•
一是数据体量巨大。至少是 PB 级别以上量级的数据
•
二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、
音频、地理位置信息等多类型的数据,个性化数据占绝对多数。
•
三是处理速度快。数据处理遵循“ 1 秒定律”,可从各种类型的数据中快速获得
高价值的信息。
•
四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能
有用的数据仅仅只有一两秒。
大数据,首先你要能存的下大数据
•
传统的文件系统是单机的,不能横跨不同的机
器。 HDFS ( Hadoop Distributed FileSystem )的设计本质上
是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文
件系统而不是很多文件系统。
•
比如你说我要获取 /hdfs/tmp/le1 的数据,你引用的是一个文件
路径,但是实际的数据存放在很多不同的机器上。你作为用户,不
需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么
扇区一样。 HDFS 为你管理这些数据。
那什么是 HDFS ( Hadoop Distributed
FileSystem )?
•
一个分布式存储系统
•
Google GFS 的开源实现
•
数据存储采用 master/slave 架构模式,主要由 Client 、
NameNode 、 Secondary NameNode 和 DataNode 组成
剩余21页未读,继续阅读
是空空呀
- 粉丝: 167
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0