没有合适的资源?快使用搜索试试~ 我知道了~
大数据及Hadoop简介.docx
需积分: 2 1 下载量 121 浏览量
2023-05-06
10:34:45
上传
评论
收藏 1.1MB DOCX 举报
温馨提示
试读
21页
随着近来计算机技术和互联网的发展,大数据 这个名词越来越多地进入到我们的视野中,大数据的快速发展也无时刻影响着我们的生活。 文章目录 一、大数据 1、大数据的定义 2、大数据的特点 3、大数据行业应用 4、Hadoop 与大数据 5、其他大数据处理平台 6、大数据人才 二、什么是 Hadoop 1、Hadoop 简介 2、Hadoop 的发展历史 3、Hadoop 的特点 三、Hadoop 核心 1、分布式文件系统——HDFS 2、分布式计算框架——MapReduce 3、集群资源管理器——YARN 四、Hadoop 常用组件 五、Hadoop 在国内外的应用情况
资源推荐
资源详情
资源评论
文章目录
一、大数据
1、大数据的定义
2、大数据的特点
3、大数据行业应用
4、Hadoop 与大数据
5、其他大数据处理平台
6、大数据人才
二、什么是 Hadoop
1、Hadoop 简介
2、Hadoop 的发展历史
3、Hadoop 的特点
三、Hadoop 核心
1、分布式文件系统——HDFS
2、分布式计算框架——MapReduce
3、集群资源管理器——YARN
四、Hadoop 常用组件
五、Hadoop 在国内外的应用情况
一、大数据
随着近来计算机技术和互联网的发展,大数据 这个名词越来越多地进入到我们
的视野中,大数据的快速发展也无时刻影响着我们的生活。
1、大数据的定义
大数据从字面来理解就是 大量的数据。日常生活离不开数据,可以说每时每刻
都在产生着数据。例如,一分钟可以做些什么事呢?在日常生活中,一分钟可能
连一页书都看不完。但是一分钟内产生的数据却是庞大的。据统计,在一分钟内,
YouTube 用户上传 300 小时的新视频,电子邮件用户发送 2.4 亿条信息,Google
收到超过 278 万个搜索查询,Facebook 用户点赞 4166 667 次,消费者在网购
上花费 272070 美元,Twitter 用户发布 347222 条推文,Instagram 用户每分
钟发布 123060 张照片,Netflix 用户观看 77160 个小时的视频,微信红包的收
发 1527777 个。
这些数据还在不停地增长,那么大数据究竟是什么?国际顶级权威咨询机构麦肯
锡 说:“大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、
存储、管理和分析的能力。这是一个被故意设计成的具有主观性的定义,并且是
一个关于多大的数据集才能被认为是大数据的可变定义,即并不定义大于一个特
定数字的 TB 才叫大数据。因为随着技术的不断发展,符合大数据标志的数据集
容量也会增长;并且定义随不同行业也有变化,这也依赖于在一个特定行业通常
使用何种软件和数据集有多大。因此,大数据在今天不同行业中的范围可以从几
十 TB 到几 PB”。
从上面的定义中可以看出:
多大的数据才算大数据,这并没有一个明确的界定,且不同行业有不同的标准。
大数据不仅仅只是大,它还包含了数据集规模已经超过了传统数据库软件获取、
存储、分析和管理能力这一层意思。
大数据不一定永远是大数据,大数据的标准是可变的,在 20 年前 1GB 的数据
也可以叫大数据。可见,随着计算机硬件技术的发展,符合大数据标志的数据集
容量也会增长。
现在所说的大数据实际上更多是从应用的层面,比如某公司搜集、整理了大量的
用户行为信息,然后通过数据分析手段对这些信息进行分析从而得出对公司有利
用价值的结果。比如,头条、热搜的产生,就是建立在对海量用户的阅读信息的
搜集、分析之上。这就是大数据在现实中的具体体现。
2、大数据的特点
IBM 提出大数据具有 5V 特点,分别为:Volume(大量)、Velocity(高速)、Variety(多
样)、Value(低价值密度)、Veracity(真实性),下面具体说明此 5V 特点。
Volume:巨大的数据量,采集、存储和计算的量都非常大。大数据的起始计量
单位至少是 PB(1000TB)、EB(100 万 TB)或 ZB(10 亿 TB)。
8 bit = 1 Byte 一字节
1024 B = 1 KB (KiloByte) 千字节
1024 KB = 1 MB (MegaByte) 兆字节
1024 MB = 1 GB (GigaByte) 吉字节
1024 GB = 1 TB (TeraByte) 太字节
1024 TB = 1 PB (PetaByte) 拍字节
1024 PB = 1 EB (ExaByte) 艾字节
1024 EB = 1 ZB (ZetaByte) 泽字节
1024 ZB = 1 YB (YottaByte) 尧字节
1024 YB = 1BB(Brontobyte)珀字节
1024 BB = 1 NB (NonaByte) 诺字节
1024 NB = 1 DB (DoggaByte)刀字节
1
2
3
4
5
6
7
8
9
10
11
12
Velocity:因为要保证数据的时效性,数据增长速度和处理速度必须要迅速。比
如搜索引擎要求几分钟前的新闻都能够被用户查询到,个性化推荐算法尽可能要
求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现
为网络日志、音频、视频、图片、地理位置信息等,多类型的数据对数据的处理
能力提出了更高的要求。
Value:数据价值密度相对较低。随着互联网以及物联网的广泛应用,信息感知
无处不在,信息海量,但价值密度较低。那么如何结合业务逻辑并通过强大的机
器算法来挖掘数据价值,是大数据时代最需要解决的问题。
Veracity:数据的准确性和可信赖度,即为数据的质量。
3、大数据行业应用
通过上面的介绍,读者或许并不能直观地理解何为大数据,下面通过几个大数据
的应用案例来更形象地了解大数据。在日常生活中,最常见的大数据应用的例子
就是手机中各种社交、娱乐、购物类的 App。例如听歌类 App 有 每日推荐 版
块,此版块中的歌曲就是根据用户平时听歌类型或者同一歌手演唱的歌曲而来的;
使用淘宝 App,浏览商品后,主页显示或者推送的都是类似商品,如下图所示,
类似的 App 有很多,可见大数据已经广泛融入了我们的日常生活中。
除了手机 App,大数据的应用已经渗透到各行各业中。
(1) 医疗大数据。除了较早前就开始利用大数据的互联网公司,医疗行业是让大
数据分析最先发扬光大的传统行业之一。Seton Healthcare 是采用 IBM 最新沃
森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的
临床医疗信息,通过大数据处理,更好地分析病人的信息。在加拿大多伦多的一
家医院,针对早产婴儿,每秒钟有超过 3000 次的数据读取。通过这些数据分析,
医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿
夭折。同时大数据让更多的创业者更方便地开发产品,比如通过社交网络来收集
数据的健康类 App。也许未来数年后,它们搜集的数据能让医生给你的诊断变
得更为精确,比方说不是通用的 成人每日三次,一次一片,而是检测到你的血
液中药剂已经代谢完成会自动提醒你再次服药,等等。
(2) 金融大数据。大数据在金融行业应用范围较广,典型的案例有花旗银行利用
IBM 沃森电脑为财富管理客户推荐产品;美国银行利用客户点击数据集为客户
提供特色服务,如设定竞争的信用额度;招商银行利用客户刷卡、存取款、电子
银行转账、微信评论等行为数据进行分析,每周给客户发送针对性广告信息,里
面有顾客可能感兴趣的产品和优惠信息。大数据在金融行业的应用可以总结为以
下五个方面:
剩余20页未读,继续阅读
资源评论
Dawny丶
- 粉丝: 6
- 资源: 188
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于matlab实现夜间车牌识别程序(1).rar
- 基于matlab实现图像处理,本程序使用背景差分法对来往车辆进行检测和跟踪.rar
- 基于matlab实现视频监控中车型识别代码,自己写的,希望和大家多多交流.rar
- sdk.config
- 基于matlab实现配电网三相潮流计算方法,对几种常用的配电网潮流计算方法进行了对比分析.rar
- 基于matlab实现配电网潮流 经典33节点 前推回代法潮流计算 回代电流 前推电压 带注释.rar
- 基于matlab实现模拟退火遗传算法的车辆调度问题研究,用MATLAB语言加以实现.rar
- 基于matlab实现蒙特卡洛的的移动传感器节点定位算法仿真代码.rar
- 华中数控系统818用户说明书
- 基于matlab实现卡尔曼滤波器完成多传感器数据融合 对多个机器人的不同传感器数据进行融合估计足球精确位置.rar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功