没有合适的资源?快使用搜索试试~ 我知道了~
#一文读懂大数据-Hadoop-大数据技术和相关应用.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 46 浏览量
2022-11-11
18:43:41
上传
评论
收藏 780KB DOCX 举报
温馨提示
试读
11页
。。。
资源推荐
资源详情
资源评论
一文读懂大数据:Hadoop,大数据技术及相关应用
发布时间: 2014-4-30 10:25:47
这是一本小书而不是一篇文章,因为它详实细致的让你从一个完全不了解大数据技术及
相关应用的门外汉,变成一个熟知其概念和意义的“内行人”,所以它很棒!
主要内容
·1 来自 Wikibon 社区的大数据宣言
·2 数据处理与分析:传统方式
·3 大数据性质的变化
·4 大数据处理和分析的新方法
4.1Hadoop
4.2NoSQL
4.3 大规模并行分析数据库
·5 大数据方法的互补
·6 大数据供应商发展状况
·7 大数据:实际使用案例
·8 大数据技能差距
·9 大数据:企业和供应商的下一步动作
来自 Wikibon 社区的大数据宣言
为公司提供有效的业务分析工具和技术是首席信息官的首要任务。有效的业务分析(从
基本报告到高级的数据挖掘和预测分析)使得数据分析人员和业务人员都可以从数据中获得
见解,当这些见解转化为行动,会给公司带来更高的效率和盈利能力。
所有业务分析都是基于数据的。传统意义上,这意味着企业自己创建和存储的结构化数
据 ,如 CRM 系统中的客户数据,ERP 系统中的运营数据,以及会计数据库中的财务数据。
得益于社交媒体和网络服务(如 Facebook,Twitter),数据传感器以及网络设备,机器和
人类产生的网上交易,以及其他来源的非结构化和半结构化的数据的普及,企业现有数据的
体积和类型以及为追求最大商业价值而产生的近实时分析的需求正在迅速增加。我们称这些
为大数据。
传统的数据管理和业务分析工具及技术都面临大数据的压力,与此同时帮助企业获得来
自大数据分析见解的新方法不断涌现。这些新方法采取一种完全不同于传统工具和技术的方
式进行数据处理、分析和应用。这些新方法包括开源框架Hadoop,NoSQL 数据库(如
Cassandra 和 Accumulo)以及大规模并行分析数据库(如 EMC 的 Greenplum,惠普的
Vertica 和 TeradataASTERData)。这意味着,企业也需要从技术和文化两个角度重新思
考他们对待业务分析的方式。
对于大多数企业而言,这种转变并不容易,但对于接受转变并将大数据作为业务分析实
践基石的企业来说,他们会拥有远远超过胆小对手的显着竞争优势。大数据助力复杂的业务
分析可能为企业带来前所未有的关于客户行为以及动荡的市场环境的深入洞察,使得他们能
够更快速的做出数据驱动业务的决策,从而比竞争对手更有效率。
从存储及支持大数据处理的服务器端技术到为终端用户带来鲜活的新见解的前端数据
可视化工具,大数据的出现也为硬件、软件和服务供应商提供了显着的机会。这些帮助企业
过渡到大数据实践者的供应商,无论是提供增加商业价值的大数据用例,还是发展让大数据
变为现实的技术和服务,都将得到茁壮成长。
大数据是所有行业新的权威的竞争优势。认为大数据是昙花一现的企业和技术供应商很
快就会发现自己需要很辛苦才能跟上那些提前思考的竞争对手的步伐。在我们看来,他们是
非常危险的。对于那些理解并拥抱大数据现实的企业,新创新,高灵活性,以及高盈利能力
的可能性几乎是无止境的。
数据处理和分析:传统方式
传统上,为了特定分析目的进行的数据处理都是基于相当静态的蓝图。通过常规的业务
流程,企业通过 CRM、ERP 和财务系统等应用程序,创建基于稳定数据模型的结构化数据。
数据集成工具用于从企业应用程序和事务型数据库中提取、转换和加载数据到一个临时区域,
在这个临时区域进行数据质量检查和数据标准化,数据最终被模式化到整齐的行和表。这种
模型化和清洗过的数据被加载到企业级数据仓库。这个过程会周期性发生,如每天或每周,
有时会更频繁。
图 1–传统的数据处理/分析资料来源:Wikibon2011
在传统数据仓库中,数据仓库管理员创建计划,定期计算仓库中的标准化数据,并将产
生的报告分配到各业务部门。他们还为管理人员创建仪表板和其他功能有限的可视化工具。
同时,业务分析师利用数据分析工具在数据仓库进行高级分析,或者通常情况下,由于
数据量的限制,将样本数据导入到本地数据库中。非专业用户通过前端的商业智能工具(SAP
的 BusinessObjects 和 IBM 的 Cognos)对数据仓库进行基础的数据可视化和有限的分析。
传统数据仓库的数据量很少超过几 TB,因为大容量的数据会占用数据仓库资源并且降低性
能。
大数据性质的变化
Web、移动设备和其他技术的出现导致数据性质的根本性变化。大数据具有重要而独
特的特性,这种特性使得它与“传统”企业数据区分开来。不再集中化、高度结构化并且易于
管理,与以往任何时候相比,现在的数据都是高度分散的、结构松散(如果存在结构的话)
并且体积越来越大。
具体来说:
·体积-通过 Web、移动设备、IT 基础设施和其他来源产生的企业内部和防火墙外的数
据量每年都在成倍增加。
·类型-数据类型的多样性增加,包括非结构化文本数据以及半结构化数据(如社交媒体
数据,基于位置的数据和日志文件数据)。
·速度-得益于数字化交易、移动计算以及互联网和移动设备的高用户量,新数据被创建
的速度以及实时分析的需求正在增加。
广义地说,大数据由多个来源产生,包括:
·社交网络和媒体:目前有超过 7 亿 Facebook 用户,2.5 亿 Twitter 用户和 1.56 亿面向
公众开放的博客。Facebook 上的每个更新、Tweet 和博客上文章的发布及评论都会创建多
个新的数据点(包含结构化、半结构化和非结构化的),这些数据点有时被称为“数据废气”。
·移动设备:全球有超过 50 亿正在使用中的移动电话。每次呼叫、短信和即时消息都被
记录为数据。移动设备(尤其是智能手机和平板电脑)让使用社交媒体等应用程序更容易,
而社会媒体的使用会产生大量数据。移动设备也收集和传送位置数据。
·网上交易:数十亿的网上购物、股票交易等每天都在发生,包括无数的自动交易。每
次交易都产生了大量数据点,这些数据点会被零售商、银行、信用卡、信贷机构和其他机构
收集。
·网络设备和传感器:各种类型的电子设备(包括服务器和其他IT 硬件、智能电表和温
度传感器)都会创建半结构化的日志数据记录每一个动作。
图 2–传统数据 v.大数据资料来源:Wikibon2011
从时间或成本效益上看,传统的数据仓库等数据管理工具都无法实现大数据的处理和分
析工作。也就是说,必须将数据组织成关系表(整齐的行和列数据),传统的企业级数据仓
库才可以处理。由于需要的时间和人力成本,对海量的非结构化数据应用这种结构是不切实
际的。此外,扩展传统的企业级数据仓库使其适应潜在的PB 级数据需要在新的专用硬件上
剩余10页未读,继续阅读
资源评论
春哥111
- 粉丝: 1w+
- 资源: 5万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功