没有合适的资源?快使用搜索试试~ 我知道了~
大数据技术综述.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 7 浏览量
2022-06-21
20:28:44
上传
评论
收藏 1.86MB PDF 举报
温馨提示
试读
21页
大数据技术综述 Abstract: We are entering into a "big data" era. Due to the bottlenecks, such as poor scalability, installation and maintenance difficulties, fault tolerance and low performance, in traditional information technique framework, we need to leverage the cloud computing techniques and solutions to deal with big data problems. Cloud computing and big data are complementary to each other and have inherent connection of dialectical unity. The breakthrough of big data techniques will not only re
资源推荐
资源详情
资源评论
大数据技术综述
Abstract: We are entering into a “big data” era. Due to the bottlenecks, such as poor scalability, installation and
maintenance difficulties, fault tolerance and low performance, in traditional information technique framework, we
need to leverage the cloud computing techniques and solutions to deal with big data problems. Cloud computing and
big data are complementary to each other and have inherent connection of dialectical unity. The breakthrough of big
data techniques will not only resolve the current situation, but also promote the wide application of cloud computing
and the internet of things techniques. We focus on discussing the development and the pivotal techniques of big data.
And provide a comprehensive description of big data from several perspectives, including the development of big
data, the current data-burst situation, the relationship between big data and cloud computing and the big data
techniques. Finally, we introduce the related technique researches and our current work.
Key words: big data technique; cloud computing; data acquisition; data storage; data computation; presentation and
interaction
摘 要
:
我们正在进入一个
“
大数据
”
时代
,
传统的信息技术架构
,
存在着扩展性差、容错性差、性能低、安装部署
及维护困难等诸多瓶颈
,
需要以现代云计算手段和技术来解决大数据问题
.
云计算与大数据是相辅相成、辨证统一
的关系,大数据技术的突破不仅能解决现实困难,同时也会促使云计算、物联网技术真正落地并深入推广和应用.针
对大数据的发展历程以及关键性的大数据技术进行探讨,从大数据的发展历程、当前面临的大数据问题、大数据与
云计算的关系以及大数据技术等方面进行综合描述
.
归纳总结相关的技术研究和我们的研究成果
.
关键词
:
大数据技术
;
云计算
;
数据采集
;
数据存储
;
数据计算
;
展现与交互
中图法分类号: TP301 文献标识码: A
1 大数据的发展背景及定义
当今
,
信息技术为人类步入智能社会开启了大门
,
带动了互联网、物联网、电子商务、现代物流、网络金
融等现代服务业发展,催生了车联网、智能电网、新能源、智能交通、智能城市、高端装备制造等新兴产业发
展.现代信息技术正成为各行各业运营和发展的引擎.但这个引擎正面临着大数据这个巨大的考验
[57]
.各种业务
数据正以几何级数的形式爆发
[1]
,
其格式、收集、储存、检索、分析、应用等诸多问题
,
不再能以传统的信息处
理技术加以解决
,
对人类实现数字社会、网络社会和智能社会带来了极大的障碍
.
纽约证券交易所每天产生
1TB
的交易数据;Twitter 每天就会生成超过 7TB 的数据;Facebook 每天会产生超过 10TB 的数据;位于欧洲粒子物理
实验室的大型强子对撞机每年产生约 15PB 的数据.根据著名咨询公司 IDC 的调查与统计,07 年全球信息量约
为
165EB,
即使在全球遭遇金融危机的
2009
年
,
全球信息量仍达到
800EB,
比上一年度增长
62%;
未来每隔
18
个
月
,
整个世界的数据总量就会翻倍
;
预计
2020
年这一数字将达到
35ZB,
约为
2007
年的
230
倍
,
而人类历史
5000
年的文字记载只有 5EB 数据.上述统计与调查预示着 TB、PB、EB 的时代已经成为过去,全球将正式进入数据
存储的“泽它(Zetta)时代”.
从
2009
年开始
,“
大数据
”
成为互联网信息技术行业的流行词汇
,
大数据起初成熟应用多在互联网行业
,
互联
网上的数据每年增长
50%,
每两年翻一番
,
全球互联网企业都意识到
“
大数据
”
时代的来临
,
数据对于企业有着重
2
要意义
.2011
年
5
月
,
麦肯锡全球研究院发布题为《大数据
:
创新、竞争和生产力的下一个新领域》
[2]
的报告
.
报
告发布后
,“
大数据
”
迅速成为计算机行业的热门概念
.2012
年
4
月美国奥巴马政府推出
”
大数据研究和发展倡
议”
[3]
,并划拨 2 亿美元的专项资金之后,在全球掀起了一股大数据的热潮.根据 Wikibon 2011 年发布的大数据报
告
[4]
,大数据市场正处在井喷式增长的前夕,未来五年全球大数据市场价值将高达 500 亿美元.2012 年初,大数据
相关软件、硬件和服务的收入总和只有约
50
亿美元
.
但随着企业逐渐认识到大数据和相关分析将形成新的差
异化竞争优势
,
提升运营效率
,
大数据相关技术和服务将获得长足发展
,
大数据将逐渐落地
,
并在未来五年保持
58%的惊人复合增长速度.投资银行 JMP Securities 分析师 Greg McDowell 则表示大数据工具市场预计将在 10
年内由去年的 90 亿美元增长至 860 亿美元.到 2020 年,企业在大数据工具方面的投资将占整体企业 IT 开支的
11%.
目前
,
业界对大数据还没有一个统一的定义
,
常见的大数据定义如下
:
“大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合.”——
麦肯锡.
“
大数据是指无法在一定时间内用常规软件工具对其内容迚行抓取、管理和处理的数据集
.”——
维基百科
“
大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样
化的信息资产.”----Gartner
大数据具备 Volume、Velocity、Variety 和 Value 四个特征
[47]
(简称为“4V”,即数据体量巨大、处理速度快、
数据类型繁多和价值密度低
),
下面对每个特征分别作简要描述
.
Volume:
表示大数据的数据量巨大
.
数据集合的规模不断扩大
,
已从
GB
到
TB
再到
PB
级
,
甚至开始以
EB
和 ZB 来计数.比如一个中型城市的视频监控头每天就能产生几十 TB 的数据.
Variety:表示大数据的类型复杂.以往我们产生或者处理的数据类型较为单一,大部分是结构化数据.而如
今
,
社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现
,
产生大量半结构化或者非结构化数
据
,
如
XML
、邮件、博客、即时消息等
,
导致了新数据类型的剧增
.
企业需要整合并分析来自复杂的传统和非传
统信息源的数据,包括企业内部和外部的数据.随着传感器、智能设备和社会协同技术的爆炸性增长,数据的类
型无以计数,包括:文本、微博、传感器数据、音频、视频、点击流、日志文件等.
Velocity:
数据产生、处理和分析的速度持续在加快
,
数据流量大
.
加速的原因是数据创建的实时性天性
,
以
及需要将流数据结合到业务流程和决策过程中的要求
.
数据处理速度快
,
处理能力从批处理转向流处理
.
业界对
大数据的处理能力有一个称谓——“1 秒定律”,也就充分说明了大数据的处理能力,体现出它与传统的数据挖掘
技术有着本质的区别;
Value:
大数据由于体量不断加大
,
单位数据的价值密度在不断降低
,
然而数据的整体价值在提高
.
有人甚至
将大数据等同于黄金和石油
,
表示大数据当中蕴含了无限的商业价值
.
根据
IDC
调研报告中预测
,
大数据技术与
服务市场将从 2010 年的 32 亿美元攀升至 2015 年的 169 亿美元,实现年增长率达 40%,并且将会是整个 IT 与
通信产业增长率的 7 倍.通过对大数据进行处理,找出其中潜在的商业价值,将会产生巨大的商业利润.
大数据处理技术在具体的应用方面
,
可以为国家支柱企业的数据分析和处理提供技术和平台支持
,
为企业
进行数据分析、处理、挖掘
,
提取出重要的信息和知识
,
再转化为有用的模型
,
应用到研究、生产、运营和销售
过程中.同时,国家大力倡导“智慧城市”建设,在城市化与信息化融合等背景下,围绕改善民生、增强企业竞争力、
促进城市可持续发展等关注点,综合利用物联网、云计算等信息技术手段,结合城市现有信息化基础,融合先进
的城市运营服务理念
,
建立广泛覆盖和深度互联的城市信息网络
,
对城市的资源、环境、基础设施、产业等多
方面要素进行全面感知
,
并整合构建协同共享的城市信息平台
,
对信息进行智能处理利用
,
从而为城市运行和资
源配置提供智能响应控制,为政府社会管理和公共服务提供智能决策依据及手段,为企业和个人提供智能信息
资源及开放式信息应用平台的综合性区域信息化发展过程.
数据无疑是新型信息技术服务和科学研究的基石
,
而大数据处理技术理所当然地成为当今信息技术发展
的核心热点
,
大数据处理技术的蓬勃发展也预示着又一次信息技术革命的到来
.
另一方面
,
随着国家经济结构调
整、产业升级的不断深化,信息处理技术的作用将日益凸显,而大数据处理技术无疑将成为在国民经济支柱产
赵勇 等
:
大数据技术综述
3
业信息化建设中实现核心技术的弯道追赶、跟随发展、应用突破、减少绑架的最佳突破点
[16]
.
2 大数据问题
大数据因为它所蕴含的潜在价值
,
正在成为企业的隐形
“
金矿
”.
随着生产、运营、管理、监控、销售、客服
等各个环节的数据不断累积和增长,以及用户数的不断上升,通过从庞大的数据中分析出相关模式以及趋势,可
以实现高效管理、精准营销,成为企业打开这一“金矿”的钥匙.然而传统的 IT 基础架构和数据管理分析方法已
经不能适应大数据的快速增长
.
大数据的爆发是我们在信息化和社会发展中遇到的棘手问题
,
需要我们采用新
的数据管理模式
,
研究和发展新一代的信息技术才能解决
.
我们把大数据问题归纳为表
1
中所列
7
类
:
Table 1 Problems of big data
表 1 大数据问题
大数据问题分类
大数据问题描述
速度方面的问题
导入导出问题
统计分析问题
检索查询问题
实时响应问题
种类及架构问题
多源问题
异构问题
原系统的底层架构问题
体量及灵活性问题
线性扩展问题
动态调度问题
成本问题
大机与小型服务器的成本对比
原有系统改造的成本把控
价值挖掘问题
数据分析与挖掘问题
数据挖掘后的实际增效问题
存储及安全问题
结构与非结构
数据安全
隐私安全
互联互通与数据共享问题
数据标准与接口
共享协议
访问权限
2.1 速度方面的问题
传统的关系型数据库管理系统(RDBMS)一般都是集中式的存储和处理,没有采用分布式架构,在很多大型
企业中的配置往往都是基于 IOE(IBM 服务器,Oracle 数据库,EMC 存储).在这种典型配置中单台服务器的配置
通常都很高
,
可以多达几十个
CPU
核
,
内存也能达到上百
GB;
数据库的存储放在高速大容量的磁阵上
,
存储空间
可达
TB
级
.
这种配置对于传统的信息管理系统
(MIS)
需求来说是可以满足需求的
,
然而面对不断增长的数据量
和动态数据使用场景,这种集中式的处理方式就日益成为瓶颈,尤其是在速度响应方面捉襟见肘.在面对大数据
量的导入导出、统计分析、检索查询方面,由于依赖于集中式的数据存储和索引,性能随着数据量的增长而急
速下降
,
对于需要实时响应的统计及查询场景更是无能为力
.
比如在物联网中
,
传感器的数据可以多达几十亿
条
,
对这些数据需要进行实时入库、查询及分析
,
传统的
RDBMS
就不再适合应用需求
.
2.2
种类及架构问题
RDMBS 对于结构化的、固定模式的数据,已经形成了相当成熟的存储、查询、统计处理方式.随着物联网、
互联网以及移动通信网络的飞速发展,数据的格式及种类在不断变化和发展.在智能交通领域,所涉及的数据可
能包含文本、日志、图片、视频、矢量地图等来自不同数据采集监控源的
,
不同种类的数据
.
这些数据的格式
通常都不是固定的,如果采用结构化的存储模式将很难应对不断变化的需求.因此对于这些种类各异的多源异
4
构数据
,
需要采用不同的数据和存储处理模式
,
结合结构化和非结构化数据存储
.
在整体的数据管理模式和架构
上
,
也需要采用新型的分布式文件系统及分布式
NoSQL
数据库架构
,
才能适应大数据量及变化的结构
.
2.3
体量及灵活性问题
如前所述,大数据由于总体的体量巨大,采用集中式的存储,在速度、响应方面都存在问题.当数据量越来越
大,并发读写量也越来越大时,集中式的文件系统或单数据库操作将成为致命的性能瓶颈,毕竟单台机器的承受
压力是有限的
.
我们可以采用线性扩展的架构和方式
,
把数据的压力分散到很多台机器上
,
直到可以承受
,
这样
就可以根据数据量和并发量来动态增加和减少文件或数据库服务器,实现线性扩展.
在数据的存储方面,需要采用分布式可扩展的架构,比如大家所熟知的 Hadoop 文件系统
[25]
,和 HBase 数据
库
[27]
.同时在数据的处理方面,也需要采用分布式的架构,把数据处理任务,分配到很多计算节点上,同时还需考
虑数据存放节点和计算节点之间的位置相关性
.
在计算领域中
,
资源分配
,
任务的分配实际上是一个任务调度问
题.其主要任务是根据当前集群中各个节点上面的资源(包括 CPU、内存、存储空间和网络资源等)的占用情况,
和各个用户作业服务质量要求,在资源和作业或者任务之间做出最优的匹配.由于用户对作业服务质量的要求
是多样化的,同时资源的状态也在不断变化,因此,为分布式数据处理找到合适的资源是一个动态调度问题.
2.4 成本问题
集中式的数据存储和处理
,
在硬件软件选型时
,
基本采用的方式都是配置相当高的大型机或小型机服务器
,
以及访问速度快、保障性高的磁盘阵列,来保障数据处理性能.这些硬件设备都非常昂贵,动辄高达数百万元,同
时软件也经常是国外大厂商如 Oracle,IBM,SAP,微软等的产品,对于服务器及数据库的维护也需要专业技术人
员
,
投入及运维成本很高
.
在面对海量数据处理的挑战时
,
这些厂商也推出了形似庞然大物的
“
一体机
”
解决方案
,
如
Oracle
的
Exadata,SAP
的
Hana
等
,
通过把多服务器、大规模内存、闪存、高速网络等硬件进行堆叠
,
来缓解
数据压力,然而在硬件成本上,更是大幅跳高,一般的企业很难承受.
新型的分布式存储架构、分布式数据库如 HDFS,HBase,Cassandra
[28]
,MongoDB
[29]
等由于大多采用去中心
化的、海量并行处理
MPP
架构
,
在数据处理上不存在集中处理和汇总的瓶颈
,
同时具备线性扩展能力
,
能有效地
应对大数据的存储和处理问题
.
在软件架构上
,
也都实现了一些自管理、自恢复的机制
,
以面对大规模节点中容
易出现的偶发故障,保障系统整体的健壮性,因此对每个节点的硬件配置,要求并不高,甚至可以使用普通的 PC
作为服务器,因此在服务器成本上可以大大节省,在软件方面开源软件也占据非常大的价格优势.
当然
,
在谈及成本问题时
,
我们不能简单地进行硬件软件的成本对比
.
要把原有的系统及应用迁移到新的分
布式架构上
,
从底层平台到上层应用都需要做很大的调整
.
尤其是在数据库模式以及应用编程接口方面
,
新型的
NoSQL 数据库与原来的 RDBMS 存在较大的差别,企业需要评估迁移及开发成本、周期及风险.除此之外,还需
考虑服务、培训、运维方面的成本.但在总体趋势上,随着这些新型数据架构及产品的逐渐成熟与完善,以及一
些商业运营公司基于开源基础为企业提供专业的数据库开发及咨询服务
,
新型的分布式、可扩展数据库模式必
将在大数据浪潮中胜出
,
从成本到性能方面完胜传统的集中式大机模式
.
2.5 价值挖掘问题
大数据由于体量巨大,同时又在不断增长,因此单位数据的价值密度在不断降低.但同时大数据的整体价值
在不断提高,大数据被类比为石油和黄金,因此从中可以发掘巨大的商业价值
[54]
.要从海量数据中找到潜藏的模
式
,
需要进行深度的数据挖掘和分析
.
大数据挖掘与传统的数据挖掘模式也存在较大的区别
:
传统的数据挖掘一
般数据量较小
,
算法相对复杂
,
收敛速度慢
.
然而大数据的数据量巨大
,
在对数据的存储、清洗、
ETL(
抽取、转换、
加载 )方 面都 需要 能够 应对 大数 据量 的需 求和 挑战,在很大程度上需要采用分布式并行处理的方式 ,比如
Google,微软的搜索引擎,在对用户的搜索日志进行归档存储时,就需要多达几百台甚至上千台服务器同步工作,
才能应付全球上亿用户的搜索行为
.
同时
,
在对数据进行挖掘时
,
也需要改造传统数据挖掘算法以及底层处理架
构
,
同样采用并行处理的方式才能对海量数据进行快速计算分析
.Apache
的
Mahout
[30]
项目就提供了一系列数
据挖掘算法的并行实现.在很多应用场景中,甚至需要挖掘的结果能够实时反馈回来,这对系统提出了很大的挑
赵勇 等
:
大数据技术综述
5
战
,
因为数据挖掘算法通常需要较长的时间
,
尤其是在大数据量的情况下
,
在这种情形下
,
可能需要结合大批量
的离线处理和实时计算才可能满足需求
.
数据挖掘的实际增效也是我们在进行大数据价值挖掘之前需要仔细评估的问题.并不见得所有的数据挖
掘计划都能得到理想的结果.首先需要保障数据本身的真实性和全面性,如果所采集的信息本身噪音较大,或者
一些关键性的数据没有被包含进来
,
那么所挖掘出来的价值规律也就大打折扣
.
其次也要考虑价值挖掘的成本
和收益
,
如果对挖掘项目投入的人力物力、硬件软件平台耗资巨大
,
项目周期也较长
,
而挖掘出来的信息对于企
业生产决策、成本效益等方面的贡献不大,那么片面地相信和依赖数据挖掘的威力,也是不切实际和得不偿失
的.
2.6 存储及安全问题
在大数据的存储及安全保障方面
,
大数据由于存在格式多变、体量巨大的特点
,
也带来了很多挑战
.
针对结
构化数据,关系型数据库管理系统 RDBMS 经过几十年的发展,已经形成了一套完善的存储、访问、安全与备份
控制体系.由于大数据的巨大体量,也对传统 RDBMS 造成了冲击,如前所述,集中式的数据存储和处理也在转向
分布式并行处理.大数据更多的时候是非结构化数据,因此也衍生了许多分布式文件存储系统,分布式 NoSQL
数据库等来应对这类数据
.
然而这些新兴系统
,
在用户管理、数据访问权限、备份机制、安全控制等各方面还
需进一步完善.安全问题,如果简而言之,一是要保障数据不丢失,对海量的结构、非结构化数据,需要有合理的备
份冗余机制,在任何情况下数据不能丢.二是要保障数据不被非法访问和窃取,只有对数据有访问权限的用户,
才能看到数据,拿到数据.由于大量的非结构化数据可能需要不同的存储和访问机制,因此要形成对多源、多类
型数据的统一安全访问控制机制
,
还是亟待解决的问题
.
大数据由于将更多更敏感的数据汇集在一起
,
对潜在攻
击者的吸引力更大;若攻击者成功实施一次攻击,将能得到更多的信息,“性价比”更高,这些都使得大数据更易成
为被攻击的目标.LinkedIn 在 2012 年被曝 650 万用户账户密码泄露;雅虎遭到网络攻击,致使 45 万用户 ID 泄
露.2011 年 12 月,CSDN 的安全系统遭到黑客攻击,600 万用户的登录名、密码及邮箱遭到泄漏.
与大数据紧密相关的还有隐私问题
.
由于物联网技术和互联网技术的飞速发展
,
与我们工作生活相关各类
信息都被采集和存储下来,我们随时暴露在“第三只眼”下面.不管我们是在上网、打电话、发微博、微信,还是
在购物、旅游,我们的行为都在随时被监控分析.对用户行为的深入分析和建模,可以更好地服务用户,实施精准
营销,然而如果信息泄露或被滥用,则会直接侵犯到用户的隐私,对用户形成恶劣的影响,甚至带来生命财产的
损失
.2006
年
,
美国
DVD
租赁商
Netflix
公司举办了一个算法竞赛
.
该公司公布了大约来自
50
万用户的一亿条租
赁记录,并且公开悬赏 100 万美金,举办一个软件设计大赛来提高他们的电影推荐系统的准确度,胜利的条件是
把准确度提高 10%.尽管该公司对数据进行了精心的匿名化处理,还是被一个用户认出来了,一个化名“无名氏”
的未出柜的同性恋母亲起诉了 Netflix 公司,她来自保守的美国中西部.在美国的微博网站 Twitter.com 上面,很多
用 户 习 惯 随 时 发 布 他 们 的 位 置 和 动 态 信 息
,
结 果 有 几 家 网 站
,
如
“PleaseRobMe.com”-
请 来 抢 劫
我,“WeKnowYourHouse.com”-我知道你的家,能够根据用户所发的信息,推测出用户不在家的时间,找到用户的
准确家庭住址,甚至把房子的照片都能找出来.他们的做法旨在提醒大家我们随时暴露在公众视线下,如果不培
养安全和隐私意识,将会给自身带来灾难.目前世界的很多国家,包括中国,都在完善与数据使用及隐私相关的
法律
,
来保护隐私信息不被滥用
.
2.7 互联互通与数据共享问题
在我国的企业信息化建设过程中,普遍存在条块分割和信息孤岛的现象.不同行业之间的系统与数据几乎
没有交集,同一行业,比如交通、社保系统内部等,也是按行政领域进行划分建设,跨区域的信息交互和协同非常
困难
.
严重的甚至在同一单位内
,
比如一些医院的信息系统建设
,
病历管理、病床信息、药品管理等子系统都是
分立建设的
,
没有实现信息共享和互通
.“
智慧城市
”
是我国十二五信息化建设的重点
,
而智慧城市的根本
,
是要实
现信息的互联互通和数据共享,基于数据融合实现智能化的电子政务、社会化管理和民生改善.因此在城市数
字化的基础上,还需实现互联化,打通各行各业的数据接口,实现互联互通,在此之上才能实现智慧化.比如在城
市应急管理方面
,
就需要交通、人口、公安、消防、医疗卫生等各个方面的数据和协助
.
当前美国联邦政府建
剩余20页未读,继续阅读
资源评论
是空空呀
- 粉丝: 168
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功