没有合适的资源?快使用搜索试试~ 我知道了~
大数据如何启迪未来培训资料全.doc
需积分: 5 0 下载量 14 浏览量
2022-07-15
09:04:29
上传
评论
收藏 50KB DOC 举报
温馨提示
试读
19页
大数据如何启迪未来培训资料全.doc
资源详情
资源评论
资源推荐
1 / 19
入木三分:“大数据”如何启迪未来
也就是这一两年的光景,我们在朦胧之中仿佛已经进入了一个言必称“大数
据”的时代。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一
样,大数据正在改变我们的生活以与理解世界的方式,成为新发明和新服务的源
头,而更多的改变正蓄势待发。大数据激发了一场思想风暴,导演了一场思维变
革。大数据正以前所未有的速度颠覆人们探索世界的方法,引起社会、经济、学
术、科研、国防、军事等领域的深刻变革。执迷于精确性已然成为信息缺乏时代、
模拟时代的产物;允许不精确、宽容混杂性将不可竭力避免,而是被证明的标准
途径。那些总是爱追因溯源、刨根问底的人们或许会被遗弃,因为大数据时代里,
由果追因已经是明日黄花的“伎俩”,只要“是什么”“不要问我为什么”成为了
最佳答案。因为数据呈现的相关性已经可以满足大部分人的认知需求,而透过大
数据现象挖掘事物本质,个中成本(时间、物质)也不是深谙博弈之道的人们所
愿担负的。数据成为资产、产业垂直整合、泛互联网化是大数据时代的三大发展
趋势。数据资产成为和土地、资本、人力并驾齐驱的关键生产要素。围绕数据资
产,一幕幕跌宕起伏的产业大戏已经上演。本文就将带您去深入了解“大数据”
概念,带领您去领略大数据时代的“造化”。为您送上一颗“子弹”,引发您的
“头脑风暴”,覆灭您的保守之心,怠慢之气!
大数据:引领人类数据生成方式步入高级阶段
数据生成的“自主时代”
人类历史上从未有哪个时代和今天一样产生如此海量的数据。数据的产生已
经完全不受时间、地点的限制。从开始采用数据库作为数据管理的主要方式开始,
人类社会的数据产生方式大致经历了三个阶段,而正是数据产生方式的巨大变化
才最终导致大数据的产生。
首先是运营式系统阶段。数据库的出现使得数据管理的复杂度大大降低,实
际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统。比如超市
的销售记录系统,银行的交易记录系统、医院病人的医疗记录等。人类社会数据
2 / 19
量第一次大的飞跃正是建立在运营式系统开始广泛使用数据库开始。这个阶段最
主要特点是数据往往伴随着一定的运营活动而产生并记录在数据库中的,比如超
市每销售出一件产品就会在数据库中产生相应的一条销售记录。这种数据的产生
方式是被动的。
然后是用户原创容阶段。互联网的诞生促使人类社会数据量出现第二次大的
飞跃。但是真正的数据爆发产生于 Web 2.0 时代,而 Web 2.0 的最重要标志就
是用户原创容(UGC,User Generated Content)。这类数据近几年一直呈现爆炸性
的增长,主要有两个方面的原因。首先是以博客、微博为代表的新型社交网络的
出现和快速发展,使得用户产生数据的意愿更加强烈。其次就是以智能手机、平
板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备
使得人们在网上发表自己意见的途径更为便捷。这个阶段数据的产生方式是主动
的。
而今,我们进入了感知式系统阶段。人类社会数据量第三次大的飞跃最终导
致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式
系统的广泛使用。随着技术的发展,人们已经有能力制造极其微小的带有处理功
能的传感器,并开始将这些设备广泛的布置于社会的各个角落,通过这些设备来
对整个社会的运转进行监控。这些设备会源源不断的产生新数据,这种数据的产
生方式是自动的。
简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和
自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生
的最根本原因。
正如 Google 的首席经济学家 Hal Varian 所说,数据是广泛可用的,所缺
乏的是从中提取出知识的能力。数据收集的根本目的是根据需求从数据中提取有
用的知识,并将其应用到具体的领域之中。
从“池塘捕鱼”到“大海捕鱼”
“大数据时代的预言家”维克托·迈尔-舍恩伯格(Viktor Mayer-Sch
nberger),在其所著的《大数据时代》一书中就阐释所谓“大数据”的含义,即
不仅人类生产和生活中“有意义”的信息海量产生,相比以往呈几何数级的爆炸
3 / 19
式增长,“无意义”的数据的膨胀速度也同样惊人;而且,政府、企业已经具备
了全面采集“大数据”并予以无遗漏分析的技术能力。
大数据本身是一个比较抽象的概念,单从字面来看,它表示数据规模的庞大。
但是仅仅数量上的庞大显然无法看出大数据这一概念和以往的“海量数据”
(Massive Data)、“超大规模数据”(Very Large Data)等概念之间有何区别。对
于大数据尚未有一个公认的定义,不同的定义基本是从大数据的特征出发,通过
这些特征的阐述和归纳,试图给出其定义。在这些定义中,比较有代表性的是 3V
定义,即认为大数据需满足三个特点:规模性(Volume)、多样性(Variety)和高
速性(Velocity)。除此之外,还有提出 4V 定义的,即尝试在 3V 的基础上增加
一 个 新 的 特 性 。 关 于 第 四 个 V 的 说 法 并 不 统 一 , IDC 市 场 研 究 公 司
(International Data Corporation 全球领先之科技产业媒体、研究与活动公司)
认为大数据还应当具有价值性(Value),大数据的价值往往呈现出稀疏性的特点。
而 IBM (International Business Machines Corporation 国际商业机器)认为
大数据必然具有真实性(Veracity)。维基百科对大数据的定义则简单明了:大数
据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据
集。
从数据库(Database, DB)到大数据(Big Data, BD),看似只是一个简单的技
术演进,但细细考究不难发现两者有着本质上的差别。大数据的出现,必将颠覆
传统的数据管理方式。在数据来源、数据处理方式和数据思维等方面都会对其带
来革命性的变化。如果要用简单的方式来比较传统的数据库和大数据的区别的话,
我们认为“池塘捕鱼”和“大海捕鱼”是个很好的类比。“池塘捕鱼”代表着传
统数据库时代的数据管理方式,而“大海捕鱼”则对应着大数据时代的数据管理
方式,“鱼”是待处理的数据。“捕鱼”环境条件的变化导致了“捕鱼”方式的根
本性差异。这些差异主要体现在如下几个方面:
数据规模:“池塘”和“大海”最容易发现的区别就是规模。“池塘”规模相
对较小,即便是先前认为比较大的“池塘”,譬如 VLDB(Very Large Database),
和“大海”XLDB(Extremely Large Database)相比仍旧偏小。“池塘”的处理对
象通常以 MB 为基本单位,而“大海”则常常以 GB,甚至是 TB、PB 为基本处理
单位。
4 / 19
数据类型:过去的“池塘”中,数据的种类单一,往往仅仅有一种或少数几
种,这些数据又以结构化数据为主。而在“大海”中,数据的种类繁多,数以千
计,而这些数据又包含着结构化、半结构化以与非结构化的数据,并且半结构化
和非结构化数据所占份额越来越大。
模式(Schema)和数据的关系:传统的数据库都是先有模式,然后才会产生数
据。这就好比是先选好合适的“池塘”,然后才会向其中投放适合在该“池塘”
环境生长的“鱼”。而大数据时代很多情况下难以预先确定模式,模式只有在数
据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。这就好比
先有少量的鱼类,随着时间推移,鱼的种类和数量都在不断的增长。鱼的变化会
使大海的成分和环境处于不断的变化之中。
处理对象:在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象。而在“大海”中,
“鱼”除了是捕捞对象之外,还可以通过某些“鱼”的存在来判断其他种类的
“鱼”是否存在。也就是说传统数据库中数据仅作为处理对象。而在大数据时代,
要将数据作为一种资源来辅助解决其他诸多领域的问题。
处理工具:捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就可以应对,
也就是所谓的 One Size Fits All。但是在“大海”中,不可能存在一种渔网能
够捕获所有的鱼类,也就是说 No Size Fits All。
从“池塘”到“大海”,不仅仅是规模的变大。传统的数据库代表着数据工
程(Data Engineering)的处理方式,大数据时代的数据已不仅仅只是工程处理的
对象,需要采取新的数据思维来应对。图灵奖获得者、著名数据库专家 Jim Gray
博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论和计算三
种式。当数据量不断增长和累积到今天,传统的三种式在科学研究,特别是一些
新的研究领域已经无法很好的发挥作用,需要有一种全新的第四种式来指导新形
势下的科学研究。基于这种考虑,Jim Gray 提出了一种新的数据探索型研究方
式,被他自己称之为科学研究的“第四种式”(The Fourth Paradigm)。
第四种式的实质就是从以计算为中心,转变到以数据处理为中心,也就是我
们所说的数据思维。这种方式需要我们从根本上转变思维。正如前面提到的“捕
鱼”,在大数据时代,数据不再仅仅是“捕捞”的对象,而应当转变成一种基础
剩余18页未读,继续阅读
智慧安全方案
- 粉丝: 3644
- 资源: 59万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0