1
对于大数据的认识和理解
这学期选修了网络工程这门课程, 当时是抱着扫盲的态度选的这门课程, 给
自己定的目标不高, 只需要对一些基础的概念和网络结构有些认识就可以, 以免
以后在人前谈论的时候不至于成为 IT 文盲,被一些专业性的技术人员所吓倒。
事实证明, 态度决定一切, 由于自己刚开始设定的目标就比较低, 所以注定能够
上升到的水平也就不高。
经过这几周的学习, 对计算机网络的基础知识和大致结构有了一个粗浅的认
识。由于学生本身这方面的基础不扎实, 知识结构在这方面比较薄弱, 所以不能
在技术方面进行深入的研究, 只能对一些理论性的知识做一些了解和认识, 建立
起大概的知识框架。 在学习过程中, 魏忠老师所提及的知识中有一点印象最为深
刻,关于大数据 Big Data方面的提及引起了我很大的兴趣,越是自己私下里做了
一些阅读和查询(主要是维克托 ·迈尔 -舍恩伯格的《大数据时代》和网络上查看
的一些资料)。最后提交的这篇课程总结就着重报告一下自己在阅读了他人关于
大数据的一些理论后自身的认识。
在这之前, 我发现身边很多人都提起过大数据, 其中包括老师和同学。 可是
对于这些热门的新技术、 新趋势人们往往趋之若鹜却又很难说的透彻, 如果你问
他大数据和你有什么关系?估计很少同学能说出一二三来。 究其原因,一是因为
大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很 “无知 ”,因
为现在人们普遍都有以一种信息焦虑感, 别人知道的东西我不知道, 就会感到焦
虑,无论这些信息对你有没有用; 二是在工作和生活环境中真正能参与实践大数
据的案例实在太少了,所以大家没有必要花时间去知其所以然。当然我也一样,
虽然我希望能有些不一样,但是自己实在欠缺 IT 这方面的知识,所以也只能查
阅一些资料, 翻阅了最新的专业书籍, 在自己局限的认识下把这些些零散的资料
碎片或不同理解论述综合起来做一个类似于文献综述的报告, 其实我很真诚的希
望进入事物探寻本质。 下面就从理论、 技术、实践这三个层面写一下大数据的认
识
大数据的一些相关理论:
最早提出大数据时代到来的是麦肯锡: “数据,已经渗透到当今每一个行业
和业务职能领域, 成为重要的生产因素。 人们对于海量数据的挖掘和运用, 预示
着新一波生产率增长和消费者盈余浪潮的到来。 ”
业界( IBM 最早定义)将大数据的特征归纳为 4 个“V”(量 Volume,多样
Variety,价值 Value,速 Velocity),或者说特点有四个层面:第一,数据体量巨
大。大数据的起始计量单位至少是 P(1000 个 T)、E(100 万个 T)或 Z(10 亿
个 T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等
等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传
统的数据挖掘技术有着本质的不同。
很早就流传着一句话:三分技术,七分数据,得数据者得天下。先不论这句
话是谁说得,但是这句话的正确性已经不用去论证了。维克托 ·迈尔 -舍恩伯格在
《大数据时代》 一书中举了很多例证, 都是为了说明一个道理: 在大数据时代已
经到来的时候要用大数据思维去发掘大数据的潜在价值。 书中,作者提及最多的