没有合适的资源?快使用搜索试试~ 我知道了~
大数据时代的统计学.doc
0 下载量 183 浏览量
2023-07-30
01:03:56
上传
评论
收藏 41KB DOC 举报
温馨提示
试读
11页
大数据时代的统计学.doc
资源推荐
资源详情
资源评论
。
-可编辑修改-
大数据时代的统计学
摘要:本文主要围绕“大数据”展开话题,结合“统计学”专业,论述了什么是大数据,什么
是统计学,在对概念的了解基础上掌握大数据的发展历程以及统计学的发展历程。从中找出
大数据与统计学的联系,然后进一步了解在大数据时代下统计学所处的地位以及大数据时代
下统计学的变化和发展。在前人的研究基础上,我们进一步的发现问题并探讨问题,运用统
计学方法去解决大数据时代下的一些问题,并提出自己的看法。
关键词:大数据;统计学;数据挖掘;数据分析
引言
本文写作的目的在于阐述大数据的定义、历史发展及趋势、运用领域等有关大数据的
问题,以及阐述统计学的定义、发展趋势、运用领域等有关统计方面的问题。在此基础上探
析大数据时代下的统计学发生的变化,带来的影响,以及所导致的统计学的发展趋势。
有关大数据的文献很多,涉及的领域也相当广泛,如互联网、天文学、大气科学、基
因组学、大规模电子商务等等,都离不开计算机作为载体,它们都成为了大数据的来源。本
文写作主要基于运用统计学知识去处理大数据所涉及问题,而运用统计方法分析问题所涉及
的范围也相当广泛。对于大数据的到来,对于统计学来说是福音,因为它为大数据时代处理
大数据问题带来了有效的解决方法。
本文所引用文献主要来自于 2011 年到 2015 年的国内外有关大数据的期刊文献,从
不同角度描述了大数据对当今时代的影响,尤其是对本文的另一位主角--统计学的影响。
而对于一个统计学专业出身的人,对于大数据时代下统计学的发展有喜有忧,大数据时代的
到来在一定程度上促进了统计学的发展,同样的也带来了巨大的挑战。这些都需要我们一步
步的解决并完善。
正文
1 大数据的来源与发展历程
“大数据”这个术语最早期的引用可追溯到 apache org 的开源项目 Nutch。当时,
大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷
歌 MapReduce 和 Google File System (GFS)的发布,大数据不再仅用来描述大量的
。
-可编辑修改-
数据,还涵盖了处理数据的速度
[1-5]
。不过,大约从 2009 年开始,“163 大数据”才成为
互联网信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长
50%,每两年便将翻一番,而目前世界上 90%以上的数据是最近几年才产生的。此外,数据
又并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数
码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变
化,也产生了海量的数据信息。就这样,“大数据”在不知不觉中进入了我们的生活,无论
哪里都有着它的影子,这说明“大数据时代”已经到来。
我们可以这样来定义“大数据时代”,大数据时代是建立在通过互联网、物联网等现代
网络渠道广泛大量数据资源收集基础上的数据存储、价值提炼、智能处理和展示的信息时代。
在这个时代,人们几乎能够从任何数据中获得可转换为推动人们生活方式变化的有价值的知
识
[22]
。“大数据时代”的到来引起了业界和学界的广泛关注,大量研究成果不断涌现。那么
什么是大数据呢?大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到
无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经
营决策更积极目的的资讯。大数据是一种大规模数据的管理和利用的商业模式和技术平台的
泛指,它与传统的海量数据不同的是,它除了数据规模呈现几何级数增长的特征之外,还包
括所有数据类型的采集、分类、处理、分析和展现等多个方面,从而最终实现从大数据挖掘
潜在巨大价值的目的
[18]
。到目前为止对于大数据还没有统一的定义。
对于大数据,其特点
[18]
在于:(1)数据体量大。普遍认为 PB 级的数据为大数据的起
点。(2)数据类型繁多。既可以是传统的有因果关系的结构化数据如关系数据库数据,但
更多的是诸如网络日志、视频、图片、地理位置信息等等的半结构化和非结构化数据。
(3)价值密度低。大数据蕴藏的价值虽然巨大,价值密度却很低,往往需要对海量的数据
进行挖掘分析才能得到真正有用的信息,从而产生价值。以视频为例,连续不间断监控过程
中,可能有用的数据仅有一两秒。(4) 处理速度快。大数据时代更强调实时分析,而不是批
量分析,奉行 1 秒定律。即一般要在秒级时间范围内给出分析结果,时间太长就失去价值。
基于统计学的角度,我们应该如何理解“大数据”呢?李金昌认为,大数据不是基于人
工设计、借助传统方法而获得的有限、固定、不连续、不可扩充的结构型数据,而是基于现
代信息技术与工具可以自动记录、储存和连续扩充的、大大超出传统统计记录与储存能力的
一切类型的数据
[20]
。
。
-可编辑修改-
2 统计学的发展历程
由于人类的统计实践是随着计数活动而产生的,因此,统计发展史可以追溯到远古的原
始社会,也就是说距今足有五千多年的漫长岁月。但是,能使人类的统计实践上升到理论上
予以概括总结的程度,即开始成为一门系统的学科统计学,却是近代的事情,距今只有三百
余年的短暂历史。统计学发展的概貌,大致可划分为古典记录统计学、近代描述统计学和现
代推断统计学三种形态
[18-20]
。
古典记录统计学形成期间大致在十七世纪中叶至十九世纪中叶。统计学在这个兴起阶段,
还是一门意义和范围不太明确的学问,在它用文字或数字如实记录与分析国家社会经济状况
的过程中,初步建立了统计研究的方法和规则。到概率论被引进之后,才逐渐成为一项较成
熟的方法。最初卓有成效地把古典概率论引进统计学的是法国天文学家、数学家、统计学家
拉普拉斯(P.S. Laplace,1749~1827)。因此,后来比利时大统计学家凯特勒指出,统
计学应从拉普拉斯开始。
近代描述统计学形成期间大致在十九世纪中叶至二十世纪上半叶。由于这种“描述”特
色由一批原是研究生物进化的学者们提炼而成,因此历史上称他们为生物统计学派。生物统
计学派的创始人是英国的高尔登(F. Galton,1822~1911),主将是高尔登的学生毕尔生
(K.Pearson,1857~1936)。
现代推断统计学形成期间大致是二十世纪初叶至二十世纪中叶。人类历史进入二十世纪
后,无论社会领域还是自然领域都向统计学提出更多的要求。各种事物与现象之间繁杂的数
量关系以及一系列未知的数量变化,单靠记录或描述的统计方法已难以奏效。因此,相继产
生“推断”的方法来掌握事物总体的真正联系以及预测未来的发展。从描述统计学到推断统
计学,这是统计发展过程中的一个大飞跃。统计学发展中的这场深刻变革是在农业田间试验
领域中完成的。因此,历史上称之为农业试验学派。对现代推断统计的建立贡献最大的是英
国统计学家哥塞特(W.S. Gosset,1876~1937)和费雪(R.A. Fisher,1890~
1962)。
在大数据时代,对统计学来说既是机遇又是挑战,机遇在于大数据的分析主要建立在统
计学的基础上对数据进行处理、分析,从而使得大数据“可视化”,而挑战在于,当下传统
统计学的方法对于大数据的不适用,这需要我们进一步对统计学进行发展与创新。
3 大数据时代对统计学的影响
剩余10页未读,继续阅读
资源评论
xinkai1688
- 粉丝: 335
- 资源: 8万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功