必修 1 数据与计算
第五章 数据处理和可视化表达
5.1 认识大数据
5.1.1 大数据
大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的
数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海
量、高增长率和多样化的信息资产。
5.1.2 大数据的特征
(1)从互联网产生大数据的角度来看,大数据具有“4V”特征:大量(Volume)、多
样(Variety)、低价值密度(Value)、高速(Velocity)。
第一,数据体量巨大。从 TB 级别跃升到 PB 级别。
第二,数据类型繁多。如网络日志、视频、图片、地理位置信息等。
第三,价值密度低。以视频为例,在连续不间断的监控过程中,有用的数据可能仅仅
一两秒。
第四,变化速度快。数据来自世界各地的网络终端,且以秒为单位快速变化。
(2)从互联网思维的角度来看,大数据具有三个特征:样本渐趋于总体,精确让位于
模糊,相关性重于因果。
第一,在大数据时代强调数据要全量而不是抽样,即强调数据规模全量,而不是强调
数量巨大。大数据时代有了更好的数据采集手段,让获取全量数据成为可能。
第二,大数据时代研究的数据如此之多,追求的不是精确性,而是模糊性。在大数据
时代,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观
层面拥有更好的洞察力。
第三,大数据时代不是因果关系,而是相关关系。在大数据时代,无须再紧盯事物之
间的因果关系,而应该寻找事物之间的相关关系;相关关系也许不能准确地告诉我们某件
事情为何会发生,但是会提醒我们这件事情正在发生。
(3)从大数据存储与计算的角度来看,大数据具有两个特征:分布式存储和分布式并
行计算。
第一,大数据存储在互联网不同的服务器与各客户终端。
第二,应用分布式并行计算处理互联网的大数据。
5.1.3 大数据对日常生活的影响
1.大数据使人们日常生活更为便捷:方便支付;方便出行;方便购物与产品推介;方
便看病与诊病。
2.大数据对人们日常生活产生的负面影响:个人信息泄露;信息伤害与诈骗。
第 1 页 共 11 页