《大数据导论》 熟悉大数据的定义 大数据导论-2全文共23页,当前为第1页。 所谓大数据,狭义上可以定义为:用现有的一般技术难以管理的大量数据的集合。 对大量数据进行分析,并从中获得有用观点,这种做法在一部分研究机构和大企业中,过去就已经存在了。现在的大数据和过去相比,主要有三点区别: 第一,随着社交媒体和传感器网络等的发展,在我们身边正产生出大量且多样的数据; 第二,随着硬件和软件技术的发展,数据的存储、处理成本大幅下降; 第三,随着云计算兴起,大数据的存储、处理环境已经没有必要自行搭建。 一、大数据的定义 大数据导论-2全文共23页,当前为第2页。 所谓"用现有的一般技术难以管理",例如是指用目前在企业数据库占据主流地位的关系型数据库无法进行管理的、具有复杂结构的数据;或者也可以说,是指由于数据量的增大,导致对数据的查询(Query)响应时间超出允许范围的庞大数据。 研究机构Gartner给出了这样的定义:"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 一、大数据的定义 大数据导论-2全文共23页,当前为第3页。 麦肯锡说:"大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存储、营理和分析的能力。这是一个被故意设计成主观性的定义,并且是一个关于多大的数据集才能被认为是大数据的可变定义,即并不定义大于一个特定数字的TB才叫大数据。因为随着技术的不断发展,符合大数据标准的数据集容量也会增长;并且定义随不同的行业也有变化,这依赖于在一个特定行业通常使用何种软件和数据集有多大。因此,大数据在今天不同行业中的范围可以从几十TB到几PB。" 一、大数据的定义 大数据导论-2全文共23页,当前为第4页。 随着"大数据"的出现,数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用正逐渐成为行业人士争相追捧的利润焦点,在全球引领了又一轮数据技术革新的浪潮。 一、大数据的定义 大数据导论-2全文共23页,当前为第5页。 从字面来看,"大数据"这个词可能会让人觉得只是容量非常大的数据集合而已。但容量只不过是大数据特征的一个方面,如果只拘泥于数据量,就无法深入理解当前围绕大数据所进行的讨论。因为"用现有的一般技术难以管理"这样的状况,并不仅仅是由于数据量增大这一个因素所造成的。 IBM说:"可以用3个特征相结合来定义大数据:数量(Volume,或称容量)、种类(Variety,或称多样性)和速度(Velocity),或者就是简单的3V,即庞大容量、极快速度和种类丰富的数据" 。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第6页。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第7页。 (1)Volume(数量) 最初考虑到数据的容量,是指被大数据解决方案所处理的数据量大,并且在持续增长。数据容量大能够影响数据的独立存储和处理需求,同时还能对数据准备、数据恢复、数据管理的操作产生影响。如今,存储的数据数量正在急剧增长中,我们存储所有事物,包括:环境数据、财务数据、医疗数据、监控数据等。有关数据量的对话已从TB级别转向PB级别,并且不可避免地会转向ZB级别。可是,随着可供企业使用的数据量不断增长,可处理、理解和分析的数据的比例却不断下降。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第8页。 典型的生成大量数据的数据源包括: (1)在线交易,例如官方在线销售点和网银。 (2)科研实验,例如大型强子对撞机和阿塔卡玛大型毫米及次毫米波阵列望远镜。 (3)传感器,例如GPS传感器,RFID标签,智能仪表或者信息技术。 (4)社交媒体、脸书、推特、微信、QQ等。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第9页。 (2)Variety(种类、多样性) 数据多样性指的是大数据解决方案需要支持多种不同格式、不同类型的数据。数据多样性给企业带来的挑战包括数据聚合、数据交换、数据处理和数据存储等。 随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括单击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第10页。 种类表示所有的数据类型。其中,爆发式增长的一些数据,如互联网上的文本数据、位置信息、传感器数据、视频等,用企业中主流的关系型数据库是很难存储的,它们都属于非结构化数据。 当然,在这些数据中,有一些是过去就一直存在并保存下来的。和过去不同的是,除了存储,还需要对这些大数据进行分析,并从中获得有用 大数据,作为一种现代信息技术的核心概念,是指那些以传统数据处理手段无法有效管理和利用的大量、高速、多样化的信息资产。狭义上,大数据被定义为超出一般技术能力范围的数据集合,尤其是那些不能用传统关系型数据库管理系统处理的复杂结构数据。随着社交媒体、物联网设备的普及,数据的生成速度和多样性迅速增加,同时,存储和处理成本的降低以及云计算的发展,使得大数据成为可能。 大数据的主要特点通常被概括为3V模型:Volume(数量)、Variety(种类/多样性)和Velocity(速度)。Volume指的是数据的海量规模,随着在线交易、科研实验、传感器数据以及社交媒体等数据源的激增,数据量呈现指数级增长,从TB到PB,甚至向ZB迈进。Variety意味着数据的多样性,包括结构化、半结构化和非结构化数据,如文本、图像、视频等,这给数据整合、处理和存储带来了新的挑战。Velocity则强调数据产生的速度,实时或近乎实时的数据处理需求变得至关重要。 大数据的处理模式与传统的数据管理方式不同,它不仅关注数据的存储,更注重从数据中提取有价值的信息,以支持决策制定、洞察市场趋势和优化业务流程。麦肯锡和Gartner等研究机构均强调了大数据在决策力、洞察力和流程优化方面的潜力。此外,IBM进一步扩展了大数据的特性,提出了5V模型,增加了Value(价值)和Veracity(真实性),强调从大数据中获取价值的重要性以及确保数据质量的必要性。 大数据的应用广泛,涵盖了金融、医疗、环保、社交媒体等多个领域,它改变了数据仓库、数据安全、数据分析和数据挖掘的实践。通过大数据分析,企业可以更好地理解客户需求、优化运营、预防风险,从而实现商业价值的最大化。随着技术的进步,大数据的定义和应用范围将持续演变,为企业和社会带来更多的创新机会。
- 粉丝: 192
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 数据库课程设计-仓库管理系统中文最新版本
- 技术资料分享TF卡资料很好的技术资料.zip
- 技术资料分享TF介绍很好的技术资料.zip
- 10、安徽省大学生学科和技能竞赛A、B类项目列表(2019年版).xlsx
- 9、教育主管部门公布学科竞赛(2015版)-方喻飞
- C语言-leetcode题解之83-remove-duplicates-from-sorted-list.c
- C语言-leetcode题解之79-word-search.c
- C语言-leetcode题解之78-subsets.c
- C语言-leetcode题解之75-sort-colors.c
- C语言-leetcode题解之74-search-a-2d-matrix.c