《大数据导论》 熟悉大数据的定义 大数据导论-2全文共23页,当前为第1页。 所谓大数据,狭义上可以定义为:用现有的一般技术难以管理的大量数据的集合。 对大量数据进行分析,并从中获得有用观点,这种做法在一部分研究机构和大企业中,过去就已经存在了。现在的大数据和过去相比,主要有三点区别: 第一,随着社交媒体和传感器网络等的发展,在我们身边正产生出大量且多样的数据; 第二,随着硬件和软件技术的发展,数据的存储、处理成本大幅下降; 第三,随着云计算兴起,大数据的存储、处理环境已经没有必要自行搭建。 一、大数据的定义 大数据导论-2全文共23页,当前为第2页。 所谓"用现有的一般技术难以管理",例如是指用目前在企业数据库占据主流地位的关系型数据库无法进行管理的、具有复杂结构的数据;或者也可以说,是指由于数据量的增大,导致对数据的查询(Query)响应时间超出允许范围的庞大数据。 研究机构Gartner给出了这样的定义:"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 一、大数据的定义 大数据导论-2全文共23页,当前为第3页。 麦肯锡说:"大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存储、营理和分析的能力。这是一个被故意设计成主观性的定义,并且是一个关于多大的数据集才能被认为是大数据的可变定义,即并不定义大于一个特定数字的TB才叫大数据。因为随着技术的不断发展,符合大数据标准的数据集容量也会增长;并且定义随不同的行业也有变化,这依赖于在一个特定行业通常使用何种软件和数据集有多大。因此,大数据在今天不同行业中的范围可以从几十TB到几PB。" 一、大数据的定义 大数据导论-2全文共23页,当前为第4页。 随着"大数据"的出现,数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用正逐渐成为行业人士争相追捧的利润焦点,在全球引领了又一轮数据技术革新的浪潮。 一、大数据的定义 大数据导论-2全文共23页,当前为第5页。 从字面来看,"大数据"这个词可能会让人觉得只是容量非常大的数据集合而已。但容量只不过是大数据特征的一个方面,如果只拘泥于数据量,就无法深入理解当前围绕大数据所进行的讨论。因为"用现有的一般技术难以管理"这样的状况,并不仅仅是由于数据量增大这一个因素所造成的。 IBM说:"可以用3个特征相结合来定义大数据:数量(Volume,或称容量)、种类(Variety,或称多样性)和速度(Velocity),或者就是简单的3V,即庞大容量、极快速度和种类丰富的数据" 。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第6页。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第7页。 (1)Volume(数量) 最初考虑到数据的容量,是指被大数据解决方案所处理的数据量大,并且在持续增长。数据容量大能够影响数据的独立存储和处理需求,同时还能对数据准备、数据恢复、数据管理的操作产生影响。如今,存储的数据数量正在急剧增长中,我们存储所有事物,包括:环境数据、财务数据、医疗数据、监控数据等。有关数据量的对话已从TB级别转向PB级别,并且不可避免地会转向ZB级别。可是,随着可供企业使用的数据量不断增长,可处理、理解和分析的数据的比例却不断下降。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第8页。 典型的生成大量数据的数据源包括: (1)在线交易,例如官方在线销售点和网银。 (2)科研实验,例如大型强子对撞机和阿塔卡玛大型毫米及次毫米波阵列望远镜。 (3)传感器,例如GPS传感器,RFID标签,智能仪表或者信息技术。 (4)社交媒体、脸书、推特、微信、QQ等。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第9页。 (2)Variety(种类、多样性) 数据多样性指的是大数据解决方案需要支持多种不同格式、不同类型的数据。数据多样性给企业带来的挑战包括数据聚合、数据交换、数据处理和数据存储等。 随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括单击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第10页。 种类表示所有的数据类型。其中,爆发式增长的一些数据,如互联网上的文本数据、位置信息、传感器数据、视频等,用企业中主流的关系型数据库是很难存储的,它们都属于非结构化数据。 当然,在这些数据中,有一些是过去就一直存在并保存下来的。和过去不同的是,除了存储,还需要对这些大数据进行分析,并从中获得有用 大数据,作为信息技术飞速发展的产物,近年来已成为全球关注的焦点。它标志着一种新时代的数据革命,与以往的数据处理方式相比,大数据所带来的不仅仅是量的改变,更是质的飞跃。如今,大数据定义的演变,已成为推动行业发展和商业决策的关键力量。 一、大数据的基本定义 在大数据领域中,数据集通常被定义为那些超出传统数据处理手段范围的集合。这种数据量的庞大以及复杂性之高,使得传统的关系型数据库管理系统难以对其进行有效管理。因此,大数据在广义上被描述为需要新处理模式才能使决策力、洞察发现力和流程优化能力得到加强的海量、高增长率和多样化信息资产。 二、大数据的特点—3V模型 对于大数据的特征,普遍采用的描述框架为3V模型,即 Volume(数量)、Variety(种类/多样性)和Velocity(速度)。这个框架帮助我们从多个维度理解大数据的复杂性。 Volume代表了大数据的规模。随着技术的发展,我们如今存储的所有事物,包括环境数据、财务数据、医疗数据、监控数据等,已从TB级别转向PB级别,并且未来不可避免地将向ZB级别迈进。数据源也越来越多样化,涉及在线交易、科研实验、传感器数据以及社交媒体等多个领域。 Variety是大数据的多样性。现代企业中的数据不仅是传统的结构化数据,还包括网页、互联网日志文件、社交媒体论坛、电子邮件等原始、半结构化和非结构化数据。这种多样性要求企业必须具备整合、处理和存储各种不同类型数据的能力。 Velocity反映了数据的生成速度。在今天,实时或近乎实时的数据处理需求变得至关重要。数据处理速度的提升,使得企业能够更快地从数据中发现洞察,从而更快地做出决策。 三、大数据的扩展—5V模型 IBM提出的5V模型在3V的基础上增加了Value(价值)和Veracity(真实性)。Value强调了大数据分析所挖掘的价值,即从大量、多样、快速生成的数据中提取有价值的信息,支持决策制定。Veracity则突出了数据质量的重要性。在处理大规模数据时,保证数据的真实性、准确性,对于数据分析结果的有效性和可信度至关重要。 四、大数据的应用与影响 大数据技术已经渗透到金融、医疗、环保和社交媒体等多个领域,它的应用广泛,不仅仅体现在数据存储技术上,更深入到数据分析、数据挖掘等环节。通过大数据分析,企业能够更好地理解市场动态,预测客户行为,优化产品设计,以及提升运营效率。大数据的应用,正在引领着新一轮的商业和技术革新。 随着技术的不断进步,大数据的定义和应用范围仍然在持续演变,不断为行业发展和社会进步带来新的机遇。未来的大数据将更加注重智能化和自动化处理,提高数据处理和分析的效率,从而进一步释放数据的价值。同时,大数据的发展也引发了对于隐私保护和数据安全的深入讨论。在享受大数据带来的便利的同时,如何处理好数据的伦理和法律问题,也将成为社会必须面对的重大挑战。
- 粉丝: 197
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NSArgumentNullException如何解决.md
- VueError解决办法.md
- buvid、did参数生成算法
- tiny-cuda-cnn.zip
- 关于月度总结的PPT模板
- 手表品牌与型号数据集,手表型号数据
- 基于Java实现(IDEA)的贪吃蛇游戏-源码+jar文件+项目报告
- 数字按键3.2考试代码
- 颜色拾取器 for Windows
- 台球检测40-YOLO(v5至v11)、COCO、CreateML、Paligemma、TFRecord、VOC数据集合集.rar
- # 基于MATLAB的导航科学计算库
- Qt源码ModbusTCP 主机客户端通信程序 基于QT5 QWidget, 实现ModbusTCP 主机客户端通信,支持以下功能: 1、支持断线重连 2、通过INI文件配置自定义服务器I
- tesseract ocr 训练相关的环境部署包,包括jdk-8u331-windows-x64.exe、jTessBoxEditorFX-2.6.0.zip 等
- 好用的Linux终端管理工具,支持自定义多行脚本命令,密码保存、断链续接,SFTP等功能
- 大学毕业设计写作与答辩指南:选题、研究方法及PPT制作
- 小偏差线性化模型,航空发动机线性化,非线性系统线性化,求解线性系统具体参数,最小二乘拟合 MATLAB Simulink 航空发动机,非线性,线性,非线性系统,线性系统,最小二乘,拟合,小偏差,系统辨