基于大数据的数据分析系统架构 作者:李超宇 来源:《中国新通信》2020年第01期 摘 要:随着"互联网+"时代的发展,人们已经从各种信息数据的使用和接收方变为数据的发 送方,基于大数据的应用日渐成熟,各种行业类型的数据时刻都在产生着,基于大数据 的应用系统就是在如此庞大的数据量的基础上建立的应用系统,系统应当具备强大的数 据处理和分析能力,才能够在海量的数据当中寻求出有价值的数据,为行业发展提供洞 察力和优化行业流程,为决策层提供精准决策,从而使得用户能够掌握庞大的数据信息 资产。基于大数据的应用技术核心优势就是对有价值的数据进行处理和分析,本课题研 究介绍了基于大数据应用技术的数据分析系统架构的实现过程。 关键词:大数据;数据分析;系统架构 在信息时代的今天,各个行业领域都有大量的数据,善于分析利用这些数据, 能够为行业带来巨大的发展空间,甚至能够引起行业的变革,因此基于大数据的应用的 关键技术就是数据分析的系统的架构。 基于大数据的应用的出现,给传统的数据分析系统架构带来了新的挑战,数据 分析是隐藏在应用系统的背后,对于应用分析结果有举足轻重的作用,随着数据挖掘、 探索等技术的发展,基于大数据的数据分析系统架构应该侧重解决传统数据分析的三个 瓶颈问题:第一,分布式计算,分布式计算的设计思路是多个节点并行计算,强调的是 数据本地化,数据尽可能少传输。第二,分布式存储,所谓分布式存储就是将一个大文 件拆分为多个小文件分别存储到不同的主机,通过分片式管理技术对文件进行管理。第 三,数据的检索和存储相结合,基于大数据的数据分析面临着海量的数据和多种数据类 型,在不规范的数据中进行数据检索。 一、基于大数据的应用系统架构 在Hadoop体系的分布式应用中,基于大数据的数据分析应用架构已经和大数据 信息架构互相结合,为各个行业领域在大数据的应用中带来了许多经济价值和数据信息 资产,Hadoop体系采用云计算和分布式的应用技术,能够对大数据进行处理和分析,对 未来大数据的信息中更大价值的数据源进行进一步的数据挖掘,会获得更大的数据潜在 价值。 (一)Hadoop对日志数据处理 目前互联网站点的数量在呈指数级别增长,Web服务器会因为业务量的剧增而生 成庞大的数据日志文件數据,其中包括了网址访问和业务数据流程处理的相关数据,这 些日志文件数据会通过一系列的云计算算法处理后,上传到云端,通过分析处理这些数 据能够反映给整个应用系统的实时运行状态,同时也可以反馈遇到的一系列系统异常问 题。 (二)Hadoop并行处理系统架构 在Hadoop体系的分布式大数据应用中,数据采集模块会将采集到的各种类型的 数据传送到Hadoop的并行处理系统架构中,然后信息数据被保存到HDFS中,传送的数据 会被Hadoop体系中的MapReduce并行计算编程模型作为框架来进行系统化处理,MapRedu ce分布式的并行计算编程模型能够有效地解决数据分布范围大并且零散导致采集难的问 题,这些信息数据会在分析前被分散到各个分节点,然后系统会利用就近原则读取相邻 节点的数据,然后映射数据进行处理分析,经过处理分析后的数据会被再进行数据汇聚 合并,所以基于Hadoop体系的大数据分析应用具备高速、可靠的特点,能够满足大数据 的数据处理和分析的需求。 二、基于大数据的数据分析系统架构 (一)传统的大数据数据分析架构 传统的大数据数据分析架构,传统的BI数据分析,由于数据量和系统性能不能 满足大数据,所以基于此类的数据分析技术上是使用了大数据的数据分析组件替换传统 的BI系统组件,保留了大数据的ETL操作,相对解决基于大数据的BI数据分析。整个架构 相对简单易懂,缺点就是缺乏对实时数据分析的支持。 (二)流式数据分析架构 数据在应用过程中全部以流的形式进行分析处理,直接去掉了数据批处理,用 数据通道替换了ETL操作,经过流式数据分析处理加工后的数据,以信息推送的方式推送 给用户,相对于其他数据分析架构,流式架构由于取消ETL操作,所以数据的处理效率非 常高,但是由于没有了数据批处理,没有很好的支撑数据统计和重播,不利于离线进行 数据分析。 (三)Lambda数据分析结构 在大数据分析系统中Lambda架构是比较重要的一种数据分析架构方式,大多数 的架构都是基于这种架构,Lambda架构的数据通道分为两个:实时数据流分析和离线数 据分析,实时数据流的分析架构是流式架构,多数采用增量式计算,保障了数据处理分 析的实时性,离线数据分析就以全量运算的数据批处理为主,保证了数据的一致性。在 Lambda架构的最外层是一个实时和离线的数据分析合并层,这个合并层是Lambda架构的 关键,既集合了实时数据分析和离线数据分析的优点,对于数据分析的应用比较广泛, 适合于对实时数据分析和离
- 粉丝: 168
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助