没有合适的资源?快使用搜索试试~ 我知道了~
如今,数据分析能力正逐渐成为企业发展的标配,企业通过数据分析的过程将数据中的信息提取出来,进行处理、识别、加工、呈现,最后成为指导企业业务发展的知识和智慧。而处理、识别、加工、呈现的过程从本质上来讲,就是实现对数据的采集、清洗、加工、加载、建模分析,再到可视化的过程。采集是指集中企业待分析的原始数据的过程,例如可能是包含但不限于以下:-企业服务器的日志;-企业各种信息系统的数据(CRM/ERP/数据库);-企业的网站/App/小程序等客户端的用户行为记录;-使用的第三方系统(客服、IM、HR)提供的API;采集的方式基本上分为两种:PUSH模式:企业的数据一般来讲都是散落在很多地方,各种系统或
资源推荐
资源详情
资源评论
大数据平台的技术演化之路诸葛大数据平台的技术演化之路诸葛io平台设计实例平台设计实例
如今,数据分析能力正逐渐成为企业发展的标配,企业通过数据分析的过程将数据中的信息提取出来,进行处理、识别、加
工、呈现,最后成为指导企业业务发展的知识和智慧。而处理、识别、加工、呈现的过程从本质上来讲,就是实现对数据的采
集、清洗、加工、加载、建模分析,再到可视化的过程。
大数据平台的通用架构
1. 数据采集
采集是指集中企业待分析的原始数据的过程,例如可能是包含但不限于以下:
- 企业服务器的日志;
- 企业各种信息系统的数据(CRM/ERP/数据库);
- 企业的网站/App/小程序等客户端的用户行为记录;
- 使用的第三方系统(客服、IM、HR)提供的API;
采集的方式基本上分为两种:
PUSH模式:企业的数据一般来讲都是散落在很多地方,各种系统或者各种服务器,所以有一个数据采集中心,然后在各个数
据产生的位置都有一个agent(可以认为是采集程序)然后朝数据采集中心发送数据的过程就是PUSH,比如在App或者网站植
入了SDK,定期发送采集到的用户行为数据到服务端的过程就是PUSH模式;
PULL模式:企业有数据采集中心,从采集中心去访问获取各个数据产生点的数据,这个过程就是PULL,比如从企业的数据中
心去调用第三方系统的API获取数据,就是PULL模式。
2. 数据的清洗
数据清洗的过程是指对数据进行一些处理,过滤无用的信息,规范得到能用到的数据。包括但不限于以下情况:
- 过滤SPAM垃圾数据,例如被攻击/造假/BUG产生的大量数据
- 抽取有用字段,例如上传的数据包含的信息很多,只用到一小部分
- 原始数据有很多格式不规范,要统一格式
3.数据的加工
数据加工是指清洗后的数据,还需要补充一些信息,可能是通过数据库查询出来的,也可能是通过计算规则计算出来的,或者
算法技术加工出来的新字段。
例如,数据里面有个ip地址,需要计算出用户的地理位置,那么地理位置就是加工出来的字段。一般来讲,对于大多数大数据
分析平台而言,加工是很重要的过程,基本上最后可用来进行分析的数据,要通过这一步充分完成加工计算。
4. 数据加载
数据加载是指把加工后的数据加载到合适的存储,可能是Hadoop集群的HDFS上,也可能是某个数据库,有可能是文件等等
其他存储类型。
5. 建模分析
建模分析是指在查询前需要把数据进行处理,以优化查询,例如以下:
- 数据仓库建好了仓库模型,要把数据加载到数据仓库中
- 需要做数据索引,把数据进行索引优化
数据模型很重要,是整个数据处理分析的核心之一。每个企业都有自己的核心业务,以及核心目标,并且也有各自的数据源以
及数据类型,所以也就意味着每一家企业的数据模型多少都会有些差异,也就是最个性化的一个地方,数据仓库就是这个数据
模型的载体,一般来讲数据就是数据库技术,常见数据库之外,还有Infobright,Greenplum,Vertica,也有基于Hadoop技术
的,用HDFS作为基础的存储,然后使用的查询引擎,包括Imapla,Presto,SparkSQL等等。
通常而言,数据团队要进行复杂的查询和分析,都是在此基础之上,通过SQL语言或者代码查询来实现的。
6. 可视化
可视化是最终分析结果要展示的过程,例如“双十一”酷炫的图表,一般企业都有自己的数据看板等等。
可视化背后主要是执行SQL或者运行代码得到的数据结果,可能是一维,也可能是二维,还有可能是多维,然后选择合适的图
表类型进行展示,例如“线状图”、“柱状图”、“饼状图”、“雷达图”、“中国地图”等等。
以上是通用的大数据平台整个数据处理的方式,接下来就从诸葛io与通用的数据平台的差异入手,然后带入诸葛io的技术设
计。诸葛io的整套技术能够做到的是,对企业分析流程的效率提升。
大多数企业的分析现状
自建或者第三方统计平台(百度统计/友盟/Talkingdata)+ 数据BI团队(早期团队人数很少,甚至是一两个工程师兼任);
自建或者第三方统计平台:大多都是汇总统计指标平台。对通用指标(例如PV、UV、DAU、留存)的计算,对企业设定好的
业务行为(打车、订单、参与、金额)等汇总统计人数或者次数,数据平台存储的都是指标的汇总结果。指标的选择和下钻分
析都需要数据团队的支撑。
数据BI团队:完成基础数据平台的搭建,并且梳理核心业务分析目标,对基础数据进行采集建模,并完成各个部门的分析需
求。
所以最上面那张图就是大多数企业现在的分析现状:
基本上先统一由大数据部门整理输出各部门日常固定的数据指标,然后做个可视化,比如一个简单的页面
如果有新的分析需求,已经建模好的,那么数据团队就需要根据业务去写SQL然后得到结果,如果没有建模好的,就需要开始
采集原始数据,然后重新开始清洗,这样一个过程,往往都比较反复耗时,分析效率很低
主要原因是,这样一种分析流程,是由固定的业务指标驱动数据的采集和处理,然后数据处理的过程基本上都是多维汇总的统
计和计算
所以也就造成了问题:各个业务部门的分析需求需要依赖数据团队专业的数据分析能力进行问题建模,并且依赖他们SQL语言
或者代码能力完成分析目标。但数据部门往往也有核心的分析需求和任务,所以公司变大过程中很多问题变得很低效。
诸葛io平台技术的演化之路
诸葛io的整个数据处理也是符合上面的整个流程,和其他数据分析平台,尤其是传统数据平台,按照处理过程抽象的差异主要
如下:
剩余7页未读,继续阅读
资源评论
weixin_38740130
- 粉丝: 6
- 资源: 926
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 汇编语言安装文件:nasm-2.16.03
- Java 插件框架 (PF4J).zip
- image-svnadmin-2.5.3.tgz 正在使用ing,方便简单使用,运维好工具
- 地平线ros2文件.zip
- Java 多线程课程的代码及少量注释.zip
- 数据库课程设计-基于的个性化购物平台的建表语句.sql
- 数据库课程设计-基于的图书智能一体化管理系统的建表语句.sql
- Java 代码覆盖率库.zip
- Java 代码和算法的存储库 也为该存储库加注星标 .zip
- 免安装Windows10/Windows11系统截图工具,无需安装第三方截图工具 双击直接使用截图即可 是一款免费可靠的截图小工具哦~
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功