没有合适的资源?快使用搜索试试~ 我知道了~
数据建模培训资料 100页
资源推荐
资源详情
资源评论
1
【P01 目录】
开始之前,结合大家可能关心的话题,我列了四个:
1、什么是数据模型
2、建模在我们的项目/或工作中解决哪些问题
3、如何进行系统的初始化
4、如何建模
结合这四个问题,开始今天的分享
2
(一)什么是数据模型
【P11 数据模型/数据建模属于数据分析的
领域】
我们从三个方面来看
1、首先数据模型/数据建模属于数据分析的领域
那么什么是数据分析呢!
从最早的只有生产系统而没有单独的分析系统时,通过数据提取获取想要的数据
属于数据分析;
接下来开始建设的决策支持系统,包括即席查询、复杂报表、统计分析、多维查
询等大多数功能也属于数据分析;
后来各个政府部门和企业开始搞风控,建立风险指标体系,属于数据分析;
为了支撑政改,很多政府部门成立了相关的经济分析部门,进行统计分析,属于
数据分析;
IT 数据工程师在面对越来越庞大的数据,需要对数据进行清洗、转换、组织等
数据处理工作,属于数据分析;
大数据环境下衍生出的全文检索、知识图谱、数据碰撞都属于数据分析的范畴。
【P12 数据模型/数据建模的含义】
2、其次,数据模型/数据建模的含义,我们可以从以下四个方面来了解
(1)、业务模型
(2)、构建表关系/表链接
(3)、数学模型
(4)、算法模型
第一,业务模型
建立业务模型的重点是懂业务,即了解业务的整个过程。结合项目,就需要了解
3
CMS 系统以及具体业务,比如我们有采购、库存、销售、财务几个环节,各环节
都有些流程,不同环节之间有哪些关联,以及行业及企业规范要求等,都属于业
务的范畴
我们建的模型大部分是业务模型,指标体系大多数的本质也是在反映业务本身,
也可以归为业务模型
第二、构建表关系/表链接
构建表关系/表链接的核心含义是使几个相关的表之间建立好联系,以供我们可
以更好的数据分析,解决数据表结构层面上连接的一些问题,底层依赖 SQL 语言,
是 BI 工具/可视化建模工具的主要设计思路。
图中所示是数据之间常见的几种关系、在数学上称为交集、并集和差集。在 SQL
中可以通过等关联、合并、左关联来实现。
通俗来讲就是,我们在业务分析时,需要的数据遍布在不同的表中(可以简单理
解为 excel),而很多情况下需要从不同的表中获取我们想要的信息,那么了解
表间关系建立表接,并进行相应计算,就是我们要解决的问题。
第三、数学模型
数学模型是指按照一定的规律进行计算的模型,比如 excel 公式计算。包括简单
模型和复杂模型,比如有的指标可能用到表很少,条件相对简单,统计方法也比
较单一,可以归为简单模型,也有的指标用到很多表,各种复杂的关联关系,条
件也比较多,还涉及到一些不常用的函数,可以归为复杂模型。我们常用的评分
模型/积分模型,通过单个维度打分,再进行加权或其他计算,综合总分,就属
于数学模型。
数学模型的本质是通过数学计算/公式计算,得出最终确定的结果,即通过已知
4
得出已知。难点在于计算结果是否可以解决业务问题。
我们常说的数据建模主要指数学模型。
第四、算法模型
比如社交购物 App 的推荐系统,通过采集个人行为推送一些可能感兴趣的话题或
商品,并且随着个人行为的变化影响推送结果。
算法模型涉及到数据挖掘、机器学习、人工智能等方面的知识,很多算法最终目
的是分类,具体场景包括事件预测、图像识别、视频识别、语言识别、语义识别
等。与数学模型通过已知得出已知不同,算法模型有很大的不确定性,但同时又
有很多可能性。
【P13 数合建模简介】
3、数合建模简介
刚刚我们讲了数据建模属于数据分析的领域,同时又从四个方面讲了数据建模的
含义,那么数合建模是一个怎样的工具呢
数合建模是基于高性能处理及建模可视化计算技术的大数据处理平台。能够满足
不同的分析场景,实现数据应用过程的全流程免代码、可视化,从业务构建到服
务应用分钟级完成。从数据配置、到建模分析、数据挖掘,到结果可视化,对数
据进行全价值链管理。高度灵活可配置的数据建模界面,通过拖拉拽方式快速进
行复杂的数据建模。既可以构建数学模型,完成现有业务分析工作,也可以构建
数据挖掘模型,支撑预测类业务场景。
近期支撑了市级公安系统的建模大赛,系统上线初期,经过短期的应用,大约有
几十个模型,到初赛前后,大约过了 2 个多月的时间,积累到 400 多个模型。又
过了大约 2 个月时间,决赛的时候,系统已经积累到 800 多个模型了。这些模型
都是公安用户自已建的,不处是因为它的数据处理的能力、灵活性、还是知识库
的属性,在公安系统确实解决了很多实际问题,希望在咱们这也能发挥建模的作
用。
5
(二)建模在我们的项目或工作中解决哪些问题
【P21 建模在我们的项目或工作中解决哪些
问题】
数据建模及上下两个环节示意图
通过以上示意图,描述了数据建模以及上、下游共三个环节的内容。
上游由 ETL 厂商将业务系统数据抽取/同步到大数据平台的接入层。
数据建模环节的内容主要包括数据配置,数据建模、任务管理三部分。通过系统
初始化工作将接入层数据库配置到数据建模平台;利用接入层数据及各类算子构
建汇总模型、指标模型、风险模型等各类模型;并通过任务配置,定期生成各类
模型结果,自动封装 JSON 格式的 API。
应用厂商对接基于数据模型结果的 API,进行上层应用的展现。
剩余105页未读,继续阅读
资源评论
王永翔
- 粉丝: 469
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 本科毕业设计基于C# wpf人脸识别的考勤系统的设计与实现源码.zip
- 基于Ruoyi+uniapp实现学生考勤系统 学生考勤源码+项目说明.zip
- feae6bc968ca68a099455d8b8a8dea35
- 基于Pytorch训练CIRAR10上分类算法.zip
- Pytorch-pytorch深度学习教程之Tensorboard.zip
- 基于C++和Python开发yolov8-face作为人脸检测器dlib作为人脸识别器的人脸考勤系统源码+项目说明.zip
- Pytorch-pytorch深度学习教程之变分自动编码器.zip
- Pytorch-pytorch深度学习教程之神经风格迁移.zip
- Pytorch-pytorch深度学习教程之深度残差网络.zip
- Pytorch-pytorch深度学习教程之循环神经网络.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功