没有合适的资源?快使用搜索试试~ 我知道了~
专家系统数据仓库的设计方案.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 115 浏览量
2022-07-08
02:29:38
上传
评论
收藏 2.56MB PDF 举报
温馨提示
试读
33页
专家系统数据仓库的设计方案.pdf专家系统数据仓库的设计方案.pdf专家系统数据仓库的设计方案.pdf专家系统数据仓库的设计方案.pdf专家系统数据仓库的设计方案.pdf专家系统数据仓库的设计方案.pdf专家系统数据仓库的设计方案.pdf专家系统数据仓库的设计方案.pdf专家系统数据仓库的设计方案.pdf
资源推荐
资源详情
资源评论
WORD 整理版
专家系统数据仓库设计方案
专业学习参考资料
WORD 整理版
数据仓库建设
1.1 数据仓库总体架构
专家系统接收增购项目车辆 TCMS 或其他子系统通过车地通信传输的实时或离
线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示
分析结果。针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修
复提供必要的支持。
根据专家系统数据仓库建设目标,结合系统数据业务规范,包括数据采集频率、
数据采集量等相关因素,设计专家系统数据仓库架构如下:
数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几
个方面的内容:
数据采集:负责从各业务自系统中汇集信息数据,系统支撑 Kafka、Storm、Flume
及传统的 ETL 采集工具。
专业学习参考资料
WORD 整理版
数据存储:本系统提供 Hdfs、Hbase 及 RDBMS 相结合的存储模式,支持海量数
据的分布式存储。
数据分析:数据仓库体系支持传统的 OLAP 分析及基于 Spark 常规机器学习算
法。
数据服务总线:数据系统提供数据服务总线服务,实现对数据资源的统一管理
和调度,并对外提供数据服务。
1.2 数据采集
专家系统数据仓库数据采集包括两个部分内容:外部数据汇集、内部各层数据
的提取与加载。外部数据汇集是指从 TCMS、车载子系统等外部信息系统汇集数据
到专家数据仓库的操作型存储层(ODS);内部各层数据的提取与加载是指数据仓库
各存储层间的数据提取、转换与加载。
1.2.1 外部数据汇集
专家数据仓库数据源包括列车监控与检测系统(TCMS)、车载子系统等相关子
系统,数据采集的内容分为实时数据采集和定时数据采集两大类,实时数据采集主
要对于各项检测指标数据;非实时采集包括日检修数据等。
根据项目信息汇集要求,列车指标信息采集具有采集数据量大,采集频率高的
特点,考虑到系统后期的扩展,因此在数据数据采集方面,要求采集体系支持高吞
吐量、高频率、海量数据采集,同时系统应该灵活可配置,可根据业务的需要进行
灵活配置横向扩展。
本方案在数据采集架构采用 Flume+Kafka+Storm 的组合架构,采用 Flume 和 ETL
工具作为 Kafka 的 Producer,采用 Storm 作为 Kafka 的 Consumer,Storm 可实现对海
量数据的实时处理,及时对问题指标进行预警。具体采集系统技术结构图如下:
专业学习参考资料
WORD 整理版
1.2.1.1数据汇集架构功能
Flume 提供了从 console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、
syslog(syslog 日志系统,支持 TCP 和 UDP 等 2 种模式),exec(命令执行)等数据源上
收集数据的能力。Flume 的数据接受方,可以是 console(控制台)、text(文件)、dfs(HDFS
文件)、RPC(Thrift-RPC)和 syslogTCP(TCP syslog 日志系统)等。在我们系统中由 kafka
来接收。
Kafka 分布式消息队列,支撑系统性能横向扩展,通过增加 broker 来提高系统
的性能。
Storm 流处理技术,支撑
Supervisor 横向扩展以提高系统的扩展性和数据处理的实
时性。
1.2.1.2采集架构优势
(一)
解耦
在项目中要平衡数据的汇集与数据的处理性能平衡,是极其困难的。消息队
列在处理过程中间插入了一个隐含的、基于数据的接口层,两边的处理过程
都要实现这一接口。这允许你独立的扩展或修改两边的处理过程,只要确保
它们遵守同样的接口约束。
冗余
专业学习参考资料
WORD 整理版
有些情况下,处理数据的过程会失败。除非数据被持久化,否则将造成丢失。
消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了
数据丢失风险。在被许多消息队列所采用的“插入-获取-删除”范式中,在
把一个消息从队列中删除之前,需要你的处理过程明确的指出该消息已经被
处理完毕,确保你的数据被安全的保存直到你使用完毕。
扩展性
因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容
易的;只要另外增加处理过程即可。不需要改变代码、不需要调节参数。扩
展就像调大电力按钮一样简单。
灵活性 & 峰值处理能力
在访问量剧增的情况下,应用仍然需要继续发挥作用,但是这样的突发流量
并不常见;如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是
巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力,而不会因
为突发的超负荷的请求而完全崩溃。
可恢复性
当体系的一部分组件失效,不会影响到整个系统。消息队列降低了进程间的
耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在
系统恢复后被处理。而这种允许重试或者延后处理请求的能力通常是造就一
个略感不便的用户和一个沮丧透顶的用户之间的区别。
送达保证
消息队列提供的冗余机制保证了消息能被实际的处理,只要一个进程读取了
该队列即可。在此基础上,IronMQ 提供了一个”只送达一次”保证。无论
有多少进程在从队列中领取数据,每一个消息只能被处理一次。这之所以成
为可能,是因为获取一个消息只是”预定”了这个消息,暂时把它移出了队
列。除非客户端明确的表示已经处理完了这个消息,否则这个消息会被放回
队列中去,在一段可配置的时间之后可再次被处理。
缓冲
在任何重要的系统中,都会有需要不同的处理时间的元素。例如,加载一张图
片比应用过滤器花费更少的时间。消息队列通过一个缓冲层来帮助任务最高
效率的执行—写入队列的处理会尽可能的快速,而不受从队列读的预备处理
的约束。该缓冲有助于控制和优化数据流经过系统的速度。
专业学习参考资料
剩余32页未读,继续阅读
资源评论
xxpr_ybgg
- 粉丝: 6435
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功