总体技术方案2.docx资源-CSDN文库

版权申诉

199 浏览量 2023-01-27 23:08:39 上传评论收藏 940KB DOCX 举报

资源推荐

资源详情

资源评论

（2）总体技术方案（包括项目所依据的技术原理、主要技术与性能指标、项目拟执行的质

量标准类型、质量标准名称）

1. 大数据分布统一处理模型及编程方法架构

1.1 主要设计思想和设计目标､设计原则

设计思想:将海量数据分解到由大量 ARM 或 X86 架构计算机构成的低成本计算平台上进行

实时处理,依靠分布式云计算软件进行容错,从而提升移动网络海量信令数据分析的实时性

和性价比｡

设计目标:利用 ARM 或 X86 架构计算机,建立云计算平台,能够对流量超过 48000Mbps 的数

据监测流进行实时处理,提供多种业务支持｡系统具有可动态可伸缩性､高度容错性和响应实

时性,达到较之传统方案一个数据量级的性能价格比提升｡

设计原则:

(1)前瞻性技术与实际应用环境相结合

本设计是既是先进技术应用示范,又是工程实施型设计｡把握技术正确性和先进性是前提,

但是前瞻性技术实施必须在资源池的实际应用环境和实际监测流量的基础上进行,必须结合

资源池平台的实际情况进行研究和开发,只有与实际应用环境相结合才有实际应用价值｡

(2)学习借鉴国外先进技术与自主创新相结合

在基于资源池的云计算平台用于超大规模数据处理方面,国内外几乎是在一个起跑线上;

但在关键技术研究及既往的技术积累方面,国外一些大公司有着明显的优势｡我们将积极学

习借鉴国外先进的云计算技术,同时与自主创新相结合,形成功能强大､性能卓越的能够满足

实际应用环境需求的云计算信令处理和分析平台｡

2. 主要技术与性能指标

2.1、分布式数据索引管理技术；

随着移动互联网、物联网、云计算技术的蓬勃发展，非结构化、半结构化、结构化数据

均成倍增长，非结构化数据的超大规模和增长，总数据量已经达到 80~90%，比结构化数据

增长快 10 倍到 50 倍。因此，如何高效的进行分布式数据管理就成为了一个重中之重。

下表列出了分布式数据存储系统的技术挑战和应对措施。

技术挑战

应对措施

数据完整性

CRC 校验和保证数据完整性，客户端写一个块之前会计算其对应

的校验和。校验和文件和数据块存储在 datanode 的相同目录下。客

户端读取数据块并读取其校验和文件，进行校验。校验失败则尝试其

他副本。

数据块副本之间的

一致性

简单一致性模型即一个文件一旦创建、写入、关闭之后就不需要

修改了

体系架构

采用主从结构的体系，一个集群是由一个名字节点管理元数据的

命名空间，和多个数据节点来管理数据块的存储。

数据块存储

将一个文件分割成一个或多个的数据块，这些数据块存储在一组

数据节点中。元数据节点操作文件命名空间的文件或目录操作，如打

开，关闭，重命名，等等。它同时确定块与数据节点的映射。数据节

点来负责来自文件系统客户的读写请求。

数据副本放置位置

在数据块复制数为 3 的情况下，放置方式是将第一个放在本地数

据节点，将第二个复制放到本地机架上的另外一个数据节点而将第三

个复制放到不同机架上的数据节点。这种方式减少了机架内的写流量，

提高了写的性能。机架失效的机会远小于机器实效的。这种方式没有

影响数据的可靠性和可用性的保证。但是它减少了读操作的网络聚合

带宽。

读操作时的副本选

择

对一个读操作来说应该读取离它最近的数据块副本。如果在读节

点的同一个机架上就有这个复制，就直接读这个，如果物理集群是跨

越多个数据中心，那么本地数据中心的复制是优先于远程的复制。

2.2、实时多表关联查询技术；

高性能的关联查询需要根据不同的模式采用不同关联算法，在基于代价的优化方式下，

一般采用 hash join 算法，它是一种用于 equi-join（而 anti-join 就是使用 NOT IN 时的 join）

的技术。

Hash join 的主要资源消耗在于 CPU（在内存中创建临时的 hash 表，并进行 hash 计算）。

在绝大多数情况下，hash join 效率比其他 join 方式效率更高：在 Sort-Merge Join(SMJ)，两张

表的数据都需要先做排序，然后做 merge。因此效率相对最差；Nested-Loop Join(NL)效率比

SMJ 更高。特别是当驱动表的数据量很大（集的势高）时。这样可以并行扫描内表。Hash join

效率最高，因为只要对两张表扫描一次。

Hash join 一般用于一张小表和一张大表进行 join 时。Hash join 的过程大致如下（在并

行情况下）：

（1）一张小表被 hash 在内存中。因为数据量小，所以这张小表的大多数数据已经驻

入在内存中，剩下的少量数据被放置在临时表空间中；

（2）每读取一条大表的记录，和内存中小表的数据比较，如果符合先做 join，而不直

接输出，直到整张大表数据读取完毕。如果内存足够，Join 好的数据就保存在内存中。否则，

就保存在临时表空间中。

（3）当大表的所有数据都读取完毕，将临时表空间中的数据以其输出。如果小表的数

据量足够小，那所有数据就都在内存中了，可以避免对临时表空间的读写。

基于规则的优化方式下，经常采用 Sort-Merge Join(SMJ)连接和 Nested-Loop Join(NL)连接。

Nested Loop Join(嵌套循环联结) 对于主表的每条记录将其与从表的每条记录在 JOIN

条件的字段上直接比较并筛选出符合条件的元组。被联结的表所处内层或外层的顺序对磁盘

I/O 开销有着非常重要的影响，而 CPU 开销相对来说影响较小。

Nested Loop 一般在两个集合都很大的情况下效率就相当差了，而 Sort-Merge 在这种情

况下就比它要高效不少，尤其是当两个集合的 JOIN 字段上都有聚集索引(clustered index)存

在时，Sort-Merge 性能将达到最好。

基本算法主要有两个步骤：

（1）按 JOIN 字段进行排序

（2）对两组已排序集合进行合并排序，从来源端各自取得数据列后加以比较(需要根据

是否在 JOIN 字段有重复值做特殊的“分区”处理)

有两个因素左右 Sort-Merge 的开销：JOIN 字段是否已排序以及 JOIN 字段上的重复值

有多少。

　　 • 最好情况下(两列都已排序且至少有一列没有重复值)：O (n + m) 只需要对两个

集合各扫描一遍。

　　 • 最差情况下(两列都未排序且两列上的所有值都相同)：O (n * log n + m * log m + n

剩余12页未读，继续阅读

评论收藏

内容反馈

版权申诉

地理探险家

粉丝: 1045
资源: 5416

总体技术方案2.docx

总体技术方案2 (2).docx

总体技术方案2.pdf

总体技术方案2 (2).pdf

总体技术方案.pdf

智慧社区和智能家居总体技术融合方案.docx

项目总体技术方案.docx

会计综合管理软件总体技术方案.docx

房地产预警预报信息采集系统总体设计方案2.docx

总体技术方案-模板.doc

工程总体建设方案书.docx

电子政务总体技术框架.docx

MD380总体技术方案.pdf

IMS核心网总体技术方案

IPTV总体建设方案规划.docx

集团ERP信息化建设总体技术实现方案.docx

智慧小区总体承包方案书.docx

IPTV网络卡拉OK业务系统总体技术解决方案.docx

大数据分析平台总体架构方案 .docx

JAVA业务总体技术方案

云计算平台总体技术方案

方案、施工、技术、总体策划

总体安全施工方案.docx

车联网总体技术要求.docx

桂林市房地产信息网总体解决方案改.docx

房地产预警预报信息采集系统总体设计方案7.docx

房地产预警预报信息采集系统总体设计方案6.docx

房地产预警预报信息采集系统总体设计方案5.docx

房地产预警预报信息采集系统总体设计方案4.docx

最新资源