【免费】大数据-Inceptor技术白皮书.pdf_多个存储过程一起运行资源-CSDN文库

需积分: 0 112 浏览量更新于2022-12-24 收藏 907KB PDF 举报

ྒߌྐ༏॓࠯čഈݚĎႵཋ܄ඳ Transwarp Inceptor ࠯ඌϢ௃඀ 2014 TRANSWARP 星环科技 Hadoop由HDFS和Map/Reduce组成。HDFS仍然是一个高可扩展的分布式文件系统，是大数据软件栈的基石。Map/Reduce在处理PB级别的数据时，仍然具有高容错性、高吞吐量的特点。但由于复杂的工作流通常需要多个阶段的Map/Reduce任务，而Map/Reduce的输入输出必须经过低速磁盘，导致运行复杂迭代任务时非常低效，因此不适合对延时要求高的交互式分析或者需要复杂迭代的数据分析任务。而Spark是一个基于内存计算的开源集群计算系统，目的是更快速地进行数据分析。 Spark 提供了与Hadoop Map/Reduce 相似的分布式计算框架，但却有基于内存和迭代优化的设计，因此在交互式数据分析和数据挖掘工作负载中表现更优秀。随着对大数据技术研究的深入，Spark开源生态系统得到了快速发展，已成为大数据领域最活跃的开源项目之一。Spark之所以吸引如此多的关注，究其原因主要是因为Spark具有以下三方面特征：虽然Spark具有以上三大优点，但从目前Spark的发展和应用现状来看，Spark自身也存在很多缺陷，主要包括以下几个方面：因此，尽管Spark正活跃在众多大数据公司的技术体系中，但是如果Spark本身的这些缺陷得不到及时处理，将会严重影响Spark的普及和发展。星环科技有针对性的开发，推出了一系列关于Spark的大数据平台技术方案，这些难题便迎刃而解。星环科技推出的基于Spark的交互式分析引擎Inceptor，从下往上分三层架构，最底层是分布式缓存（ Transwarp Holodesk），可建在内存或者SSD上；中间层是Apache Spark计算引擎层；最上层包括SQL 2003 和PL/SQL编译器、统计算法库和机器学习算法库，提供完整的R语言访问接口。高性能：Spark对分布的数据集进行抽象，创新地提出RDD(Resilient Distributed Dataset)的概念，所有的统计分析任务被翻译成对RDD的若干基本操作组成的有向无环图(DAG)。RDD可以被驻留在内存中，后续的任务可以直接读取内存中的数据；同时分析DAG中任务之间的依赖性可以把相邻的任务合并，从而减少了大量的中间结果输出，极大减少了磁盘I/O，使得复杂数据分析任务更高效。从这个意义上来说，如果任务够复杂，迭代次数够多，Spark比Map/Reduce快一到两个数量级。高灵活性：Spark是一个灵活的计算框架，适合做批处理、工作流、交互式分析、迭代式机器学习、流处理等不同类型的应用，因此Spark可以成为一个用途广泛的计算引擎，并在未来取代Map/Reduce的地位。与Hadoop生态完美融合：Spark可以与Hadoop生态系统的很多组件互操作。Spark可以运行在新一代资源管理框架YARN上，它还可以读取已有的存放在Hadoop上的数据，这是个非常大的优势。稳定性：由于代码质量问题，Spark长时间运行会经常出错，在架构方面，由于大量数据被缓存在内存中， Java垃圾回收缓慢的现象严重，导致Spark的性能不稳定，在复杂场景SQL的性能甚至不如现有Map/Reduce。不能处理大数据：单台机器处理数据过大，或者由于数据倾斜导致中间结果超过内存大小时，常常出现内存不够或者无法运行得出结果。但是Map/Reduce计算框架却可以处理大数据，因此在这方面Spark不如Map/Reduce 有效。不支持复杂的SQL统计：目前Spark支持的SQL语法的完整程度还不能应用在复杂数据分析中。在可管理性方面，Spark与YARN的结合不完善，这就在用户使用过程中埋下隐患，易出现各种难题。基于Spark的交互式分析引擎技术解析基于Spark的交互式分析引擎技术解析 2014 TRANSWARP 星环科技 Transwarp Inceptor对Spark进行了大量的改进，具有高性能、稳定性好、功能丰富、易管理等特征，可以切实解决Spark本身存在的难题。具体而言，星环Inceptor具有以下几点优势：高性能首先，支持高性能Apache Spark作为缺省执行引擎，可比原生的Hadoop Map/Reduce快；其次，通过建立独立于Spark的分布式列式缓存层，可以有效防止GC的影响，消除Spark的性能波动，同时在列式缓存上实现索引机制，进一步提高了执行性能；再次，在SQL执行计划优化方面，实现了基于代价的优化器（cost based optimizer）以及多种优化策略，性能可以比原生Spark快数倍；最后通过全新的方法解决数据倾斜或者数据量过大的问题《大数据-Inceptor技术白皮书》探讨了大数据分析领域中Hadoop、Spark及星环科技Inceptor的关键技术和挑战。文章指出，Hadoop的核心组件HDFS提供了高可扩展性的分布式存储，而Map/Reduce则以其高容错性和吞吐量处理大规模数据。然而，Map/Reduce在处理需要多阶段迭代的任务时效率低下，不适合交互式分析。 Spark作为内存计算的集群计算系统，因其内存优化和迭代计算特性，在交互式分析和数据挖掘中表现出色。Spark的三大特点包括：内存计算加速、处理多样化的计算任务和与Hadoop生态系统的良好集成。但Spark也存在一些缺陷，如长时间运行的稳定性问题、内存管理导致的性能波动、对大数据处理能力的局限以及对复杂SQL支持的不足。针对Spark的局限，星环科技推出了Inceptor，一个基于Spark的交互式分析引擎。Inceptor采用三层架构，包括分布式缓存层（Transwarp Holodesk）、Apache Spark计算层和丰富的功能层，支持SQL和R语言接口。Inceptor针对Spark的性能问题进行了优化，如通过独立的列式缓存层减少GC影响，实现索引以提升查询速度，使用代价优化器优化SQL执行计划，以及解决了数据倾斜和大数据处理问题，确保了更高效的性能。此外，Inceptor的高灵活性让它能够适应批处理、工作流、交互式分析等多种应用场景，且与YARN的兼容性提升了其在Hadoop生态系统中的实用性。星环科技的这一创新解决方案不仅提升了大数据分析的速度，还增强了系统的稳定性和可管理性，为大数据分析提供了更全面的解决方案。通过Inceptor，星环科技成功地解决了Spark的痛点，推动了大数据分析技术的发展和应用。

星环信息科技（上海）有限公司

Transwarp Inceptor

技术白皮书

2014 TRANSWARP 星环科技

Hadoop由HDFS和Map/Reduce组成。HDFS仍然是一个高可扩展的分布式文件系统，是大数据软件栈的基

石。Map/Reduce在处理PB级别的数据时，仍然具有高容错性、高吞吐量的特点。但由于复杂的工作流通常需

要多个阶段的Map/Reduce任务，而Map/Reduce的输入输出必须经过低速磁盘，导致运行复杂迭代任务时非常

低效，因此不适合对延时要求高的交互式分析或者需要复杂迭代的数据分析任务。而Spark是一个基于内存计算

的开源集群计算系统，目的是更快速地进行数据分析。 Spark 提供了与Hadoop Map/Reduce 相似的分布式计

算框架，但却有基于内存和迭代优化的设计，因此在交互式数据分析和数据挖掘工作负载中表现更优秀。

随着对大数据技术研究的深入，Spark开源生态系统得到了快速发展，已成为大数据领域最活跃的开源项目

之一。Spark之所以吸引如此多的关注，究其原因主要是因为Spark具有以下三方面特征：

虽然Spark具有以上三大优点，但从目前Spark的发展和应用现状来看，Spark自身也存在很多缺陷，主要

包括以下几个方面：

因此，尽管Spark正活跃在众多大数据公司的技术体系中，但是如果Spark本身的这些缺陷得不到及时处理，

将会严重影响Spark的普及和发展。星环科技有针对性的开发，推出了一系列关于Spark的大数据平台技术方案，

这些难题便迎刃而解。

星环科技推出的基于Spark的交互式分析引擎Inceptor，从下往上分三层架构，最底层是分布式缓存（

Transwarp Holodesk），可建在内存或者SSD上；中间层是Apache Spark计算引擎层；最上层包括SQL 2003

和PL/SQL编译器、统计算法库和机器学习算法库，提供完整的R语言访问接口。

高性能：Spark对分布的数据集进行抽象，创新地提出RDD(Resilient Distributed Dataset)的概念，所有的统

计分析任务被翻译成对RDD的若干基本操作组成的有向无环图(DAG)。RDD可以被驻留在内存中，后续的任

务可以直接读取内存中的数据；同时分析DAG中任务之间的依赖性可以把相邻的任务合并，从而减少了大量

的中间结果输出，极大减少了磁盘I/O，使得复杂数据分析任务更高效。从这个意义上来说，如果任务够复杂，

迭代次数够多，Spark比Map/Reduce快一到两个数量级。

高灵活性：Spark是一个灵活的计算框架，适合做批处理、工作流、交互式分析、迭代式机器学习、流处理等

不同类型的应用，因此Spark可以成为一个用途广泛的计算引擎，并在未来取代Map/Reduce的地位。

与Hadoop生态完美融合：Spark可以与Hadoop生态系统的很多组件互操作。Spark可以运行在新一代资源管

理框架YARN上，它还可以读取已有的存放在Hadoop上的数据，这是个非常大的优势。

稳定性：由于代码质量问题，Spark长时间运行会经常出错，在架构方面，由于大量数据被缓存在内存中，

Java垃圾回收缓慢的现象严重，导致Spark的性能不稳定，在复杂场景SQL的性能甚至不如现有Map/Reduce。

不能处理大数据：单台机器处理数据过大，或者由于数据倾斜导致中间结果超过内存大小时，常常出现内存

不够或者无法运行得出结果。但是Map/Reduce计算框架却可以处理大数据，因此在这方面Spark不如Map/Reduce

有效。

不支持复杂的SQL统计：目前Spark支持的SQL语法的完整程度还不能应用在复杂数据分析中。在可管理性

方面，Spark与YARN的结合不完善，这就在用户使用过程中埋下隐患，易出现各种难题。

基于Spark的交互式分析引擎

技术解析

基于Spark的交互式分析引擎技术解析

2014 TRANSWARP 星环科技

Transwarp Inceptor对Spark进行了大量的改进，具有高性能、稳定性好、功能丰富、易管理等特征，可以

切实解决Spark本身存在的难题。具体而言，星环Inceptor具有以下几点优势：

高性能

首先，支持高性能Apache Spark作为缺省执行引擎，可比原生的Hadoop Map/Reduce快；其次，通过建立

独立于Spark的分布式列式缓存层，可以有效防止GC的影响，消除Spark的性能波动，同时在列式缓存上实现

索引机制，进一步提高了执行性能；再次，在SQL执行计划优化方面，实现了基于代价的优化器（cost based

optimizer）以及多种优化策略，性能可以比原生Spark快数倍；最后通过全新的方法解决数据倾斜或者数据量过

大的问题，使得处理超大数据量时也游刃有余。

更强的SQL支持

Inceptor提供ANSI SQL 2003语法支持以及PL/SQL过程语言扩展，并且可以自动识别HiveQL、SQL 2003

和PL/SQL语法，在保持跟Hive兼容的同时提供更强大的SQL支持。由于现有的数据仓库应用大都基于SQL

2003，而且国内客户大量使用PL/SQL，因此Inceptor可以支持复杂的数据仓库类分析应用，也使得从原有数据

库系统迁移到Hadoop更为容易，可以帮助企业建立高速可扩展的数据仓库和数据集市。

基于R的数据挖掘与机器学习

Inceptor中包含了专业用于数据挖掘的R语言执行引擎，并且扩展了R语言，支持多种分布式数据挖掘算法，

包括统计算法和机器学习算法；也支持在R中调用SQL语句，通过Spark访问分布式内存数据。这些功能使得用

户可以真正在全量数据上进行机器学习或数据挖掘，而再也不用使用采样的方法，精准度得到很大提高。

JDBC

Interactive SQL Engine

Distributed Execution Engine 分布式执行引擎

including Apache Spark

Transwarp Holodesk

分布式内存列式存储

Transwarp

Statistics Library

并行统计算法库

Transwarp

Machine Learning

Library

机器学习算法库

ODBC SHELL R-statistical computing

编译器SQL2003+PL/SQL COMPILER

优化器COST BASED OPTIMIZER

代码生成CODE GENERATOR

Transwarp HDFS2

分布式持久化数据存储

Transwarp Hyperbase

分布式实时数据库

图一：Inceptor交互式分析引擎架构

剩余11页未读，继续阅读

资源推荐

资源评论

是空空呀

粉丝: 196
资源: 3万+

大数据-Inceptor技术白皮书.pdf

Transwarp Inceptor白皮书.pdf

大数据技术白皮书.pdf

大数据技术初探.docx

大数据技术概述.pdf

大数据技术基础知识.pdf

大数据技术体系.pdf

inceptor-jdbc-8.0.0.zip

inceptor-driver-5.2.2.jar

Transwarp Data Hub一站式大数据综合平台白皮书5.0.pdf

inceptor-driver 4.3.jar

inceptor-sdk-transwarp-6.1.0.jar

大数据技术概述.docx

大数据导论：认识大数据.pdf

大数据——大数据简单概述.pdf

星环-transwarp-inceptor-V5.1使用手册

DBeaver链接hive驱动包下载： hive-jdbc-uber-2.6.5.0-292.jar

inceptor-sdk-4.8.0

inceptor-driver-4.6

inceptor-driver 4.6.jar

inceptor-driver-5.1.0

inceptor-connector-odbc-6.0.0-winx64.exe

星环hive-8.0.2 java 依赖包全集

Inceptor使用手册.pdf

高校大数据应用发展与实践.pdf

星环-transwarp-inceptor使用手册

InceptorManual_T00151x-03-010_2017-12-07.pdf

inceptor-driver4.6

Another-Redis-Desktop-Manager.1.5.8,windows版

星环大数据平台_InceptorSQL使用方法.pdf

最新资源