基于Apache Kylin 构建大数据分析平台(完整目录版)

所需积分/C币:48 2018-12-16 15:27:19 89.3MB PDF
收藏 收藏 3
举报

基于Apache Kylin 构建大数据分析平台(完整目录版),目录非常详细精准,十分方便查阅,比其他的下载版本都详细,童叟无欺
推荐序 apache Kylin将传统的数据仓库及商务智能分析能力带入到了大数据时代,作为新兴 的技术已经被广大用户所使用。作为创始作者,我非常欣喜能看到关于 Apache Kylin相关 书籍的出版,这无疑对中国用户更好地使用 Kylin,解决实际的大数据分析架构及业务问 题有很大帮助。 韩卿 Kyligence联合创始人兼CEO, Apache Kylin项目管理委员会主席( PMC Chai 伴随着大数据发展的三条主线是大数据技术、大数据思维和大数据实践。 因为 RDBMS很难处理单表10亿行数据,所以大数据技术应需而生。大数据技术从最初 的解决海量数据的快速存储和读取,到今天的海量数据的OLAP,当中衍生出众多的技术产品 Apache Kylin就是其中的一个优秀产品,目标是解决大数据范畴中的OLAP。 第二条主线是大数据思维。数据处理的最近几十年都被 RDBMS的思想所束缚,小表 多表、表的连接、过分注重冗余性的坏处,等等,这些都限制了海量数据上的处理与分析。大 数据技术出来之后,随之而来的大数据思路,给我们带来了海量数据处理的新思维。这个新思 维的核心就是突破表的概念,而采用面向对象的数据模型在数据层上实现。 Apache Kylin的 Cube模型就是在逐步体现大数据的思维。 最后一条主线是大数据实践。大数据实践分为数据梳理、数据建模、数据采集、数据管控、 数据服务、数据可视化和数据分析。这是一环套一环的步骤,不能跳过。 Apache Kylin作为数 据分析环节的技术产品,一定要同数据管理的优秀产品相结合,才能充分发挥出分析的功效。 蒋守壮是业界知名的 apache Kylin专家。《基于 Apache Kylin构建大数据分析平台》 书浅显易懂、实操性强,是目前 Apache Kylin界不可多得的技术资料,值得细读和研究。 杨正洪 武汉市云升科技发展有限公司董事长 pache Kylin是一个由国人主导开发并在大数据领域真正进入全球主流应用的开源项目。 作为国人软件开发的骄傲之作,市面上却缺少一本系统性介绍该项目的书籍。 万达科技集团大数据中心蒋守壮同学在项目诞生之初就一直跟踪 Kylin的进展,深入研究 项目的技术原理,并将其运用在许多实际项目中。无论您是大数据技术爱好者,抑或您正在考 虑引入Kyi这样杰出的大数据处理工具,该书都将是您很好的参考指南! 粪少成 万达网络科技集团大数据中心副总经理,《Sprk高级数据分析》中文版译者 基于 Apache Kylin构建大数据分析平台 Apache kylin是基于 MOLAP的实时大数据引擎,Hap态系统结合更加紧密,先 大的优势注定了其支持更大的数据规模、夏好的展性,独有的中国血统较其他开源软件史具 本地化优势,更符合中国国情。本书包含了守壮多年的实践丝验,系统全面地介绍了 A pach Kyim技术,值得推荐。 贾传青 数据架构师,T脱口秀(清风那个吹)创始人 Apache Kylin是基于大数据技术的一类OLAP实现,其根据OLAP原理、利用 MapReduce 框架构建CUBE,并将预计算结果存储在 HBase中,实现多维分析和查询的秒级响应, Apache Kylin虽属于 MOLAP范畴,但还是有别于传统的 MOLAP,它充分利用了 Hadoop分布式计算 的精髓,是分布式OLAP( DOLAP: Distributed Olap)的一个具体实现,在TB、PB级数据 集上体现出卓越的性能表现,自开源以来就备受各界关注。 作为一位技术达人,蒋守壮依托自身深厚的技术功底,结合实际工作对 Kylin做了许多研 究工作。从各种部署环境的搭建、实际工作案例开发测试到各类问题的分析及解决,作者深入 分析了 Kylin的源代码,也给Kyin社区反馈∫很多缺陷,被Kyim社区确认并在新的版本中 加以完善。《基于 Apache Kylin构建大数据分析平台》这本书即是蒋守壮对自己研究工作的 总结和升华,是当前第一本系统介绍 Kylin的实用书籍。 项同德 平安科技(深圳)有限公司高级经理 目前在企业级市场上主流的B产品有 Oracle的BEE、IBM的 Cognos、SAP的BO等, 这些产品主要是基于传统的关系型数据进行报表开发和数据分析,虽然可以通过提高服务器性 能来提升数据处理的能力,但受限于其自身的架构,在处理大数据(TB级及以上)上就显得 缓慢,而 Kylin是一款专为大数据而生的开源产品。相对于传统大厂商主导的BI产品,Kyin 是一个开源的分布式分析引擎,提供Hado之上的SQ查询接口及多维分析(OLAP)能力 以支持超大规模数据,其最初由eBay公司开发并贡献至开源社区,它能在亚秒内查询巨大的 Hive表,并且在不断地完善和进化。 Kylin作为 Apache顶级项目,在社区备受推崇,但一直缺少一本实用、可操作的技术书 籍让普通的开发人员将其部署实施,应用于企业的发展,产生经济价值。蒋守壮的这本书系统 而全面地介绍了Kyhn的架构、搭建及应用,能让有一定技术功底的人员,快速实施部署,对 于目前苦于大数据处理的人员来讲,无疑是久旱逢甘霖 蒋守壮一直专注于大数据的研究和应用,技术出众,尤其是擅长解决各类疑难问题。这本 书融合了作者多年的技术积累和实战经验,相信对您,无论是学习还是实战都是大有益处 万文兵 6,个万达网络科技集团有限公司大数据资深项目经理 前言 自201年下半年开始,我就一直关注 Apache开源社区,侧重点放在大数据方面的成熟 框架和产品。在这期间,陆续研究过 Hadoop、Hive、 HBase、 Mahout、 Kafka、 Flume、Som, 以及近两年很火的Spak和 Flink等,和很多从事大数据的朋友一样,经历过无数的夜晚,对 着电脑屏幕逐行研究这些源代码,同时也看到无数的开源爱好者和技术专家加入Hado开源 社区,贡献自己的力量,日复一日,乐此不疲 谈起大数据,不得不提Hado,如今其早已发展成为了大数据处理的事实标准。 Hadoop 诞生于2005年,其受到Goge的两篇论文(GFS和 MapReduce)的启发。起初,Hado0p只 是用来支撑 Nutch搜索引擎的项目,从2006年开始, Hadoop脱离了 Nutch,成为了 Apache 的顶级项目,无论是在学术界还是工业界都得到了迅猛的发展。 如今已是2016年了, Hadoop十周岁了,这十年期间围绕其核心组件(HDFS、 MapReduce、 Yam)陆续出现了一批工具,用来丰富 Hadoop生态圈,解决大数据各方面的问题,这其中就 包括 Apache Kylin ApacheKylin(麒麟〕是由εBay研发并贡献给开源社区的Hado上的分布式大规模联机 分析(OLAP)平台,它提供Hado之上的SQL査询接口及多维分析能力以支持大规模数据 能够处理TB乃至PB级别的分析任务,能够在亚秒级査询巨大的Hive表,并攴持高并发 Apache Kylin于2014年10月开源,并于当年11月成为 Apache孵化器项目,是eBay第一个 贡献给 Apache软件基金会的项目,也是第一个由中国团队完整贡献到 Apache的项目,在这 里对 Apache Kylin的中国团队表示感谢,感谢贡献如此出色的大数据分析平台 从去年开始接触 Apache Kylin,我感觉很亲切,也很惊喜。当前研究的版本为0.1,也 就是Kyn加入 Apache孵化器项目后的第一个 Apache发行版本,虽然当时的Kyim存在一些 间题,但是其基于 Hadoop设计的框架还是很有创意和特色的,经过一年多的发展,截至目前, Apache Kylin的版本已经发展到1.53,并且从15版本开始, Apache Kylin进行了重构,支持 可扩展架构,支持更多的数据源、构建引擎和存储引擎,构建算法不断优化,支持与更多的可 视化工具集成等。 如今, Apache Kylin已被应用在eBay、. Exponential、京东、美团,、明略数据、网易及其他 公司。越来越多的大数据团队开始选择 Apache Kylin作为公司大数据分析平台的组成部分, 满足其海量数据的多维指标实时查询分析。通过很多社区的交流分享,我发现不少朋友对 基于 Apache Kylin构建大数据分析平台 Apache Kylin没有一个整体的认识,在使用过程中出现各种各样的问题,打击自信心,他们急 切希望能有一本全面介绍 Apache Kylin的书籍。因为我经常在博客和社区分享 Apache Kylin 实战方面的一些经验,所以很多朋友鼓励我能够写一本比较全面介绍 Apache Kylin的书籍, 帮助更多的爱好者更好地加入 apache Kylin的社区,并在生产环境中进行实践。刚开始比较 犹豫、,毕竟写书需要花费大量的时间和精力,而且要对读者负责,容不得点马虎。后来有社 区的几个朋友给我打电话劝说,以及清华大学出版社的夏毓彦编辑一再鼓励,还有家人的支持, 我就下定决心写这本书,目的只有一个,就是希望读者能够通过这本书,对 Apache Kylin有 一个完整的认识,掌握各方面的技能,并最终应用在自己公司的生产环境中 本书内容 这是一本全面介绍 apache Kylin的书籍,包括环境搭建、案例实战演示、源码分析、Cue 优化等,此外还会涉及数据仓库、数据模型、OLAP、数据立方体等方面的知识。通过本书系 统性学习和实战操作,朋友们将能够达到基于 Apache Kylin搭建企业级大数据分析平台,并 熟练掌握使用 Apache Kylin多维度地分析海量数据,最终通过可视化工具展示结果 受众人群 本书适合从事 Hadoop、 HBase、Hive和 Kylin等方面工作的人员参考阅读,最好能掌握 一点OLAP、数据立方体等数据仓库方面的知识。但是我相信这本书也适合任何想从事大数据 方面工作的程序员和架构师。 代码规范和下载 本书中会涉及大量的 Linux shel'令,这些命令都是在 Centos操作系统上执行成功的, 对于其他的一些 Linux系统也同样适用,如有不适用的,可以查阅资料,修改命令以符合对应 的操作系统。 要下载本书章节中的样例代码,请到http://github.com/jiangshouzhuang下载。 读者服务 由于本人的写作能力有限,可能有些章节内容考虑并不全面,或者版本升级导致某些章节 部分内容不是最新的。为了更好地为读者服务,我特意建立了一个QQ群:18152802,读者 有关本书的任何问题,我都会及时给朋友们答复,谢谢支持。 前言 致谢 这本书的面世,得到了很多朋友的鼎力相助,在这里感谢所有帮助我完成这本书的人 感谢公司的同事们,特别感谢项同德和万文兵两位项目经理给予的支持和鼓励,感谢施健 健给予的技术支持和帮助。 感谢CSDN和 cnblogs博客中优秀的文章给予的技术支持。 感谢清华大学出版社所有为本书的出版和发行付出了辛勤劳动的人们 最后,我要感谢我的家人,给予我的不懈支持。感谢父母帮我们照顾调皮捣蛋的宝宝;感 谢妻子一如既往地照顾我的生活,给予我充足的时间用来写作。没有家人的支持和照顾,我是 不可能完成这本书 作者 2016年10月 目录 第部分 Apache Kylin基础部分 第1章 Apache Kylin前世今生 11 Apache Kylin的背景 ·“·“““““““.““““““是 3 12 Apache Kylin的应用场景 13 Apache Kylin的发展历程. 第2章 Apache Kylin前奏 鲁,,·,,.,,,,,,,,,B9,·,,,,, 21事实表和维表… 7 22星型模型和雪花型模型.… 7 221星型模型 222雪花型模型… 2,23星型模型示例 8 2.3 OLAP 23.1OLAP分类 23,2OLAP的基本操作 ,·,,,,,,号 10 24数据立方体( Data cube) 11 第3章 Apache Kylin工作原理和体系架构… ,12 31Kyin工作原理… …………………………………………………12 32Kyin体系架构……13 33Kyim中的核心部分:Cube构建…… 15 34Kyin的SQL查询…… ………16 3 Kylin的特性和生态圈 ::·E:::; 16 基于 Apache Kylin构建大数据分析平台 ..,「,「 第4章搭建cDH大数据平台 18 41系统环境和安装包 … 41.1系统环境……………… ……………………… 41.2安装包的下我………… 42淮备工作:系统环境搭建…… ……………""…"!…………… 421网络配置(CDH集群所有节点) 2打通sH,设置s无密码登录(所何节点 4.3正式安装CDH:准备工作…… a+:··· 44正式安装CDH5:安装配置 30 41CDH的安装配置 442对Hive、 HBase执行简单操作 第5章使用Kyin构建企业大数据分析平台的4种部署方式 …41 5 Kylin部署的架构… 52 Kylin的四种典型部署方式……………… 第6章单独为Kyin部署 HBase集群 第7章部署Kyin集群环境 71部署 Kylin的先决条件……… 72部署 Kylin集群环境,,…, 73为 Kylin集群搭建负载均衡器…..… ,70 731搭建 nginx环境 70 732配置 Nginx实现Kyln的负载均衡…3 第二部分 Apache Kylin进阶部分 第8章Demo案例实战 77 81 Sample Cube案例描述. 77 """……………………;………… 82 Sample Cube案例实战 78 82.1准备数据 ………………" 78 822构建Cube…… 第9章多维分析的Cube刨建实战.… 1..罪,B·果 91Cube模型 ·····.·········..:..·.t ………………………………89 目录 92创建Cube的流程 9.21步骤;Hive事实表,以及多张维表的处理……… 92步骤:Kyi中建立项目(P1 roject 95 923步骤三: Kylin中建立数据源 ( Data source)……………………"…95 9.24步骤四: Kylin屮建立数据模型( Model)……… 92.步骤五:Kyin中建立Cube 104 926步骤六: Build Cub 114 927步骤七:查询Cube. .·.::·+; 118 第10章 Build cube的来龙去脉 120 10.1流程分析 “ 120 102小结 .134 第三部分 Apache Kylin高级部分 第11章Cube优化 137 第12章备份Kyin的 Metadata… 142 12 I Kylin的元数据 .142 122备份元数据…143 123恢复元数据…. 第13章使用Hive视图.… 147 13.1使用Hive视图 147 32使用视图实战… …1419 第14章Kyin的垃圾清理… 153 14.1清理元数据 153 142清理存储器数据 154 a甲..···· 第1章JDBC访问方式… 157 第16章通过 RESTfu访问Kyin ……,161 第17章Kyin版本之间升级…… 179 17.1从1.52升级到最新版本153………¨ 179 Ⅸ

...展开详情
试读 127P 基于Apache Kylin 构建大数据分析平台(完整目录版)
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
weixin_43315211 感觉像拍照拍的,看着脑袋疼
2019-08-31
回复
yueqingfeng445 骗人的,不清晰,字体歪还,目录也不行
2019-05-28
回复
bugskiller_cn 资源很好,目录非常详细精准,不贵
2018-12-28
回复
  • 分享宗师

    成功上传21个资源即可获取
关注 私信 TA的资源
上传资源赚积分,得勋章
最新推荐
基于Apache Kylin 构建大数据分析平台(完整目录版) 48积分/C币 立即下载
1/127
基于Apache Kylin 构建大数据分析平台(完整目录版)第1页
基于Apache Kylin 构建大数据分析平台(完整目录版)第2页
基于Apache Kylin 构建大数据分析平台(完整目录版)第3页
基于Apache Kylin 构建大数据分析平台(完整目录版)第4页
基于Apache Kylin 构建大数据分析平台(完整目录版)第5页
基于Apache Kylin 构建大数据分析平台(完整目录版)第6页
基于Apache Kylin 构建大数据分析平台(完整目录版)第7页
基于Apache Kylin 构建大数据分析平台(完整目录版)第8页
基于Apache Kylin 构建大数据分析平台(完整目录版)第9页
基于Apache Kylin 构建大数据分析平台(完整目录版)第10页
基于Apache Kylin 构建大数据分析平台(完整目录版)第11页
基于Apache Kylin 构建大数据分析平台(完整目录版)第12页
基于Apache Kylin 构建大数据分析平台(完整目录版)第13页
基于Apache Kylin 构建大数据分析平台(完整目录版)第14页
基于Apache Kylin 构建大数据分析平台(完整目录版)第15页
基于Apache Kylin 构建大数据分析平台(完整目录版)第16页
基于Apache Kylin 构建大数据分析平台(完整目录版)第17页
基于Apache Kylin 构建大数据分析平台(完整目录版)第18页
基于Apache Kylin 构建大数据分析平台(完整目录版)第19页
基于Apache Kylin 构建大数据分析平台(完整目录版)第20页

试读结束, 可继续阅读

48积分/C币 立即下载 >