从零开始学Hadoop大数据分析(视频教学版)
电子书推荐
-
Hadoop大数据分析与挖掘实战.张良均(带详细书签).pdf 评分:
本书共14章,分三个部分:基础篇、实战篇、提高篇。基础篇介绍了数据挖掘、Hadoop大数据的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得大数据项目挖掘分析经验,同时快速领悟看似难懂的大数据分析与挖掘理论知识。读者在阅读过程中,应充分利用随书配套的案例建模数据,借助TipDM-HB大数据挖掘建模平台,通过上机实验,以快速理解相关知识与理论。 第一部分是基础篇(第1~4章),第1章的主要内容是数据挖掘概述、大数据餐饮行业应用;第2章针对大数据理论知识进行基础讲解,简明扼要的针对Hadoop安装、原理等做了介绍;第3章介绍了几种大数据挖掘建模平台,同时重点介绍了本书使用的TipDM-HB大数据挖掘平台;第4章对数据挖掘的建模过程,各种挖掘建模的常用算法与原理及其在大数据挖掘算法库Mahout的实现原理进行了介绍。 第二部分是实战篇(第6~12章),重点对大数据挖掘技术在法律咨询、电子商务、航空、移动通信、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上,本书是按照先介绍案例背景与挖掘目标,再阐述大数据时代针对大数据的分析方法与过程,最后完成模型构建的顺序进行的,在建模过程关键环节,进行了详细的分析。最后通过上机实践,加深对大数据挖掘案例的认识以及分析流程。 第三部分是高级篇(第13~14章),介绍了基于Hadoop大数据开发的相关技术以及开发步骤,同时使用实例来展示这些步骤,使读者可以自己动手实践,亲自体会开发的乐趣;同时,还介绍了基于TipDM-HB大数据挖掘平台的二次开发实例,借助TipDM-HB大数据挖掘平台二次开发工具,可以更加快捷、高效的完成相关大数据应用的二次开发,降低开发难度,使读者更方便的体会到大数据分析与挖掘的强大魅力。 基础篇 1 第1章 数据挖掘基础 2 1.1 某知名连锁餐饮企业的困惑 2 1.2 从餐饮服务到数据挖掘 3 1.3 数据挖掘的基本任务 4 1.4 数据挖掘建模过程 4 1.4.1 定义挖掘目标 4 1.4.2 数据取样 5 1.4.3 数据探索 6 1.4.4 数据预处理 12 1.4.5 挖掘建模 14 1.4.6 模型评价 14 1.5 餐饮服务中的大数据应用 15 1.6 小结 15 第2章 Hadoop基础 16 2.1 概述 16 2.1.1 Hadoop简介 16 2.1.2 Hadoop生态系统 17 2.2 安装与配置 19 2.3 Hadoop原理 26 2.3.1 Hadoop HDFS原理 26 2.3.2 Hadoop MapReduce原理 27 2.3.3 Hadoop YARN原理 28 2.4 动手实践 30 2.5 小结 33 第3章 Hadoop生态系统:Hive 34 3.1 概述 34 3.1.1 Hive简介 34 3.1.2 Hive安装与配置 35 3.2 Hive原理 38 3.2.1 Hive架构 38 3.2.2 Hive的数据模型 40 3.3 动手实践 41 3.4 小结 45 第4章 Hadoop生态系统:HBase 46 4.1 概述 46 4.1.1 HBase简介 46 4.1.2 HBase安装与配置 47 4.2 HBase原理 50 4.2.1 HBase架构 50 4.2.2 HBase与RDBMS 51 4.2.3 HBase访问接口 52 4.2.4 HBase数据模型 53 4.3 动手实践 54 4.4 小结 61 第5章 大数据挖掘建模平台 62 5.1 常用的大数据平台 62 5.2 TipDM-HB大数据挖掘建模平台 63 5.2.1 TipDM-HB大数据挖掘建模平台的功能 63 5.2.2 TipDM-HB大数据挖掘建模平台操作流程及实例 65 5.2.3 TipDM-HB大数据挖掘建模平台的特点 67 5.3 小结 68 第6章 挖掘建模 69 6.1 分类与预测 69 6.1.1 实现过程 69 6.1.2 常用的分类与预测算法 70 6.1.3 决策树 71 6.1.4 Mahout中Random Forests算法的实现原理 75 6.1.5 动手实践 79 6.2 聚类分析 83 6.2.1 常用聚类分析算法 83 6.2.2 K-Means聚类算法 84 6.2.3 Mahout中K-Means算法的实现原理 88 6.2.4 动手实践 90 6.3 关联规则 93 6.3.1 常用的关联规则算法 93 6.3.2 FP-Growth关联规则算法 94 6.3.3 Mahout中Parallel Frequent Pattern Mining算法的实现原理 98 6.3.4 动手实践 100 6.4 协同过滤 102 6.4.1 常用的协同过滤算法 102 6.4.2 基于项目的协同过滤算法简介 102 6.4.3 Mahout中Itembased Collaborative Filtering算法的实现原理 103 6.4.4 动手实践 106 6.5 小结 109 实战篇 111 第7章 法律咨询数据分析与服务推荐 112 7.1 背景与挖掘目标 112 7.2 分析方法与过程 114 7.2.1 数据抽取 120 7.2.2 数据探索分析 120 7.2.3 数据预处理 125 7.2.4 模型构建 130 7.3 上机实验 139 7.4 拓展思考 140 7.5 小结 145 第8章 电商产品评论数据情感分析 146 8.1 背景与挖掘目标 146 8.2 分析方法与过程 146 8.2.1 评论数据采集 147 8.2.2 评论预处理 150 8.2.3 文本评论分词 155 8.2.4 构建模型 155 8.3 上机实验 167 8.4 拓展思考 168 8.5 小结 169 第9章 航空公司客户价值分析 170 9.1 背景与挖掘目标 170 9.2 分析方法与过程 171 9.2.1 数据抽取 174 9.2.2 数据探索分析 174 9.2.3 数据预处理 175 9.2.4 模型构建 177 9.3 上机实验 182 9.4 拓展思考 183 9.5 小结 183 第10章 基站定位数据商圈分析 184 10.1 背景与挖掘目标 184 10.2 分析方法与过程 186 10.2.1 数据抽取 186 10.2.2 数据探索分析 187 10.2.3 数据预处理 188 10.2.4 构建模型 191 10.3 上机实验 194 10.4 拓展思考 195 10.5 小结 195 第11章 互联网电影智能推荐 196 11.1 背景与挖掘目标 196 11.2 分析方法与过程 197 11.2.1 数据抽取 199 11.2.2 构建模型 199 11.3 上机实验 201 11.4 拓展思考 202 11.5 小结 203 第12章 家电故障备件储备预测分析 204 12.1 背景与挖掘目标 204 12.2 分析方法与过程 206 12.2.1 数据探索分析 207 12.2.2 数据预处理 209 12.2.3 构建模型 212 12.3 上机实验 216 12.4 拓展思考 217 12.5 小结 217 第13章 市供水混凝投药量控制分析 218 13.1 背景与挖掘目标 218 13.2 分析方法与过程 220 13.2.1 数据抽取 221 13.2.2 数据探索分析 221 13.2.3 数据预处理 223 13.2.4 构建模型 227 13.3 上机实验 237 13.4 拓展思考 238 13.5 小结 239 第14章 基于图像处理的车辆压双黄线检测 240 14.1 背景与挖掘目标 240 14.2 分析方法与过程 241 14.2.1 数据抽取 242 14.2.2 数据探索分析 242 14.2.3 数据预处理 242 14.2.4 构建模型 249 14.3 上机实验 250 14.4 拓展思考 250 14.5 小结 251 高级篇 253 第15章 基于Mahout的大数据挖掘开发 254 15.1 概述 254 15.2 环境配置 255 15.3 基于Mahout算法接口的二次开发 258 15.3.1 Mahout算法实例 258 15.3.2 Mahout算法接口的二次开发示例 259 15.4 小结 271 第16章 基于TipDM-HB的数据挖掘二次开发 272 16.1 概述 272 16.1.1 TipDM-HB大数据挖掘建模平台服务接口 272 16.1.2 Apache CXF简介 276 16.2 TipDM-HB大数据挖掘建模平台服务开发实例 277 16.2.1 环境配置 277 16.2.2 开发实例 280 16.3 小结 288 参考资料 289
上传时间:2019-03 大小:51.72MB
- 698KB
Hadoop 大数据分析与挖掘实战 下载并安装虚拟机说明.pdf
2021-08-07Hadoop 大数据分析与挖掘实战 下载并安装虚拟机说明.pdf
- 3.48MB
第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf
2022-06-27第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件...
- 291.72MB
上机实验源数据-Hadoop大数据分析与挖掘实战 数据源 共16个章节.rar
2021-08-07上机实验源数据-Hadoop大数据分析与挖掘实战 数据源 共16个章节 大数据的出现催生出产业人才缺口瓶颈,在大数据挖掘项目的实施方面,被调查公司普遍缺乏相关的技术能力。 75% 以上的公司表示在人员和培训方面存在...
- 2.37MB
第八章(Hadoop大数据处理实战)HBase实战.pdf
2022-06-27第八章(Hadoop大数据处理实战)HBase实战.pdf第八章(Hadoop大数据处理实战)HBase实战.pdf第八章(Hadoop大数据处理实战)HBase实战.pdf第八章(Hadoop大数据处理实战)HBase实战.pdf第八章(Hadoop大数据处理实战)HBase...
- 416KB
基于Hadoop云计算平台的数据挖掘分析.pdf
2021-07-14基于Hadoop云计算平台的数据挖掘分析.pdf
- 2.44MB
第九章(Hadoop大数据处理实战)Spark实战.pdf
2022-06-27第九章(Hadoop大数据处理实战)Spark实战.pdf第九章(Hadoop大数据处理实战)Spark实战.pdf第九章(Hadoop大数据处理实战)Spark实战.pdf第九章(Hadoop大数据处理实战)Spark实战.pdf第九章(Hadoop大数据处理实战)Spark...
- 661KB
Hadoop 大数据分析与挖掘实战 下载并安装虚拟机说明.rar
2021-09-29Hadoop 大数据分析与挖掘实战 下载并安装虚拟机说明.rar
- 140KB
Smartbi在Hadoop大数据分析中的应用.pdf
2021-10-14Smartbi在Hadoop大数据分析中的应用.pdf
- 152KB
基于Hadoop的房地产交易大数据分析应用系统研究.pdf
2022-07-07基于Hadoop的房地产交易大数据分析应用系统研究.pdf基于Hadoop的房地产交易大数据分析应用系统研究.pdf基于Hadoop的房地产交易大数据分析应用系统研究.pdf基于Hadoop的房地产交易大数据分析应用系统研究.pdf基于...
- 752KB
基于Python爬虫实现天气预报和数据可视化分析,应付数据分析大作业
2022-12-23基于Python爬虫实现天气预报和数据可视化分析,应付数据分析大作业,内含Python原文件及所需库说明
- 28.70MB
EDA探索式数据分析案例数据集
2024-02-25EDA探索式数据分析案例数据集
- 5.83MB
Python数据分析项目实践,包括数据读取、评估、清洗、分析、可视化机器学习相关内容等
2024-01-16Python数据分析项目实践,包括数据读取、评估、清洗、分析、可视化机器学习相关内容等
- 1.2MB
5-8抖音数据分析数据集
2023-05-08这个数据集对应我写的一篇博客,下载此数据集即可运行我的代码。
- 7.77MB
Python数据分析与可视化大作业 + 源代码 + 数据 + 详细文档
2024-04-11Python数据分析与可视化大作业 + 源代码 + 数据 + 详细文档
- 116KB
python数据分析大作业-爬虫、建立模型、可视化、结论分析
2023-06-09包括代码文件
- 0B
origin2021下载免费分享
2022-11-14origin2021 下载途径:百度网盘、阿里云盘下载
- 1KB
r语言数据分析案例数据分析、数据预测和机器学习案例
2023-03-29如果您正在寻找一份完整的R语言数据分析、数据预测和机器学习案例,那么我们的资源库将为您提供一切所需。本资源库提供了一系列案例,包括数据可视化、数据清洗、机器学习模型构建和数据预测等内容。我们的案例旨在帮助您更好地了解R语言的使用和机器学习的基础知识。 我们的资源库包括以下主题: 数据可视化:使用ggplot2包和其他R语言可视化工具,展示如何将数据可视化,从而更好地理解数据并做出更明智的决策。 数据清洗:展示如何使用dplyr包和其他数据清洗工具来清洗和准备数据,使其可以用于机器学习模型的训练。 机器学习模型构建:使用caret包和其他机器学习工具,构建和训练各种类型的机器学习模型,包括回归、分类和聚类模型等。 数据预测:展示如何使用机器学习模型来预测未来数据,并对预测结果进行评估和优化。 每个案例都包含完整的代码和数据集,可以帮助您更好地了解每个步骤的细节和操作。我们的资源库适合各种级别的用户,包括初学者和有经验的用户。您可以根据自己的兴趣和需求选择不同的主题,并按照自己的步骤和想法来运行代码和修改案例。 如果正在寻找一份完整的R语言数据分析、数据预测和机器学习案例,
- 407.36MB
统计数模历年优秀论文-全国大学生统计建模大赛
2023-05-16为在大学生中倡导学习统计、应用统计的良好氛围,促进大学生关注经济社会热点难点问题,适应大数据时代下高校及统计部门对统计人才的培养要求,中国统计教育学会、全国应用统计专业学位研究生教育指导委员会联合举办2021年(第七届)全国大学生统计建模大赛,本届大赛主题为“数据新动能的统计测度研究”,旨在提高大学生数据挖掘、数据分析、运用统计方法及计算机技术处理数据的能力,加强创新思维意识,助力推进统计现代化改革。经过一年的筹备、征集和筛选评议工作,最终选出这26篇优秀论文集结成册,展示当代大学生的统计应用能力和研究水平。 欢迎扫描以上二维码订阅 扫一扫在手机打开 上一篇: 《2022年(第八届)... 下一篇: 关于公布2022年(第... 评论262 0/150 提交 热门评论 相关推荐 关于公布2023年(第九届)全国大学生统计建模大赛报名信息的通知 大赛动态 2023-04-10 10:00595451143 《2023年(第九届)全国大学生统计建模大赛主题解读》(视频) 大赛动态 2023-04-06 09:0046299990 “全国大学生统计建模大赛”成功入
- 5.29MB
2023高教社数学建模C题 - 蔬菜类商品的自动定价与补货决策【数据处理详细代码】
2023-09-09商超(超市和零售店)在现代经济中扮演着至关重要的角色,然而,它们在蔬菜商品管理中面临着多重挑战。这些挑战包括如何准确预测销售趋势、合理制定价格策略、以及有效制定补货计划等问题。 解决这些问题对于商超来说至关重要,因为它们直接影响着销售收益、库存成本和客户满意度。因此,本研究旨在为商超提供一套全面的蔬菜商品管理策略,以帮助它们更好地应对这些挑战。 针对问题一,在蔬菜商品管理中,首要问题之一是如何准确预测销售趋势。这包括了不同蔬菜品类的销售模式,如季节性销售高峰和低谷。我们需要深入了解哪些蔬菜在特定时间段内销售最活跃,以及它们之间的差异。这个问题的解决有助于商超更有针对性地制定促销策略和补货计划。 针对问题二,制定合理的价格策略对于商超至关重要,因为它们需要平衡销售利润和客户价格敏感度。我们需要建立一个定价模型,考虑商品成本、预期销售量和销售利润等因素。这个模型将为每个蔬菜品类提供合理的售价建议,确保商超实现销售利润的最大化,同时提供具有竞争力的价格。 针对问题三,如何确定每个单品的补货量以及建议的定价策略是另一个重要问题。我们需要通过组合优化方法,确定每个单品的最佳补货量和定价策
- 18.32MB
摩拜共享单车数据分析项目数据、代码、图表
2020-09-30摩拜共享单车数据分析项目的数据、代码、图表,基于上海摩拜单车的2016年8月份随机抽样大约10万条的开放订单数据进行分析
- 1.46MB
基于python的新冠疫情数据分析.zip
2020-06-27利用了requests包爬取腾讯实时疫情数据,并对疫情数据做了清洗和分析,对数据分析的结果实现了可视化。压缩包内有源代码和报告。
- 197KB
大乐透第一期至今全部期数的开奖结果(2007年-2023年5月共2423期)
2023-05-26我们使用大数据进行数据分析的时候,数据为基础中的基础。很多彩民进行杀号分析的时候,需要花费不少时间进行数据统计。这个csv版本统计汇总了历年的开奖结果,一目了然。方便进行号码分析。
- 111.52MB
python数据分析课程设计
2021-03-17其中包含4个案例,以毕业论文的格式写出。包含原始数据。代码可复制粘贴。
- 1.19MB
besnew-超强二进制文件查看工具
2022-03-21右键属性 支持16进制,10进制,二进制,8进制查看。 可自定义列数,独特码查找、不定帧长查看。方便数据帧分析。 免安装。 使用时可能需要先使用管理员权限启动。 注意事项: 1,一定要解压出来再用。 2,默认需要先打开bes,然后再从左上角打开要查看分析的文件。 最好设置一下管理员权限执行: 选中bes.exe文件,右键属性-》兼容性-》选中以管理员身份运行。 然后就可以找到数据文件,右键选择打开方式为bes.exe即可。
- 342KB
用于本项目的数据分析及可视化部分的源码
2022-05-25用于本项目的数据分析及可视化部分的源码
- 1.49MB
基于Hadoop的电影影评数据分析
2023-04-04是大数据课程大作业,基于Hadoop的电影影评数据分析,需要安装Hadoop,了解MapReduce 和HDFS。
- 80KB
2023年数学建模C题思路分析
2023-09-10对于国赛问题二的问题分析
- 118.50MB
matlab2020a官方pdf文档
2020-09-29目前是matlab2020a的最新官方文档,其中涵盖了matlab入门基础、桌面工具和开发环境以及数据导入导出、matlab数学、数据分析、编程基础、面向对象编程、matlab图形、3d可视化等等。
- 3.36MB
R语言期末大作业(全面带报告,带数据集)
2022-05-24按照后期进行数据分析的需求,对数据进行预处理。 -描述性统计:选择合适的方法对数据进行统计分析。包括对数值型和类别型属性的统计,并对分析结果进行图形化的展示(使用ggplot2或者lattice包)。 -推断性统计:选择合适的假设检验方法,分析属性间的相关性、两组数据间是否具有显著性差异,分析结果并给出结论及必要的图形展示。 - 数据挖掘 根据数据特征及需求,利用分类、聚类或时间序列方法挖掘蕴含在数据中的模式及必要的图形展示,用回归模型预测走势 注意:对聚类结果分析聚簇特征 对分类结果计算准确性。 使用时间序列分析方法可判断数据是否存在趋势、周期性等特征,或对数据进行预测。 (分类、聚类、时间序列,回归模型至少使用2种方法)