- spark大小:91MBSpark大数据分析技术(Python版)--配套PPT、数据集、源代码和教学大纲(2)。书本编号9787302625520Spark大数据分析技术(Python版)--配套PPT、数据集、源代码和教学大纲(2)。书本编号97873026255200 14浏览会员免费
- spark大小:150MBSpark纯净版安装包是一个用于安装Apache Spark的软件包,该软件包提供了Spark的基本功能和组件,但不包含任何额外的扩展或依赖项。纯净版安装包旨在提供一个轻量级、简单易用的Spark安装选项,适用于用户希望快速部署Spark并开始使用其基本功能的场景。 该安装包通常包含Spark的核心组件,如Spark Core、Spark SQL、Spark Streaming等,以及一些基本的工具和库。用户可以根据自己的需求选择合适的安装方式,例如通过二进制文件安装、通过包管理器安装或者通过源代码编译安装。 使用Spark纯净版安装包可以让用户更快速地搭建Spark环境,并且可以根据需要进行定制和扩展,是一种简便有效的安装Spark的方式Spark纯净版安装包是一个用于安装Apache Spark的软件包,该软件包提供了Spark的基本功能和组件,但不包含任何额外的扩展或依赖项。纯净版安装包旨在提供一个轻量级、简单易用的Spark安装选项,适用于用户希望快速部署Spark并开始使用其基本功能的场景。 该安装包通常包含Spark的核心组件,如Spark Core、Spark SQL、Spark Streaming等,以及一些基本的工具和库。用户可以根据自己的需求选择合适的安装方式,例如通过二进制文件安装、通过包管理器安装或者通过源代码编译安装。 使用Spark纯净版安装包可以让用户更快速地搭建Spark环境,并且可以根据需要进行定制和扩展,是一种简便有效的安装Spark的方式0 30浏览会员免费
- spark大小:1MB1.基于Spark开发的平台 2.需要有spark基础 3.有很多高级知识和设计模式 4.电商用户行为分析大数据平台(项目名称) 5.访问行为,购物行为,广告点击行为,对这些行为进行分析,使用大数据技术来帮助公司提升业绩。 6.主要的功能模块有用户session分析,页面单跳转化率统计,热门商品离线统计,广告流量实时统计等4个业务模块。 7.所使用的知识点是spark core,spark SQL,spark streaming等三个技术框架。 8.主要是数据倾斜,线上故障,性能调优,troubleshooting等经验。 9.使用模拟数据,希望达到的效果。 10.需求分析,方案设计,数据设计,编码实现,测试以及性能调优等环节。1.基于Spark开发的平台 2.需要有spark基础 3.有很多高级知识和设计模式 4.电商用户行为分析大数据平台(项目名称) 5.访问行为,购物行为,广告点击行为,对这些行为进行分析,使用大数据技术来帮助公司提升业绩。 6.主要的功能模块有用户session分析,页面单跳转化率统计,热门商品离线统计,广告流量实时统计等4个业务模块。 7.所使用的知识点是spark core,spark SQL,spark streaming等三个技术框架。 8.主要是数据倾斜,线上故障,性能调优,troubleshooting等经验。 9.使用模拟数据,希望达到的效果。 10.需求分析,方案设计,数据设计,编码实现,测试以及性能调优等环节。0 87浏览¥ 19.90
- flink大小:3KB一、什么是实时数仓 实时数据仓库(Real-time Data Warehouse)是指能够实时地处理和分析数据,使得数据仓库中的数据是最新的、最准确的,并且可以实时响应用户的查询和分析需求的一种数据仓库系统。 与传统的数据仓库相比,实时数据仓库更加注重数据的实时性和对业务的实时响应能力。传统数据仓库通常是每日、每周或每月定期进行数据的抽取、转换和加载(ETL),更新的速度较慢,一般不支持实时查询和分析。而实时数据仓库则更加注重数据的实时性和对业务的实时响应能力,能够在数据发生变化时及时响应用户的查询和分析需求。 二、安装Flink 步骤 1:下载 # 为了运行Flink,只需提前安装好 Java 11。你可以通过以下命令来检查 Java 是否已经安装正确。 java -version 下载 release 1.20-SNAPSHOT 并解压。 $ tar -xzf flink-1.20-SNAPSHOT-bin-scala_2.12.tgz $ cd flink-1.20-SNAPSHOT-bin-scala_2.12 步骤 2:启动集群 # Flink 附带了一个 bash一、什么是实时数仓 实时数据仓库(Real-time Data Warehouse)是指能够实时地处理和分析数据,使得数据仓库中的数据是最新的、最准确的,并且可以实时响应用户的查询和分析需求的一种数据仓库系统。 与传统的数据仓库相比,实时数据仓库更加注重数据的实时性和对业务的实时响应能力。传统数据仓库通常是每日、每周或每月定期进行数据的抽取、转换和加载(ETL),更新的速度较慢,一般不支持实时查询和分析。而实时数据仓库则更加注重数据的实时性和对业务的实时响应能力,能够在数据发生变化时及时响应用户的查询和分析需求。 二、安装Flink 步骤 1:下载 # 为了运行Flink,只需提前安装好 Java 11。你可以通过以下命令来检查 Java 是否已经安装正确。 java -version 下载 release 1.20-SNAPSHOT 并解压。 $ tar -xzf flink-1.20-SNAPSHOT-bin-scala_2.12.tgz $ cd flink-1.20-SNAPSHOT-bin-scala_2.12 步骤 2:启动集群 # Flink 附带了一个 bash0 218浏览会员免费
- spark大小:3KB离线计算作为大数据计算领域领军技能,在成本、稳定性、数据一致性等方面有着绝对优势。吃透Spark离线技术及相关生态,就掌握了大数据工程师的高薪密码。本文章将结合生产级项目,一栈式点亮:数据收集(DataX)、数据湖(Iceberg)、数据分析(Spark)、智能调度(DS)、数据服务(DBApi)、AI大模型(ChatGPT)、可视化(Davinci)等离线处理核心技能及生态体系,带你打通硬核技能,拓宽上升通道。 首先,我们先来认识spark: 1、什么是spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。 2、spark有什么用? 大数据处理和分析:Spark提供了高性能和可扩展的分布式计算能力,可以处理大规模的数据集。它支离线计算作为大数据计算领域领军技能,在成本、稳定性、数据一致性等方面有着绝对优势。吃透Spark离线技术及相关生态,就掌握了大数据工程师的高薪密码。本文章将结合生产级项目,一栈式点亮:数据收集(DataX)、数据湖(Iceberg)、数据分析(Spark)、智能调度(DS)、数据服务(DBApi)、AI大模型(ChatGPT)、可视化(Davinci)等离线处理核心技能及生态体系,带你打通硬核技能,拓宽上升通道。 首先,我们先来认识spark: 1、什么是spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。 2、spark有什么用? 大数据处理和分析:Spark提供了高性能和可扩展的分布式计算能力,可以处理大规模的数据集。它支0 32浏览会员免费
- spark大小:3KB一、Spark3.0.0运行环境安装 Spark常见部署模式: Local模式:在本地部署单个Spark服务 所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等。 在IDEA中运行代码的环境称之为开发环境,和Local模式还是有区别的。 Standalone模式:Spark自带的任务调度模式。(国内常用) YARN模式:Spark使用Hadoop的YARN组件进行资源与任务调度。(国内常用) Windows模式:为了方便在学习测试spark程序,Spark提供了可以在windows系统下启动本地集群的方式,这样,在不使用虚拟机或服务器的情况下,也能满足Spark的基本使用。 Mesos & K8S模式:(了解)。 Mesos是Apache下的开源分布式资源管理框架,它被称为是分布式系统的内核,在Twitter得到广泛使用,管理着Twitter超过30,0000台服务器上的应用部署,但是在国内,依然使用着传统的Hadoop大数据框架,所以国内使用Mesos框架的并不多,但是原理都差不多。 容器化部署是目前业界很流行的一项技术一、Spark3.0.0运行环境安装 Spark常见部署模式: Local模式:在本地部署单个Spark服务 所谓的Local模式,就是不需要其他任何节点资源就可以在本地执行Spark代码的环境,一般用于教学,调试,演示等。 在IDEA中运行代码的环境称之为开发环境,和Local模式还是有区别的。 Standalone模式:Spark自带的任务调度模式。(国内常用) YARN模式:Spark使用Hadoop的YARN组件进行资源与任务调度。(国内常用) Windows模式:为了方便在学习测试spark程序,Spark提供了可以在windows系统下启动本地集群的方式,这样,在不使用虚拟机或服务器的情况下,也能满足Spark的基本使用。 Mesos & K8S模式:(了解)。 Mesos是Apache下的开源分布式资源管理框架,它被称为是分布式系统的内核,在Twitter得到广泛使用,管理着Twitter超过30,0000台服务器上的应用部署,但是在国内,依然使用着传统的Hadoop大数据框架,所以国内使用Mesos框架的并不多,但是原理都差不多。 容器化部署是目前业界很流行的一项技术0 29浏览会员免费
- flink大小:3KB一、《flink实时规则营销系统》项目背景 传统的“精准营销平台”由营销人员基于画像标签数据去圈选人群,进行营销推送,存在不足; 这种传统手段,往往无法抓住那些 “转瞬即逝的营销机会”; 如:一个促销狂热型用户,正在浏览包包时,及时推送出正在做促销活动的包包信息,是最有效的; 如:一个价格敏感型用户,正在犹豫不决反复查看他购物车中的某目标商品时,适时推送优惠券,是最有效的; 这些场景,显然无法通过营销人员通过人工手段去发现,需要用软件系统自动、实时监控用户的行为,并实时做出判断,并进而驱动营销消息推送系统推送相关营销内容; 总之,在应对这一类的需求时,以前的传统的“基于用户画像标签库的精准营销平台”显得力不从心; 因而,擅长用键鼠改变世界的攻城狮们,决定为公司的推广、运营部门开发一个应对上述场景的自动化、智能的、实时、规则动态可变的营销利器 —— 《实时动态规则智能运营系统》一、《flink实时规则营销系统》项目背景 传统的“精准营销平台”由营销人员基于画像标签数据去圈选人群,进行营销推送,存在不足; 这种传统手段,往往无法抓住那些 “转瞬即逝的营销机会”; 如:一个促销狂热型用户,正在浏览包包时,及时推送出正在做促销活动的包包信息,是最有效的; 如:一个价格敏感型用户,正在犹豫不决反复查看他购物车中的某目标商品时,适时推送优惠券,是最有效的; 这些场景,显然无法通过营销人员通过人工手段去发现,需要用软件系统自动、实时监控用户的行为,并实时做出判断,并进而驱动营销消息推送系统推送相关营销内容; 总之,在应对这一类的需求时,以前的传统的“基于用户画像标签库的精准营销平台”显得力不从心; 因而,擅长用键鼠改变世界的攻城狮们,决定为公司的推广、运营部门开发一个应对上述场景的自动化、智能的、实时、规则动态可变的营销利器 —— 《实时动态规则智能运营系统》0 15浏览会员免费
- 数据集大小:216KB数据操作——缺失值处理数据集数据操作——缺失值处理数据集0 27浏览会员免费
- 数据集大小:736KBDataFrame操作数据集[BeijingPM20100101_20151231.rar]DataFrame操作数据集[BeijingPM20100101_20151231.rar]0 17浏览会员免费
- 数据集大小:736KBDataFrame如何创建数据集【BeijingPM20100101_20151231_noheader.rar】DataFrame如何创建数据集【BeijingPM20100101_20151231_noheader.rar】0 61浏览会员免费
- 数据集大小:1MBSparkCore阶段练习数据集SparkCore阶段练习数据集0 15浏览会员免费
- 数据集大小:307KB深入了解 RDD数据集文件深入了解 RDD数据集文件3 60浏览会员免费
- scala大小:178MB【课程大纲】 第1讲-Spark的前世今生 第2讲-课程介绍、特色与价值 第3讲-Scala编程:基础语法 第4讲-Scala编程:条件控制与循环 第5讲-Scala编程:函数入门 第6讲-Scala编程:函数入门之默认参数和带名参数 第7讲-Scala编程:函数入门之变长参数 第8讲-Scala编程:函数入门之过程、lazy值和异常 第9讲-Scala编程:数组操作之Array、ArrayBuffer以及遍历数组 第10讲-Scala编程:数组操作之数组转换 第11讲-Scala编程:Map与Tuple 第12讲-Scala编程:面向对象编程之类 第13讲-Scala编程:面向对象编程之对象 第14讲-Scala编程:面向对象编程之继承 第15讲-Scala编程:面向对象编程之Trait 第16讲-Scala编程:函数式编程 第17讲-Scala编程:函数式编程之集合操作 第18讲-Scala编程:模式匹配 第19讲-Scala编程:类型参数 第20讲-Scala编程:隐式转换与隐式参数 第21讲-Scala编程:Actor入门【课程大纲】 第1讲-Spark的前世今生 第2讲-课程介绍、特色与价值 第3讲-Scala编程:基础语法 第4讲-Scala编程:条件控制与循环 第5讲-Scala编程:函数入门 第6讲-Scala编程:函数入门之默认参数和带名参数 第7讲-Scala编程:函数入门之变长参数 第8讲-Scala编程:函数入门之过程、lazy值和异常 第9讲-Scala编程:数组操作之Array、ArrayBuffer以及遍历数组 第10讲-Scala编程:数组操作之数组转换 第11讲-Scala编程:Map与Tuple 第12讲-Scala编程:面向对象编程之类 第13讲-Scala编程:面向对象编程之对象 第14讲-Scala编程:面向对象编程之继承 第15讲-Scala编程:面向对象编程之Trait 第16讲-Scala编程:函数式编程 第17讲-Scala编程:函数式编程之集合操作 第18讲-Scala编程:模式匹配 第19讲-Scala编程:类型参数 第20讲-Scala编程:隐式转换与隐式参数 第21讲-Scala编程:Actor入门0 15浏览¥ 99.90
- spark大小:9MBSpark入门与大数据分析实战教材pptSpark入门与大数据分析实战教材ppt0 27浏览会员免费
- 大数据大小:7MB大数据实验报告,1-8合集 熟悉常用的HBase操作 熟悉常用的mongoDB数据库操作等等 大数据实验报告(实验一到八) 实验一: 熟悉常用的Linux操作和Hadoop操作 实验二: 熟悉常用的HDFS操作 实验三: 熟悉常用的HBase操作 实验四: 熟悉常用的mongoDB数据库操作 实验五: MapReduce初级编程实践 实验六: 熟悉Hive的基本操作 实验七: Spark初级编程实践 实验八: Flink初级编程实践大数据实验报告,1-8合集 熟悉常用的HBase操作 熟悉常用的mongoDB数据库操作等等 大数据实验报告(实验一到八) 实验一: 熟悉常用的Linux操作和Hadoop操作 实验二: 熟悉常用的HDFS操作 实验三: 熟悉常用的HBase操作 实验四: 熟悉常用的mongoDB数据库操作 实验五: MapReduce初级编程实践 实验六: 熟悉Hive的基本操作 实验七: Spark初级编程实践 实验八: Flink初级编程实践0 335浏览免费
- 大数据大小:5KB《大数据硬核技能进阶 Spark3实战智能物业运营系统》将结合生产级项目,一栈式点亮:数据收集(DataX)、数据湖(Iceberg)、数据分析(Spark)、智能调度(DS)、数据服务(DBApi)、AI大模型(ChatGPT)、可视化(Davinci)等离线处理核心技能及生态体系,带你打通硬核技能,拓宽上升通道。 运营系统即运营体系.运营体系指组织运作的规则及规则下的相应资源,是组织存在并延续的根本。运营体系,包括组织运作的所有文件化的运作规则、为完成目标所设定的相应组织以及与之相关的外部接口等。是一个完整的过程体系,从输入经过具有相应规则的过程的打磨,变为组织存在的输出,保证了组织的延续和发展 真场景,全流程, AI大模型,手把手教学,倍增真实开发经验 项目简介: 以企业目前运行项目为设计载体,构建智能物业运营系统,各大环节从真实需求场景角度逐步拆分实现,从架构设计到开发落地,多次迭代优化,高度还原企业项目开发流程。还会引入当下最热门的AI大模型实现之ChatGPT来为我们的日常开发赋能,提升开发效率的同时,增强质量保障。 1 智能物业运营系统之地理位置的解析实战 设计目标:《大数据硬核技能进阶 Spark3实战智能物业运营系统》将结合生产级项目,一栈式点亮:数据收集(DataX)、数据湖(Iceberg)、数据分析(Spark)、智能调度(DS)、数据服务(DBApi)、AI大模型(ChatGPT)、可视化(Davinci)等离线处理核心技能及生态体系,带你打通硬核技能,拓宽上升通道。 运营系统即运营体系.运营体系指组织运作的规则及规则下的相应资源,是组织存在并延续的根本。运营体系,包括组织运作的所有文件化的运作规则、为完成目标所设定的相应组织以及与之相关的外部接口等。是一个完整的过程体系,从输入经过具有相应规则的过程的打磨,变为组织存在的输出,保证了组织的延续和发展 真场景,全流程, AI大模型,手把手教学,倍增真实开发经验 项目简介: 以企业目前运行项目为设计载体,构建智能物业运营系统,各大环节从真实需求场景角度逐步拆分实现,从架构设计到开发落地,多次迭代优化,高度还原企业项目开发流程。还会引入当下最热门的AI大模型实现之ChatGPT来为我们的日常开发赋能,提升开发效率的同时,增强质量保障。 1 智能物业运营系统之地理位置的解析实战 设计目标:0 12浏览会员免费
- spark大小:169KBSpark案例源码和数据集.rarSpark案例源码和数据集.rar0 67浏览免费
- spark大小:33KBSpark操作Hudi数据湖Spark操作Hudi数据湖0 227浏览会员免费
- 生活娱乐大小:71MB实时电影推荐系统项目源码+数据集.rar实时电影推荐系统项目源码+数据集.rar0 112浏览会员免费
- kafka大小:3MB1. 加载 MongoDB 里面的 ProductRecs 作为实时计算的基础数据 2. 用户 u 对商品 p 进行了评分,就触发一次实时计算 3. 从 ProductRecs 中选出与商品 p 最相似的 K 个商品作为集合 S 1. 要过滤掉用户 u 自己评分过的其他全部商品,过滤掉之后推荐的东西才是他没有见过的 4. 从 Redis 中获取用户 u 最近时间内的 K 条评分,包含本次评分,作为集合 RK 5. 把从1、2、3 里面拿到的数据作为参数,开始计算商品的推荐优先级,产生 <qID,> 集合 updated_S 6. 将 updated_S 与上次对用户 u 的推荐结果 Rec 利用公式进行合并,产生新的推荐结果 NewRec 作为最终输出1. 加载 MongoDB 里面的 ProductRecs 作为实时计算的基础数据 2. 用户 u 对商品 p 进行了评分,就触发一次实时计算 3. 从 ProductRecs 中选出与商品 p 最相似的 K 个商品作为集合 S 1. 要过滤掉用户 u 自己评分过的其他全部商品,过滤掉之后推荐的东西才是他没有见过的 4. 从 Redis 中获取用户 u 最近时间内的 K 条评分,包含本次评分,作为集合 RK 5. 把从1、2、3 里面拿到的数据作为参数,开始计算商品的推荐优先级,产生 <qID,> 集合 updated_S 6. 将 updated_S 与上次对用户 u 的推荐结果 Rec 利用公式进行合并,产生新的推荐结果 NewRec 作为最终输出0 69浏览会员免费
- 大数据大小:2KB大数据工程师2023版体系课,10月升级版35周,源码+PDF课件+电子手册+软件下载地址+接口数据集下载! 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。简单来说,大数据就是结构化的传统数据再加上非结构化的新数据。 大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。大数据工程师2023版体系课,10月升级版35周,源码+PDF课件+电子手册+软件下载地址+接口数据集下载! 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。简单来说,大数据就是结构化的传统数据再加上非结构化的新数据。 大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。0 28浏览会员免费
- spark大小:53KB而流处理则是直接对运动中的数据的处理,在接收数据时直接计算数据。 大多数数据都是连续的流:传感器事件,网站上的用户活动,金融交易等等 ,所有这些数据都是随着时间的推移而创建的。 接收和发送数据流并执行应用程序或分析逻辑的系统称为**流处理器**。流处理器的基本职责是确保数据有效流动,同时具备可扩展性和容错能力,Storm 和 Flink 就是其代表性的实现。 Spark Streaming 是 Spark 的一个子模块,用于快速构建可扩展,高吞吐量,高容错的流处理程序。具有以下特点: + 通过高级 API 构建应用程序,简单易用; + 支持多种语言,如 Java,Scala 和 Python; + 良好的容错性,Spark Streaming 支持快速从失败中恢复丢失的操作状态; + 能够和 Spark 其他模块无缝集成,将流处理与批处理完美结合; + Spark Streaming 可以从 HDFS,Flume,Kafka,Twitter 和 ZeroMQ 读取数据,也支持自定义数据源。而流处理则是直接对运动中的数据的处理,在接收数据时直接计算数据。 大多数数据都是连续的流:传感器事件,网站上的用户活动,金融交易等等 ,所有这些数据都是随着时间的推移而创建的。 接收和发送数据流并执行应用程序或分析逻辑的系统称为**流处理器**。流处理器的基本职责是确保数据有效流动,同时具备可扩展性和容错能力,Storm 和 Flink 就是其代表性的实现。 Spark Streaming 是 Spark 的一个子模块,用于快速构建可扩展,高吞吐量,高容错的流处理程序。具有以下特点: + 通过高级 API 构建应用程序,简单易用; + 支持多种语言,如 Java,Scala 和 Python; + 良好的容错性,Spark Streaming 支持快速从失败中恢复丢失的操作状态; + 能够和 Spark 其他模块无缝集成,将流处理与批处理完美结合; + Spark Streaming 可以从 HDFS,Flume,Kafka,Twitter 和 ZeroMQ 读取数据,也支持自定义数据源。0 68浏览免费
- spark大小:51KB在示例代码中 `kafkaParams` 封装了 Kafka 消费者的属性,这些属性和 Spark Streaming 无关,是 Kafka 原生 API 中就有定义的。其中服务器地址、键序列化器和值序列化器是必选的,其他配置是可选的。 Spark Streaming 中提供了如下三种位置策略,用于指定 Kafka 主题分区与 Spark 执行程序 Executors 之间的分配关系: + **PreferConsistent** : 它将在所有的 Executors 上均匀分配分区; + **PreferBrokers** : 当 Spark 的 Executor 与 Kafka Broker 在同一机器上时可以选择该选项,它优先将该 Broker 上的首领分区分配给该机器上的 Executor; + **PreferFixed** : 可以指定主题分区与特定主机的映射关系,显示地将分区分配到特定的主机。 Spark Streaming 提供了两种主题订阅方式,分别为 `Subscribe` 和 `SubscribePattern`。后者可以使用正则匹配订阅主题的名称在示例代码中 `kafkaParams` 封装了 Kafka 消费者的属性,这些属性和 Spark Streaming 无关,是 Kafka 原生 API 中就有定义的。其中服务器地址、键序列化器和值序列化器是必选的,其他配置是可选的。 Spark Streaming 中提供了如下三种位置策略,用于指定 Kafka 主题分区与 Spark 执行程序 Executors 之间的分配关系: + **PreferConsistent** : 它将在所有的 Executors 上均匀分配分区; + **PreferBrokers** : 当 Spark 的 Executor 与 Kafka Broker 在同一机器上时可以选择该选项,它优先将该 Broker 上的首领分区分配给该机器上的 Executor; + **PreferFixed** : 可以指定主题分区与特定主机的映射关系,显示地将分区分配到特定的主机。 Spark Streaming 提供了两种主题订阅方式,分别为 `Subscribe` 和 `SubscribePattern`。后者可以使用正则匹配订阅主题的名称0 53浏览免费
- spark大小:3KBApache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 在推送式方法 (Flume-style Push-based Approach) 中,Spark Streaming 程序需要对某台服务器的某个端口进行监听,Flume 通过 `avro Sink` 将数据源源不断推送到该端口。 拉取式方法 (Pull-based Approach using a Custom Sink) 是将数据推送到 `SparkSink` 接收器中,此时数据会保持缓冲状态,Spark Streaming 定时从接收器中拉取数据。这种方式是基于事务的,即只有在 Spark Streaming 接收和复制数据完成后,才会删除缓存的数据。与第一种方式相比,具有更强的可靠性和容错保证 ———————————————— 版权声明:本文为CSDN博主「shangjg3」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:htApache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 在推送式方法 (Flume-style Push-based Approach) 中,Spark Streaming 程序需要对某台服务器的某个端口进行监听,Flume 通过 `avro Sink` 将数据源源不断推送到该端口。 拉取式方法 (Pull-based Approach using a Custom Sink) 是将数据推送到 `SparkSink` 接收器中,此时数据会保持缓冲状态,Spark Streaming 定时从接收器中拉取数据。这种方式是基于事务的,即只有在 Spark Streaming 接收和复制数据完成后,才会删除缓存的数据。与第一种方式相比,具有更强的可靠性和容错保证 ———————————————— 版权声明:本文为CSDN博主「shangjg3」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:ht0 74浏览免费
- 数据分析大小:8MBPyspark的使用 空气质量指数和空气质量等级的计算 应用多种ML算法 Kmeans BisectingKmeans ClusterEvaluator StringIndexer VectorAssembler StandarScaler DecisionTreeClassifier RandomForestClassifier MulticlassClassificationEvaluator LinearRegressor DecisionTreeRegressor RandomForestRegressor Regression Evaluator NaiveBayes MultilayerPerceptronClassifier LogisticRegressionPyspark的使用 空气质量指数和空气质量等级的计算 应用多种ML算法 Kmeans BisectingKmeans ClusterEvaluator StringIndexer VectorAssembler StandarScaler DecisionTreeClassifier RandomForestClassifier MulticlassClassificationEvaluator LinearRegressor DecisionTreeRegressor RandomForestRegressor Regression Evaluator NaiveBayes MultilayerPerceptronClassifier LogisticRegression0 164浏览免费
- 流处理大小:7MBStreaming 101与Streaming 102 Tyler Akidau的介绍流引擎的原文Streaming 101与Streaming 102 Tyler Akidau的介绍流引擎的原文0 51浏览免费
- 大数据大小:331B实战大数据|Hadoop|Spark|Flink|离线计算|实时计算课程分享下载实战大数据|Hadoop|Spark|Flink|离线计算|实时计算课程分享下载0 31浏览会员免费
- 大数据大小:3KB大数据工程师2023版(升级版33周),视频+源码+PDF课件+电子手册+软件下载地址+接口数据集下载!大数据工程师2023版(升级版33周),视频+源码+PDF课件+电子手册+软件下载地址+接口数据集下载!0 6浏览会员免费
- 软件/插件大小:769KBjd-gui反编译工具jd-gui反编译工具0 22浏览免费
- spark大小:17MB1-Overview.pdf 2-JobLogicalPlan.pdf 3-JobPhysicalPlan.pdf 4-shuffleDetails.pdf 5-Architecture.pdf 6-CacheAndCheckpoint.pdf 7-Broadcast.pdf1-Overview.pdf 2-JobLogicalPlan.pdf 3-JobPhysicalPlan.pdf 4-shuffleDetails.pdf 5-Architecture.pdf 6-CacheAndCheckpoint.pdf 7-Broadcast.pdf0 28浏览会员免费
- hadoop大小:9MB在线教育平台现在是教育体系的重要组成部分,在当前大数据时代的背景下,促进教育机构建立统一平台、统一资源管理的数字化教学系统。如何评估系统平台的健康程度、学生的学习体验和在线课程的质量对于课程的教师和学校的管理人员都是非常重要的,这是进行数据分析的主要目的。可视化是一个重要的途径,它能够帮助大数据获得完整的数据图表并挖掘数据的价值,大数据分析离不开可视化这一工具的推动。 基于hadoop和echarts的教育大数据可视化系统,以B/S模式开发。通过Hadoop中Sqoop进行数据导入转换。以MapReduce构建数据分析,数据分析维度包括每日登录人数分析、平均学习时长分析、学习行为次数分析、每日活跃情况分析和分时段学习人数分析。最终使用ECharts可视化工具来对在线教育平台在学习过程中产生的数据进行可视化大屏展现,让更多人感受到可视化大数据的魅力。在线教育平台现在是教育体系的重要组成部分,在当前大数据时代的背景下,促进教育机构建立统一平台、统一资源管理的数字化教学系统。如何评估系统平台的健康程度、学生的学习体验和在线课程的质量对于课程的教师和学校的管理人员都是非常重要的,这是进行数据分析的主要目的。可视化是一个重要的途径,它能够帮助大数据获得完整的数据图表并挖掘数据的价值,大数据分析离不开可视化这一工具的推动。 基于hadoop和echarts的教育大数据可视化系统,以B/S模式开发。通过Hadoop中Sqoop进行数据导入转换。以MapReduce构建数据分析,数据分析维度包括每日登录人数分析、平均学习时长分析、学习行为次数分析、每日活跃情况分析和分时段学习人数分析。最终使用ECharts可视化工具来对在线教育平台在学习过程中产生的数据进行可视化大屏展现,让更多人感受到可视化大数据的魅力。3 691浏览免费
- 大数据大小:304B玩转热门框架 用企业级思维 开发通用够硬的大数据平台课程分享,10章完整版,附源码玩转热门框架 用企业级思维 开发通用够硬的大数据平台课程分享,10章完整版,附源码0 18浏览会员免费
- 大数据大小:197MBPySpark电商分析案例讲解,Python+Spark,Python+Spark SQL,Python+SparkStream,Python+Hive等视频讲解,含讲义、代码、笔记、软件等,原价值千元内部培训教程现免费对外公开。PySpark电商分析案例讲解,Python+Spark,Python+Spark SQL,Python+SparkStream,Python+Hive等视频讲解,含讲义、代码、笔记、软件等,原价值千元内部培训教程现免费对外公开。1 319浏览会员免费
- 大数据大小:163MB关于Python+Spark 的使用、PySpark编程,Python+Hive大数据分析等的视频讲解(含讲义、代码、笔记、软件等),原价值千元内部培训教程现对外公开。关于Python+Spark 的使用、PySpark编程,Python+Hive大数据分析等的视频讲解(含讲义、代码、笔记、软件等),原价值千元内部培训教程现对外公开。0 65浏览会员免费
- 大数据分析大小:75MB关于Python+Spark 的入门安装、配置,示例与快速入门与基础案例等的视频讲解,配置讲义、代码、笔记、软件等,原价值千元内部培训教程现免费对外公开。关于Python+Spark 的入门安装、配置,示例与快速入门与基础案例等的视频讲解,配置讲义、代码、笔记、软件等,原价值千元内部培训教程现免费对外公开。0 56浏览会员免费
- spark大小:29MBsparkSQL资料包,包含了sparkSQL底层实现原理+sparkSQL调优两个部分。还提供了代码实例。sparkSQL底层实现原理 sparkSQL调优资料 sparkSQL相关代码实例sparkSQL资料包,包含了sparkSQL底层实现原理+sparkSQL调优两个部分。还提供了代码实例。sparkSQL底层实现原理 sparkSQL调优资料 sparkSQL相关代码实例0 120浏览会员免费
- 大数据大小:141B给大家分享一套大数据课程——大数据企业级项目实战--Titan大型数据运营系统项目,完整版视频课程下载,附代码+课件。希望对大家有帮助。给大家分享一套大数据课程——大数据企业级项目实战--Titan大型数据运营系统项目,完整版视频课程下载,附代码+课件。希望对大家有帮助。1 70浏览会员免费
- scala-2.12.13大小:20MBscala-2.12.13scala-2.12.130 86浏览会员免费
- spark-bench大小:79MBspark-bench_2.3.0_0.4.0-RELEASEspark-bench_2.3.0_0.4.0-RELEASE0 61浏览会员免费
- spark-3.1.1大小:210MBspark-3.1.1-bin-hadoop2.7spark-3.1.1-bin-hadoop2.70 181浏览会员免费
- spark-2.1.1大小:189MBspark-2.1.1-bin-hadoop2.7spark-2.1.1-bin-hadoop2.70 54浏览会员免费
- sbt大小:15MBsbt-1.6.1sbt-1.6.10 51浏览会员免费
- zookeeper大小:14MBapache-zookeeper-3.7.0-binapache-zookeeper-3.7.0-bin0 73浏览会员免费
- 大数据大小:225B介绍:今天给大家分享一套大数据开发课程,课程是2022最新升级版的,一共有27周,大数据涉及到的内容基本都包含了,比如spark,Hadoop,hive,flink,数据仓库等等,可以说是学习大数据一部到位,有需要学习大数据的小伙伴抓紧时间下载了,视频+代码+课件+软件,资料齐全介绍:今天给大家分享一套大数据开发课程,课程是2022最新升级版的,一共有27周,大数据涉及到的内容基本都包含了,比如spark,Hadoop,hive,flink,数据仓库等等,可以说是学习大数据一部到位,有需要学习大数据的小伙伴抓紧时间下载了,视频+代码+课件+软件,资料齐全0 87浏览会员免费
- 大数据大小:676B大数据企业级项目实战--Titan大型数据运营系统项目课程,附课件+代码下载。 本项目课程是一门极具综合性和完整性的大型项目课程;课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。大数据企业级项目实战--Titan大型数据运营系统项目课程,附课件+代码下载。 本项目课程是一门极具综合性和完整性的大型项目课程;课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。0 113浏览会员免费
- spark大小:95KBspark考试练习题含答案.rarspark考试练习题含答案.rar5 2526浏览¥ 5.90
- spark大小:121KBSpark跨集群bulk load(6-2)Spark跨集群bulk load(6-2)0 73浏览会员免费
- mongodb大小:7MB基于html与JavaScript使用spark和MongoDB的商品推荐系统设计与实现基于html与JavaScript使用spark和MongoDB的商品推荐系统设计与实现0 79浏览¥ 69.90
- spark大小:739B分享课程——Spark 2.x + Python 大数据机器学习实战课程,完整版视频课程下载。 本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型,帮助读者开发并部署高效可拓展的实时Spark解决方案。 本课程从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,如分析、分类、训练、建模、预测、推荐引擎、二元分类、多元分类、回归分析和Pipeline等;为降低学习大数据技术的门槛,提供了丰富的案例实践操作和范例程序编码,展示了如何在单机Windows系统上建立Spark 2.x + Python开发环境; 适合于学习大数据基础知识的初学者,更适合正在使用机器学习想结合大数据技术的人员;分享课程——Spark 2.x + Python 大数据机器学习实战课程,完整版视频课程下载。 本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型,帮助读者开发并部署高效可拓展的实时Spark解决方案。 本课程从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,如分析、分类、训练、建模、预测、推荐引擎、二元分类、多元分类、回归分析和Pipeline等;为降低学习大数据技术的门槛,提供了丰富的案例实践操作和范例程序编码,展示了如何在单机Windows系统上建立Spark 2.x + Python开发环境; 适合于学习大数据基础知识的初学者,更适合正在使用机器学习想结合大数据技术的人员;0 300浏览会员免费
- 数据仓库大小:395KBSpark数据仓库汽车销售分析练习题包括代码和数据Spark数据仓库汽车销售分析练习题包括代码和数据5 519浏览¥ 11.90
- spark大小:499KBspark数据处理和数据分析项目实战Dataframe风格里面包括数据和代码,启动idea就可以练习spark数据处理和数据分析项目实战Dataframe风格里面包括数据和代码,启动idea就可以练习5 783浏览¥ 11.90
- spark大小:215MBSpark及其安装文档Spark及其安装文档0 154浏览会员免费
- big大小:688B分享一套课程——大数据企业级项目实战--Titan大型数据运营系统项目课程,附课件+代码下载。 本项目课程是一门极具综合性和完整性的大型项目课程;课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。 本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。分享一套课程——大数据企业级项目实战--Titan大型数据运营系统项目课程,附课件+代码下载。 本项目课程是一门极具综合性和完整性的大型项目课程;课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。 本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理(元数据管理、数据质量管理)、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块,力求原汁原味重现一个完备的企业级大型数据运营系统。5 894浏览会员免费
- 数据仓库大小:809B给大家分享一套课程——高性能高扩展的千亿级实时数据仓库全实现(通用企业级解决方案),完整版178讲,提供源码和课件下载! 本课程凝聚讲师多年一线大数据企业实际项目经验,大数据企业在职架构师亲自授课,全程实操代码,带你体验真实的大数据开发过程,代码现场调试。通过本课程的学习再加上老师的答疑,你完全可以将本案例直接应用于企业给大家分享一套课程——高性能高扩展的千亿级实时数据仓库全实现(通用企业级解决方案),完整版178讲,提供源码和课件下载! 本课程凝聚讲师多年一线大数据企业实际项目经验,大数据企业在职架构师亲自授课,全程实操代码,带你体验真实的大数据开发过程,代码现场调试。通过本课程的学习再加上老师的答疑,你完全可以将本案例直接应用于企业0 69浏览会员免费
- python大小:2MBPython大数据处理库 PySpark实战-源代码Python大数据处理库 PySpark实战-源代码0 479浏览会员免费
- python大小:4MBPython大数据处理库 PySpark实战PPT课件Python大数据处理库 PySpark实战PPT课件0 1097浏览会员免费
- 大数据求职简历大小:2MB大数据岗简历模板参考: 1.熟练掌握 SparkSql、SparkStreaming、Spark Core,理解 Spark 工作机制及 Spark 任务的执行流程。 2.熟练掌握 Hadoop 分布式集群安装、部署、搭建和配置,能够熟悉应用 Hadoop 相关工具 进行相关应用开发。 3.熟悉 MapReduce,Hdfs 工作机制和运行原理。 4.熟练使用 Kafka 实现集群分布式高吞吐量通信机制,同时借助 Zookeeper 建立生产 者和消费者的关系,实现负载均衡和持久化。 ...大数据岗简历模板参考: 1.熟练掌握 SparkSql、SparkStreaming、Spark Core,理解 Spark 工作机制及 Spark 任务的执行流程。 2.熟练掌握 Hadoop 分布式集群安装、部署、搭建和配置,能够熟悉应用 Hadoop 相关工具 进行相关应用开发。 3.熟悉 MapReduce,Hdfs 工作机制和运行原理。 4.熟练使用 Kafka 实现集群分布式高吞吐量通信机制,同时借助 Zookeeper 建立生产 者和消费者的关系,实现负载均衡和持久化。 ...5 928浏览¥ 22.90
- spark大小:745B分享一套用户画像视频教程——Spark+ES+ClickHouse 构建DMP用户画像,已完结,共8章。 行业竞争越来越激烈,精细化经营成为各企业取胜的秘籍。用户画像系统作为提供精准用户数据的重要来源,已经成为企业必备的核心平台,人才缺口大,薪资高。 本课程将基于大数据主流技术,数据挖掘核心算法,带你打造企业实用的用户画像平台,提升你的个人竞争力。业务-算法-技术,环环相扣,轻松掌握完整用户画像知识体系;热门业务场景,企业应用标准,项目扩展性强,可复用;从架构到开发部署,逐层递进,还原企业真实开发流程分享一套用户画像视频教程——Spark+ES+ClickHouse 构建DMP用户画像,已完结,共8章。 行业竞争越来越激烈,精细化经营成为各企业取胜的秘籍。用户画像系统作为提供精准用户数据的重要来源,已经成为企业必备的核心平台,人才缺口大,薪资高。 本课程将基于大数据主流技术,数据挖掘核心算法,带你打造企业实用的用户画像平台,提升你的个人竞争力。业务-算法-技术,环环相扣,轻松掌握完整用户画像知识体系;热门业务场景,企业应用标准,项目扩展性强,可复用;从架构到开发部署,逐层递进,还原企业真实开发流程3 495浏览会员免费
- 推荐系统大小:154B全局视角系统学习推荐系统课程2022版课程一共8章,提供配套的源码下载。全局视角系统学习推荐系统课程2022版课程一共8章,提供配套的源码下载。0 108浏览会员免费
- clickhouse分布式表写大小:57KB基于waterdrop1.51(seatunnel1.x),output clickhouse插件,新增分布式写表 rowhash和rowrandom模式基于waterdrop1.51(seatunnel1.x),output clickhouse插件,新增分布式写表 rowhash和rowrandom模式0 92浏览会员免费