spark_大数据_IT技术下载资源-CSDN开发者文库

综合最新热门
spark
大小：91MB
Spark大数据分析技术（Python版）--配套PPT、数据集、源代码和教学大纲(2)。书本编号9787302625520
Spark大数据分析技术（Python版）--配套PPT、数据集、源代码和教学大纲(2)。书本编号9787302625520

        Spark大数据分析技术（Python版）-配套PPT、数据集、源代码和教学大纲(2) 书本编号9787302625520
       0 14浏览

        会员免费
      
spark
大小：150MB
Spark纯净版安装包是一个用于安装Apache Spark的软件包，该软件包提供了Spark的基本功能和组件，但不包含任何额外的扩展或依赖项。纯净版安装包旨在提供一个轻量级、简单易用的Spark安装选项，适用于用户希望快速部署Spark并开始使用其基本功能的场景。

该安装包通常包含Spark的核心组件，如Spark Core、Spark SQL、Spark Streaming等，以及一些基本的工具和库。用户可以根据自己的需求选择合适的安装方式，例如通过二进制文件安装、通过包管理器安装或者通过源代码编译安装。

使用Spark纯净版安装包可以让用户更快速地搭建Spark环境，并且可以根据需要进行定制和扩展，是一种简便有效的安装Spark的方式
Spark纯净版安装包是一个用于安装Apache Spark的软件包，该软件包提供了Spark的基本功能和组件，但不包含任何额外的扩展或依赖项。纯净版安装包旨在提供一个轻量级、简单易用的Spark安装选项，适用于用户希望快速部署Spark并开始使用其基本功能的场景。

该安装包通常包含Spark的核心组件，如Spark Core、Spark SQL、Spark Streaming等，以及一些基本的工具和库。用户可以根据自己的需求选择合适的安装方式，例如通过二进制文件安装、通过包管理器安装或者通过源代码编译安装。

使用Spark纯净版安装包可以让用户更快速地搭建Spark环境，并且可以根据需要进行定制和扩展，是一种简便有效的安装Spark的方式

        大数据Spark纯净版安装包，用于快速集成Hive on Spark
       0 30浏览

        会员免费
      
spark
大小：1MB
1.基于Spark开发的平台

2.需要有spark基础

3.有很多高级知识和设计模式

4.电商用户行为分析大数据平台（项目名称）

5.访问行为，购物行为，广告点击行为，对这些行为进行分析，使用大数据技术来帮助公司提升业绩。

6.主要的功能模块有用户session分析，页面单跳转化率统计，热门商品离线统计，广告流量实时统计等4个业务模块。

7.所使用的知识点是spark core，spark SQL，spark streaming等三个技术框架。

8.主要是数据倾斜，线上故障，性能调优，troubleshooting等经验。

9.使用模拟数据,希望达到的效果。

10.需求分析，方案设计，数据设计，编码实现，测试以及性能调优等环节。
1.基于Spark开发的平台

2.需要有spark基础

3.有很多高级知识和设计模式

4.电商用户行为分析大数据平台（项目名称）

5.访问行为，购物行为，广告点击行为，对这些行为进行分析，使用大数据技术来帮助公司提升业绩。

6.主要的功能模块有用户session分析，页面单跳转化率统计，热门商品离线统计，广告流量实时统计等4个业务模块。

7.所使用的知识点是spark core，spark SQL，spark streaming等三个技术框架。

8.主要是数据倾斜，线上故障，性能调优，troubleshooting等经验。

9.使用模拟数据,希望达到的效果。

10.需求分析，方案设计，数据设计，编码实现，测试以及性能调优等环节。

        基于Spark的电商用户行为分析大数据平台项目源码+数据集.rar
       0 87浏览
¥ 19.90
      
flink
大小：3KB
一、什么是实时数仓
实时数据仓库（Real-time Data Warehouse）是指能够实时地处理和分析数据，使得数据仓库中的数据是最新的、最准确的，并且可以实时响应用户的查询和分析需求的一种数据仓库系统。

与传统的数据仓库相比，实时数据仓库更加注重数据的实时性和对业务的实时响应能力。传统数据仓库通常是每日、每周或每月定期进行数据的抽取、转换和加载（ETL），更新的速度较慢，一般不支持实时查询和分析。而实时数据仓库则更加注重数据的实时性和对业务的实时响应能力，能够在数据发生变化时及时响应用户的查询和分析需求。

二、安装Flink
步骤 1：下载 #
为了运行Flink，只需提前安装好 Java 11。你可以通过以下命令来检查 Java 是否已经安装正确。

java -version
下载 release 1.20-SNAPSHOT 并解压。

$ tar -xzf flink-1.20-SNAPSHOT-bin-scala_2.12.tgz
$ cd flink-1.20-SNAPSHOT-bin-scala_2.12
步骤 2：启动集群 #
Flink 附带了一个 bash
一、什么是实时数仓
实时数据仓库（Real-time Data Warehouse）是指能够实时地处理和分析数据，使得数据仓库中的数据是最新的、最准确的，并且可以实时响应用户的查询和分析需求的一种数据仓库系统。

与传统的数据仓库相比，实时数据仓库更加注重数据的实时性和对业务的实时响应能力。传统数据仓库通常是每日、每周或每月定期进行数据的抽取、转换和加载（ETL），更新的速度较慢，一般不支持实时查询和分析。而实时数据仓库则更加注重数据的实时性和对业务的实时响应能力，能够在数据发生变化时及时响应用户的查询和分析需求。

二、安装Flink
步骤 1：下载 #
为了运行Flink，只需提前安装好 Java 11。你可以通过以下命令来检查 Java 是否已经安装正确。

java -version
下载 release 1.20-SNAPSHOT 并解压。

$ tar -xzf flink-1.20-SNAPSHOT-bin-scala_2.12.tgz
$ cd flink-1.20-SNAPSHOT-bin-scala_2.12
步骤 2：启动集群 #
Flink 附带了一个 bash

        实战Flink+Doris实时数仓教程
       0 218浏览

        会员免费
      
spark
大小：3KB
离线计算作为大数据计算领域领军技能，在成本、稳定性、数据一致性等方面有着绝对优势。吃透Spark离线技术及相关生态，就掌握了大数据工程师的高薪密码。本文章将结合生产级项目，一栈式点亮：数据收集(DataX)、数据湖(Iceberg)、数据分析(Spark)、智能调度(DS)、数据服务(DBApi)、AI大模型(ChatGPT)、可视化(Davinci)等离线处理核心技能及生态体系，带你打通硬核技能，拓宽上升通道。

首先，我们先来认识spark：
1、什么是spark
  Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架。

2、spark有什么用？
　大数据处理和分析：Spark提供了高性能和可扩展的分布式计算能力，可以处理大规模的数据集。它支
离线计算作为大数据计算领域领军技能，在成本、稳定性、数据一致性等方面有着绝对优势。吃透Spark离线技术及相关生态，就掌握了大数据工程师的高薪密码。本文章将结合生产级项目，一栈式点亮：数据收集(DataX)、数据湖(Iceberg)、数据分析(Spark)、智能调度(DS)、数据服务(DBApi)、AI大模型(ChatGPT)、可视化(Davinci)等离线处理核心技能及生态体系，带你打通硬核技能，拓宽上升通道。

首先，我们先来认识spark：
1、什么是spark
  Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架。

2、spark有什么用？
　大数据处理和分析：Spark提供了高性能和可扩展的分布式计算能力，可以处理大规模的数据集。它支

        23章全大数据硬核技能进阶 Spark3实战智能物业运营系统
       0 32浏览

        会员免费
      
spark
大小：3KB
一、Spark3.0.0运行环境安装

Spark常见部署模式：
Local模式：在本地部署单个Spark服务
所谓的Local模式，就是不需要其他任何节点资源就可以在本地执行Spark代码的环境，一般用于教学，调试，演示等。
在IDEA中运行代码的环境称之为开发环境，和Local模式还是有区别的。
Standalone模式：Spark自带的任务调度模式。（国内常用）
YARN模式：Spark使用Hadoop的YARN组件进行资源与任务调度。（国内常用）
Windows模式：为了方便在学习测试spark程序，Spark提供了可以在windows系统下启动本地集群的方式，这样，在不使用虚拟机或服务器的情况下，也能满足Spark的基本使用。
Mesos & K8S模式：（了解）。
Mesos是Apache下的开源分布式资源管理框架，它被称为是分布式系统的内核,在Twitter得到广泛使用,管理着Twitter超过30,0000台服务器上的应用部署，但是在国内，依然使用着传统的Hadoop大数据框架，所以国内使用Mesos框架的并不多，但是原理都差不多。
容器化部署是目前业界很流行的一项技术
一、Spark3.0.0运行环境安装

Spark常见部署模式：
Local模式：在本地部署单个Spark服务
所谓的Local模式，就是不需要其他任何节点资源就可以在本地执行Spark代码的环境，一般用于教学，调试，演示等。
在IDEA中运行代码的环境称之为开发环境，和Local模式还是有区别的。
Standalone模式：Spark自带的任务调度模式。（国内常用）
YARN模式：Spark使用Hadoop的YARN组件进行资源与任务调度。（国内常用）
Windows模式：为了方便在学习测试spark程序，Spark提供了可以在windows系统下启动本地集群的方式，这样，在不使用虚拟机或服务器的情况下，也能满足Spark的基本使用。
Mesos & K8S模式：（了解）。
Mesos是Apache下的开源分布式资源管理框架，它被称为是分布式系统的内核,在Twitter得到广泛使用,管理着Twitter超过30,0000台服务器上的应用部署，但是在国内，依然使用着传统的Hadoop大数据框架，所以国内使用Mesos框架的并不多，但是原理都差不多。
容器化部署是目前业界很流行的一项技术

        完结23章大数据硬核技能进阶 Spark3实战智能物业运营系统
       0 29浏览

        会员免费
      
flink
大小：3KB
一、《flink实时规则营销系统》项目背景
传统的“精准营销平台”由营销人员基于画像标签数据去圈选人群，进行营销推送，存在不足；
这种传统手段，往往无法抓住那些 “转瞬即逝的营销机会”；

如：一个促销狂热型用户，正在浏览包包时，及时推送出正在做促销活动的包包信息，是最有效的；
如：一个价格敏感型用户，正在犹豫不决反复查看他购物车中的某目标商品时，适时推送优惠券，是最有效的；

这些场景，显然无法通过营销人员通过人工手段去发现，需要用软件系统自动、实时监控用户的行为，并实时做出判断，并进而驱动营销消息推送系统推送相关营销内容；
总之，在应对这一类的需求时，以前的传统的“基于用户画像标签库的精准营销平台”显得力不从心；

因而，擅长用键鼠改变世界的攻城狮们，决定为公司的推广、运营部门开发一个应对上述场景的自动化、智能的、实时、规则动态可变的营销利器 —— 《实时动态规则智能运营系统》
一、《flink实时规则营销系统》项目背景
传统的“精准营销平台”由营销人员基于画像标签数据去圈选人群，进行营销推送，存在不足；
这种传统手段，往往无法抓住那些 “转瞬即逝的营销机会”；

如：一个促销狂热型用户，正在浏览包包时，及时推送出正在做促销活动的包包信息，是最有效的；
如：一个价格敏感型用户，正在犹豫不决反复查看他购物车中的某目标商品时，适时推送优惠券，是最有效的；

这些场景，显然无法通过营销人员通过人工手段去发现，需要用软件系统自动、实时监控用户的行为，并实时做出判断，并进而驱动营销消息推送系统推送相关营销内容；
总之，在应对这一类的需求时，以前的传统的“基于用户画像标签库的精准营销平台”显得力不从心；

因而，擅长用键鼠改变世界的攻城狮们，决定为公司的推广、运营部门开发一个应对上述场景的自动化、智能的、实时、规则动态可变的营销利器 —— 《实时动态规则智能运营系统》

        flink实时规则营销系统教程（第39期，2023版）
       0 15浏览

        会员免费
      
数据集
大小：216KB
数据操作——缺失值处理数据集
数据操作——缺失值处理数据集

        SparkSQL扩展-数据操作-缺失值处理
       0 27浏览

        会员免费
      
数据集
大小：736KB
DataFrame操作数据集[BeijingPM20100101_20151231.rar]
DataFrame操作数据集[BeijingPM20100101_20151231.rar]

        SparkSQL-DataFrame
       0 17浏览

        会员免费
      
数据集
大小：736KB
DataFrame如何创建数据集【BeijingPM20100101_20151231_noheader.rar】
DataFrame如何创建数据集【BeijingPM20100101_20151231_noheader.rar】

        SparkSQL-DataFrame
       0 61浏览

        会员免费
      
数据集
大小：1MB
SparkCore阶段练习数据集
SparkCore阶段练习数据集

        SparkCore阶段练习数据集
       0 15浏览

        会员免费
      
数据集
大小：307KB
深入了解 RDD数据集文件
深入了解 RDD数据集文件

        深入了解 RDD数据集文件
       3 60浏览

        会员免费
      
scala
大小：178MB
【课程大纲】
第1讲-Spark的前世今生
第2讲-课程介绍、特色与价值
第3讲-Scala编程：基础语法
第4讲-Scala编程：条件控制与循环
第5讲-Scala编程：函数入门
第6讲-Scala编程：函数入门之默认参数和带名参数
第7讲-Scala编程：函数入门之变长参数
第8讲-Scala编程：函数入门之过程、lazy值和异常
第9讲-Scala编程：数组操作之Array、ArrayBuffer以及遍历数组
第10讲-Scala编程：数组操作之数组转换
第11讲-Scala编程：Map与Tuple
第12讲-Scala编程：面向对象编程之类
第13讲-Scala编程：面向对象编程之对象
第14讲-Scala编程：面向对象编程之继承
第15讲-Scala编程：面向对象编程之Trait
第16讲-Scala编程：函数式编程
第17讲-Scala编程：函数式编程之集合操作
第18讲-Scala编程：模式匹配
第19讲-Scala编程：类型参数
第20讲-Scala编程：隐式转换与隐式参数
第21讲-Scala编程：Actor入门
【课程大纲】
第1讲-Spark的前世今生
第2讲-课程介绍、特色与价值
第3讲-Scala编程：基础语法
第4讲-Scala编程：条件控制与循环
第5讲-Scala编程：函数入门
第6讲-Scala编程：函数入门之默认参数和带名参数
第7讲-Scala编程：函数入门之变长参数
第8讲-Scala编程：函数入门之过程、lazy值和异常
第9讲-Scala编程：数组操作之Array、ArrayBuffer以及遍历数组
第10讲-Scala编程：数组操作之数组转换
第11讲-Scala编程：Map与Tuple
第12讲-Scala编程：面向对象编程之类
第13讲-Scala编程：面向对象编程之对象
第14讲-Scala编程：面向对象编程之继承
第15讲-Scala编程：面向对象编程之Trait
第16讲-Scala编程：函数式编程
第17讲-Scala编程：函数式编程之集合操作
第18讲-Scala编程：模式匹配
第19讲-Scala编程：类型参数
第20讲-Scala编程：隐式转换与隐式参数
第21讲-Scala编程：Actor入门

        Spark技术实战之基础篇 -Scala语言从入门到精通 Scala编程详解 含课件和资料 共21个章节.rar
       0 15浏览
¥ 99.90
      
spark
大小：9MB
Spark入门与大数据分析实战教材ppt
Spark入门与大数据分析实战教材ppt

        Spark入门与大数据分析实战教材ppt
       0 27浏览

        会员免费
      
大数据
大小：7MB
大数据实验报告，1-8合集 熟悉常用的HBase操作 熟悉常用的mongoDB数据库操作等等
大数据实验报告（实验一到八）
实验一： 熟悉常用的Linux操作和Hadoop操作
实验二： 熟悉常用的HDFS操作
实验三： 熟悉常用的HBase操作
实验四： 熟悉常用的mongoDB数据库操作
实验五： MapReduce初级编程实践
实验六： 熟悉Hive的基本操作
实验七： Spark初级编程实践
实验八： Flink初级编程实践
大数据实验报告，1-8合集 熟悉常用的HBase操作 熟悉常用的mongoDB数据库操作等等
大数据实验报告（实验一到八）
实验一： 熟悉常用的Linux操作和Hadoop操作
实验二： 熟悉常用的HDFS操作
实验三： 熟悉常用的HBase操作
实验四： 熟悉常用的mongoDB数据库操作
实验五： MapReduce初级编程实践
实验六： 熟悉Hive的基本操作
实验七： Spark初级编程实践
实验八： Flink初级编程实践

        大数据实验报告，1-8合集 熟悉常用的HBase操作 熟悉常用的mongoDB数据库操作等等
       0 335浏览
免费
大数据
大小：5KB
《大数据硬核技能进阶 Spark3实战智能物业运营系统》将结合生产级项目，一栈式点亮：数据收集(DataX)、数据湖(Iceberg)、数据分析(Spark)、智能调度(DS)、数据服务(DBApi)、AI大模型(ChatGPT)、可视化(Davinci)等离线处理核心技能及生态体系，带你打通硬核技能，拓宽上升通道。

运营系统即运营体系.运营体系指组织运作的规则及规则下的相应资源，是组织存在并延续的根本。运营体系，包括组织运作的所有文件化的运作规则、为完成目标所设定的相应组织以及与之相关的外部接口等。是一个完整的过程体系，从输入经过具有相应规则的过程的打磨，变为组织存在的输出，保证了组织的延续和发展

真场景，全流程， AI大模型，手把手教学，倍增真实开发经验
项目简介：
以企业目前运行项目为设计载体，构建智能物业运营系统，各大环节从真实需求场景角度逐步拆分实现，从架构设计到开发落地，多次迭代优化，高度还原企业项目开发流程。还会引入当下最热门的AI大模型实现之ChatGPT来为我们的日常开发赋能，提升开发效率的同时，增强质量保障。
1
智能物业运营系统之地理位置的解析实战
设计目标:
《大数据硬核技能进阶 Spark3实战智能物业运营系统》将结合生产级项目，一栈式点亮：数据收集(DataX)、数据湖(Iceberg)、数据分析(Spark)、智能调度(DS)、数据服务(DBApi)、AI大模型(ChatGPT)、可视化(Davinci)等离线处理核心技能及生态体系，带你打通硬核技能，拓宽上升通道。

运营系统即运营体系.运营体系指组织运作的规则及规则下的相应资源，是组织存在并延续的根本。运营体系，包括组织运作的所有文件化的运作规则、为完成目标所设定的相应组织以及与之相关的外部接口等。是一个完整的过程体系，从输入经过具有相应规则的过程的打磨，变为组织存在的输出，保证了组织的延续和发展

真场景，全流程， AI大模型，手把手教学，倍增真实开发经验
项目简介：
以企业目前运行项目为设计载体，构建智能物业运营系统，各大环节从真实需求场景角度逐步拆分实现，从架构设计到开发落地，多次迭代优化，高度还原企业项目开发流程。还会引入当下最热门的AI大模型实现之ChatGPT来为我们的日常开发赋能，提升开发效率的同时，增强质量保障。
1
智能物业运营系统之地理位置的解析实战
设计目标:

        大数据硬核技能进阶 Spark3实战智能物业运营系统下载
       0 12浏览

        会员免费
      
spark
大小：169KB
Spark案例源码和数据集.rar
Spark案例源码和数据集.rar

        Spark案例源码和数据集.rar
       0 67浏览
免费
spark
大小：33KB
Spark操作Hudi数据湖
Spark操作Hudi数据湖

        Spark操作Hudi数据湖
       0 227浏览

        会员免费
      
生活娱乐
大小：71MB
实时电影推荐系统项目源码+数据集.rar
实时电影推荐系统项目源码+数据集.rar

        实时电影推荐系统项目源码+数据集
       0 112浏览

        会员免费
      
kafka
大小：3MB
1. 加载 MongoDB 里面的 ProductRecs 作为实时计算的基础数据
2. 用户 u 对商品 p 进行了评分，就触发一次实时计算
3. 从 ProductRecs  中选出与商品 p 最相似的 K 个商品作为集合 S
   1. 要过滤掉用户 u 自己评分过的其他全部商品，过滤掉之后推荐的东西才是他没有见过的
4. 从 Redis 中获取用户 u 最近时间内的 K 条评分，包含本次评分，作为集合 RK
5. 把从1、2、3 里面拿到的数据作为参数，开始计算商品的推荐优先级，产生 <qID,> 集合 updated_S
6. 将 updated_S 与上次对用户 u 的推荐结果 Rec 利用公式进行合并，产生新的推荐结果 NewRec 作为最终输出
1. 加载 MongoDB 里面的 ProductRecs 作为实时计算的基础数据
2. 用户 u 对商品 p 进行了评分，就触发一次实时计算
3. 从 ProductRecs  中选出与商品 p 最相似的 K 个商品作为集合 S
   1. 要过滤掉用户 u 自己评分过的其他全部商品，过滤掉之后推荐的东西才是他没有见过的
4. 从 Redis 中获取用户 u 最近时间内的 K 条评分，包含本次评分，作为集合 RK
5. 把从1、2、3 里面拿到的数据作为参数，开始计算商品的推荐优先级，产生 <qID,> 集合 updated_S
6. 将 updated_S 与上次对用户 u 的推荐结果 Rec 利用公式进行合并，产生新的推荐结果 NewRec 作为最终输出

        基于Spark+Kafka+Redis+MongoDB+Mysql的离线实时推荐系统项目源码+数据集.rar
       0 69浏览

        会员免费
      
大数据
大小：2KB
大数据工程师2023版体系课，10月升级版35周，源码+PDF课件+电子手册+软件下载地址+接口数据集下载！
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。简单来说，大数据就是结构化的传统数据再加上非结构化的新数据。
大数据作为时下最火热的IT行业的词汇，随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临，大数据分析也应运而生。
大数据工程师2023版体系课，10月升级版35周，源码+PDF课件+电子手册+软件下载地址+接口数据集下载！
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。简单来说，大数据就是结构化的传统数据再加上非结构化的新数据。
大数据作为时下最火热的IT行业的词汇，随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临，大数据分析也应运而生。

        大数据工程师2023版（23年10月升级版35周）
       0 28浏览

        会员免费
      
spark
大小：53KB
而流处理则是直接对运动中的数据的处理，在接收数据时直接计算数据。

大多数数据都是连续的流：传感器事件，网站上的用户活动，金融交易等等 ，所有这些数据都是随着时间的推移而创建的。

接收和发送数据流并执行应用程序或分析逻辑的系统称为**流处理器**。流处理器的基本职责是确保数据有效流动，同时具备可扩展性和容错能力，Storm 和 Flink 就是其代表性的实现。
Spark Streaming 是 Spark 的一个子模块，用于快速构建可扩展，高吞吐量，高容错的流处理程序。具有以下特点：

+ 通过高级 API 构建应用程序，简单易用；
+ 支持多种语言，如 Java，Scala 和 Python；
+ 良好的容错性，Spark Streaming 支持快速从失败中恢复丢失的操作状态；
+ 能够和 Spark 其他模块无缝集成，将流处理与批处理完美结合；
+ Spark Streaming 可以从 HDFS，Flume，Kafka，Twitter 和 ZeroMQ 读取数据，也支持自定义数据源。
而流处理则是直接对运动中的数据的处理，在接收数据时直接计算数据。

大多数数据都是连续的流：传感器事件，网站上的用户活动，金融交易等等 ，所有这些数据都是随着时间的推移而创建的。

接收和发送数据流并执行应用程序或分析逻辑的系统称为**流处理器**。流处理器的基本职责是确保数据有效流动，同时具备可扩展性和容错能力，Storm 和 Flink 就是其代表性的实现。
Spark Streaming 是 Spark 的一个子模块，用于快速构建可扩展，高吞吐量，高容错的流处理程序。具有以下特点：

+ 通过高级 API 构建应用程序，简单易用；
+ 支持多种语言，如 Java，Scala 和 Python；
+ 良好的容错性，Spark Streaming 支持快速从失败中恢复丢失的操作状态；
+ 能够和 Spark 其他模块无缝集成，将流处理与批处理完美结合；
+ Spark Streaming 可以从 HDFS，Flume，Kafka，Twitter 和 ZeroMQ 读取数据，也支持自定义数据源。

        Spark Streaming 流式处理项目代码.rar
       0 68浏览
免费
spark
大小：51KB
在示例代码中 `kafkaParams` 封装了 Kafka 消费者的属性，这些属性和 Spark Streaming 无关，是 Kafka 原生 API 中就有定义的。其中服务器地址、键序列化器和值序列化器是必选的，其他配置是可选的。
Spark Streaming 中提供了如下三种位置策略，用于指定 Kafka 主题分区与 Spark 执行程序 Executors 之间的分配关系：

+ **PreferConsistent** : 它将在所有的 Executors 上均匀分配分区；

+ **PreferBrokers** : 当 Spark 的 Executor 与 Kafka Broker 在同一机器上时可以选择该选项，它优先将该 Broker 上的首领分区分配给该机器上的 Executor；
+ **PreferFixed** : 可以指定主题分区与特定主机的映射关系，显示地将分区分配到特定的主机。
Spark Streaming 提供了两种主题订阅方式，分别为 `Subscribe` 和 `SubscribePattern`。后者可以使用正则匹配订阅主题的名称
在示例代码中 `kafkaParams` 封装了 Kafka 消费者的属性，这些属性和 Spark Streaming 无关，是 Kafka 原生 API 中就有定义的。其中服务器地址、键序列化器和值序列化器是必选的，其他配置是可选的。
Spark Streaming 中提供了如下三种位置策略，用于指定 Kafka 主题分区与 Spark 执行程序 Executors 之间的分配关系：

+ **PreferConsistent** : 它将在所有的 Executors 上均匀分配分区；

+ **PreferBrokers** : 当 Spark 的 Executor 与 Kafka Broker 在同一机器上时可以选择该选项，它优先将该 Broker 上的首领分区分配给该机器上的 Executor；
+ **PreferFixed** : 可以指定主题分区与特定主机的映射关系，显示地将分区分配到特定的主机。
Spark Streaming 提供了两种主题订阅方式，分别为 `Subscribe` 和 `SubscribePattern`。后者可以使用正则匹配订阅主题的名称

        Spark Streaming 流式处理整合Kafka.rar
       0 53浏览
免费
spark
大小：3KB
Apache Flume 是一个分布式，高可用的数据收集系统，可以从不同的数据源收集数据，经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。
在推送式方法 (Flume-style Push-based Approach) 中，Spark Streaming 程序需要对某台服务器的某个端口进行监听，Flume 通过 `avro Sink` 将数据源源不断推送到该端口。
拉取式方法 (Pull-based Approach using a Custom Sink) 是将数据推送到 `SparkSink` 接收器中，此时数据会保持缓冲状态，Spark Streaming 定时从接收器中拉取数据。这种方式是基于事务的，即只有在 Spark Streaming 接收和复制数据完成后，才会删除缓存的数据。与第一种方式相比，具有更强的可靠性和容错保证
————————————————
版权声明：本文为CSDN博主「shangjg3」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：ht
Apache Flume 是一个分布式，高可用的数据收集系统，可以从不同的数据源收集数据，经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。
在推送式方法 (Flume-style Push-based Approach) 中，Spark Streaming 程序需要对某台服务器的某个端口进行监听，Flume 通过 `avro Sink` 将数据源源不断推送到该端口。
拉取式方法 (Pull-based Approach using a Custom Sink) 是将数据推送到 `SparkSink` 接收器中，此时数据会保持缓冲状态，Spark Streaming 定时从接收器中拉取数据。这种方式是基于事务的，即只有在 Spark Streaming 接收和复制数据完成后，才会删除缓存的数据。与第一种方式相比，具有更强的可靠性和容错保证
————————————————
版权声明：本文为CSDN博主「shangjg3」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：ht

        Spark整合Flume项目源码.rar
       0 74浏览
免费
数据分析
大小：8MB
Pyspark的使用
空气质量指数和空气质量等级的计算
应用多种ML算法
Kmeans
BisectingKmeans
ClusterEvaluator
StringIndexer
VectorAssembler
StandarScaler
DecisionTreeClassifier
RandomForestClassifier
MulticlassClassificationEvaluator
LinearRegressor
DecisionTreeRegressor
RandomForestRegressor
Regression Evaluator
NaiveBayes
MultilayerPerceptronClassifier
LogisticRegression
Pyspark的使用
空气质量指数和空气质量等级的计算
应用多种ML算法
Kmeans
BisectingKmeans
ClusterEvaluator
StringIndexer
VectorAssembler
StandarScaler
DecisionTreeClassifier
RandomForestClassifier
MulticlassClassificationEvaluator
LinearRegressor
DecisionTreeRegressor
RandomForestRegressor
Regression Evaluator
NaiveBayes
MultilayerPerceptronClassifier
LogisticRegression

        Pyspark 北京多地区空气质量大数据分析
       0 164浏览
免费
流处理
大小：7MB
Streaming 101与Streaming 102 Tyler Akidau的介绍流引擎的原文
Streaming 101与Streaming 102 Tyler Akidau的介绍流引擎的原文

        Streaming 101与Streaming 102
       0 51浏览
免费
大数据
大小：331B
实战大数据|Hadoop|Spark|Flink|离线计算|实时计算课程分享下载
实战大数据|Hadoop|Spark|Flink|离线计算|实时计算课程分享下载

        实战大数据-Hadoop-Spark-Flink-离线计算-实时计算
       0 31浏览

        会员免费
      
大数据
大小：3KB
大数据工程师2023版（升级版33周），视频+源码+PDF课件+电子手册+软件下载地址+接口数据集下载！
大数据工程师2023版（升级版33周），视频+源码+PDF课件+电子手册+软件下载地址+接口数据集下载！

        大数据工程师2023版（升级版35周）
       0 6浏览

        会员免费
      
软件/插件
大小：769KB
jd-gui反编译工具
jd-gui反编译工具

        jd-gui反编译工具
       0 22浏览
免费
spark
大小：17MB
1-Overview.pdf
2-JobLogicalPlan.pdf
3-JobPhysicalPlan.pdf
4-shuffleDetails.pdf
5-Architecture.pdf
6-CacheAndCheckpoint.pdf
7-Broadcast.pdf
1-Overview.pdf
2-JobLogicalPlan.pdf
3-JobPhysicalPlan.pdf
4-shuffleDetails.pdf
5-Architecture.pdf
6-CacheAndCheckpoint.pdf
7-Broadcast.pdf

        spark原理示意图.rar
       0 28浏览

        会员免费
      
hadoop
大小：9MB
在线教育平台现在是教育体系的重要组成部分，在当前大数据时代的背景下，促进教育机构建立统一平台、统一资源管理的数字化教学系统。如何评估系统平台的健康程度、学生的学习体验和在线课程的质量对于课程的教师和学校的管理人员都是非常重要的，这是进行数据分析的主要目的。可视化是一个重要的途径，它能够帮助大数据获得完整的数据图表并挖掘数据的价值，大数据分析离不开可视化这一工具的推动。
基于hadoop和echarts的教育大数据可视化系统，以B/S模式开发。通过Hadoop中Sqoop进行数据导入转换。以MapReduce构建数据分析，数据分析维度包括每日登录人数分析、平均学习时长分析、学习行为次数分析、每日活跃情况分析和分时段学习人数分析。最终使用ECharts可视化工具来对在线教育平台在学习过程中产生的数据进行可视化大屏展现,让更多人感受到可视化大数据的魅力。
在线教育平台现在是教育体系的重要组成部分，在当前大数据时代的背景下，促进教育机构建立统一平台、统一资源管理的数字化教学系统。如何评估系统平台的健康程度、学生的学习体验和在线课程的质量对于课程的教师和学校的管理人员都是非常重要的，这是进行数据分析的主要目的。可视化是一个重要的途径，它能够帮助大数据获得完整的数据图表并挖掘数据的价值，大数据分析离不开可视化这一工具的推动。
基于hadoop和echarts的教育大数据可视化系统，以B/S模式开发。通过Hadoop中Sqoop进行数据导入转换。以MapReduce构建数据分析，数据分析维度包括每日登录人数分析、平均学习时长分析、学习行为次数分析、每日活跃情况分析和分时段学习人数分析。最终使用ECharts可视化工具来对在线教育平台在学习过程中产生的数据进行可视化大屏展现,让更多人感受到可视化大数据的魅力。

        基于hadoop和echarts的教育大数据可视化系统

       3 691浏览
免费
大数据
大小：304B
玩转热门框架 用企业级思维 开发通用够硬的大数据平台课程分享，10章完整版，附源码
玩转热门框架 用企业级思维 开发通用够硬的大数据平台课程分享，10章完整版，附源码

        玩转热门框架 用企业级思维 开发通用够硬的大数据平台
       0 18浏览

        会员免费
      
大数据
大小：197MB
PySpark电商分析案例讲解，Python+Spark，Python+Spark SQL,Python+SparkStream,Python+Hive等视频讲解，含讲义、代码、笔记、软件等，原价值千元内部培训教程现免费对外公开。
PySpark电商分析案例讲解，Python+Spark，Python+Spark SQL,Python+SparkStream,Python+Hive等视频讲解，含讲义、代码、笔记、软件等，原价值千元内部培训教程现免费对外公开。

        PySpark大数据分析项目实战（完整视频+课件+代码+软件工具）
       1 319浏览

        会员免费
      
大数据
大小：163MB
关于Python+Spark 的使用、PySpark编程，Python+Hive大数据分析等的视频讲解（含讲义、代码、笔记、软件等），原价值千元内部培训教程现对外公开。
关于Python+Spark 的使用、PySpark编程，Python+Hive大数据分析等的视频讲解（含讲义、代码、笔记、软件等），原价值千元内部培训教程现对外公开。

        PySpark大数据分析进阶教程（完整视频+课件+代码+软件工具）
       0 65浏览

        会员免费
      
大数据分析
大小：75MB
关于Python+Spark 的入门安装、配置，示例与快速入门与基础案例等的视频讲解，配置讲义、代码、笔记、软件等，原价值千元内部培训教程现免费对外公开。
关于Python+Spark 的入门安装、配置，示例与快速入门与基础案例等的视频讲解，配置讲义、代码、笔记、软件等，原价值千元内部培训教程现免费对外公开。

        PySpark基础入门与快速上手（完整视频+课件+代码+软件工具）
       0 56浏览

        会员免费
      
spark
大小：29MB
sparkSQL资料包，包含了sparkSQL底层实现原理+sparkSQL调优两个部分。还提供了代码实例。sparkSQL底层实现原理
sparkSQL调优资料
sparkSQL相关代码实例
sparkSQL资料包，包含了sparkSQL底层实现原理+sparkSQL调优两个部分。还提供了代码实例。sparkSQL底层实现原理
sparkSQL调优资料
sparkSQL相关代码实例

        sparkSQL底层实现原理-sparkSQL调优资料包附课件、代码、资料
       0 120浏览

        会员免费
      
大数据
大小：141B
给大家分享一套大数据课程——大数据企业级项目实战--Titan大型数据运营系统项目，完整版视频课程下载，附代码+课件。希望对大家有帮助。
给大家分享一套大数据课程——大数据企业级项目实战--Titan大型数据运营系统项目，完整版视频课程下载，附代码+课件。希望对大家有帮助。

        大数据企业级项目实战-Titan大型数据运营系统项目课程
       1 70浏览

        会员免费
      
scala-2.12.13
大小：20MB
scala-2.12.13
scala-2.12.13

        scala-2.12.13.rar
       0 86浏览

        会员免费
      
spark-bench
大小：79MB
spark-bench_2.3.0_0.4.0-RELEASE
spark-bench_2.3.0_0.4.0-RELEASE

        spark-bench_2.3.0_0.4.0-RELEASE
       0 61浏览

        会员免费
      
spark-3.1.1
大小：210MB
spark-3.1.1-bin-hadoop2.7
spark-3.1.1-bin-hadoop2.7

        spark-3.1.1-bin-hadoop2.7
       0 181浏览

        会员免费
      
spark-2.1.1
大小：189MB
spark-2.1.1-bin-hadoop2.7
spark-2.1.1-bin-hadoop2.7

        spark-2.1.1-bin-hadoop2.7
       0 54浏览

        会员免费
      
sbt
大小：15MB
sbt-1.6.1
sbt-1.6.1

        sbt-1.6.1.rar
       0 51浏览

        会员免费
      
zookeeper
大小：14MB
apache-zookeeper-3.7.0-bin
apache-zookeeper-3.7.0-bin

        apache-zookeeper-3.7.0-bin
       0 73浏览

        会员免费
      
大数据
大小：225B
介绍：今天给大家分享一套大数据开发课程，课程是2022最新升级版的，一共有27周，大数据涉及到的内容基本都包含了，比如spark，Hadoop，hive，flink，数据仓库等等，可以说是学习大数据一部到位，有需要学习大数据的小伙伴抓紧时间下载了，视频+代码+课件+软件，资料齐全
介绍：今天给大家分享一套大数据开发课程，课程是2022最新升级版的，一共有27周，大数据涉及到的内容基本都包含了，比如spark，Hadoop，hive，flink，数据仓库等等，可以说是学习大数据一部到位，有需要学习大数据的小伙伴抓紧时间下载了，视频+代码+课件+软件，资料齐全

        大数据开发视频课程2022版
       0 87浏览

        会员免费
      
大数据
大小：676B
大数据企业级项目实战--Titan大型数据运营系统项目课程，附课件+代码下载。


本项目课程是一门极具综合性和完整性的大型项目课程；课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。
大数据企业级项目实战--Titan大型数据运营系统项目课程，附课件+代码下载。


本项目课程是一门极具综合性和完整性的大型项目课程；课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。

        大数据企业级项目实战--Titan大型数据运营系统项目视频课程
       0 113浏览

        会员免费
      
spark
大小：95KB
spark考试练习题含答案.rar
spark考试练习题含答案.rar

        spark考试练习题含答案.rar
       5 2526浏览
¥ 5.90
      
spark
大小：121KB
Spark跨集群bulk load（6-2）
Spark跨集群bulk load（6-2）

        Spark跨集群bulk load（6-2）
       0 73浏览

        会员免费
      
mongodb
大小：7MB
基于html与JavaScript使用spark和MongoDB的商品推荐系统设计与实现
基于html与JavaScript使用spark和MongoDB的商品推荐系统设计与实现

        基于html与JavaScript使用spark和MongoDB的商品推荐系统设计与实现
       0 79浏览
¥ 69.90
      
spark
大小：739B
分享课程——Spark 2.x + Python 大数据机器学习实战课程，完整版视频课程下载。

本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型，帮助读者开发并部署高效可拓展的实时Spark解决方案。

本课程从浅显易懂的“大数据和机器学习”原理说明入手，讲述大数据和机器学习的基本概念，如分析、分类、训练、建模、预测、推荐引擎、二元分类、多元分类、回归分析和Pipeline等；为降低学习大数据技术的门槛，提供了丰富的案例实践操作和范例程序编码，展示了如何在单机Windows系统上建立Spark 2.x + Python开发环境；
 
适合于学习大数据基础知识的初学者，更适合正在使用机器学习想结合大数据技术的人员；
分享课程——Spark 2.x + Python 大数据机器学习实战课程，完整版视频课程下载。

本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型，帮助读者开发并部署高效可拓展的实时Spark解决方案。

本课程从浅显易懂的“大数据和机器学习”原理说明入手，讲述大数据和机器学习的基本概念，如分析、分类、训练、建模、预测、推荐引擎、二元分类、多元分类、回归分析和Pipeline等；为降低学习大数据技术的门槛，提供了丰富的案例实践操作和范例程序编码，展示了如何在单机Windows系统上建立Spark 2.x + Python开发环境；
 
适合于学习大数据基础知识的初学者，更适合正在使用机器学习想结合大数据技术的人员；

        Spark 2.x + Python 大数据机器学习实战课程
       0 300浏览

        会员免费
      
数据仓库
大小：395KB
Spark数据仓库汽车销售分析练习题包括代码和数据
Spark数据仓库汽车销售分析练习题包括代码和数据

        Spark数据仓库汽车销售分析练习题（项目）
       5 519浏览
¥ 11.90
      
spark
大小：499KB
spark数据处理和数据分析项目实战Dataframe风格里面包括数据和代码，启动idea就可以练习
spark数据处理和数据分析项目实战Dataframe风格里面包括数据和代码，启动idea就可以练习

        超市spark数据处理和数据分析项目实战Dataframe风格
       5 783浏览
¥ 11.90
      
spark
大小：215MB
Spark及其安装文档
Spark及其安装文档

        Spark安装包、安装文档
       0 154浏览

        会员免费
      
big
大小：688B
分享一套课程——大数据企业级项目实战--Titan大型数据运营系统项目课程，附课件+代码下载。


本项目课程是一门极具综合性和完整性的大型项目课程；课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。

本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理（元数据管理、数据质量管理）、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块，力求原汁原味重现一个完备的企业级大型数据运营系统。
分享一套课程——大数据企业级项目实战--Titan大型数据运营系统项目课程，附课件+代码下载。


本项目课程是一门极具综合性和完整性的大型项目课程；课程项目的业务背景源自各类互联网公司对海量用户浏览行为数据和业务数据分析的需求及企业数据管理、数据运营需求。

本课程项目涵盖数据采集与预处理、数据仓库体系建设、用户画像系统建设、数据治理（元数据管理、数据质量管理）、任务调度系统、数据服务层建设、OLAP即席分析系统建设等大量模块，力求原汁原味重现一个完备的企业级大型数据运营系统。

        大数据企业级项目实战--Titan大型数据运营系统项目课程
       5 894浏览

        会员免费
      
数据仓库
大小：809B
给大家分享一套课程——高性能高扩展的千亿级实时数据仓库全实现（通用企业级解决方案），完整版178讲，提供源码和课件下载！
本课程凝聚讲师多年一线大数据企业实际项目经验，大数据企业在职架构师亲自授课，全程实操代码，带你体验真实的大数据开发过程，代码现场调试。通过本课程的学习再加上老师的答疑，你完全可以将本案例直接应用于企业
给大家分享一套课程——高性能高扩展的千亿级实时数据仓库全实现（通用企业级解决方案），完整版178讲，提供源码和课件下载！
本课程凝聚讲师多年一线大数据企业实际项目经验，大数据企业在职架构师亲自授课，全程实操代码，带你体验真实的大数据开发过程，代码现场调试。通过本课程的学习再加上老师的答疑，你完全可以将本案例直接应用于企业

        高性能高扩展的千亿级实时数据仓库全实现（通用企业级解决方案）视频课程
       0 69浏览

        会员免费
      
python
大小：2MB
Python大数据处理库 PySpark实战-源代码
Python大数据处理库 PySpark实战-源代码

        Python大数据处理库 PySpark实战-源代码.rar
       0 479浏览

        会员免费
      
python
大小：4MB
Python大数据处理库 PySpark实战PPT课件
Python大数据处理库 PySpark实战PPT课件

        Python大数据处理库 PySpark实战
       0 1097浏览

        会员免费
      
大数据求职简历
大小：2MB
大数据岗简历模板参考：

1.熟练掌握 SparkSql、SparkStreaming、Spark Core，理解 Spark 工作机制及 Spark                                                                    任务的执行流程。
2.熟练掌握 Hadoop 分布式集群安装、部署、搭建和配置，能够熟悉应用 Hadoop 相关工具        进行相关应用开发。
3.熟悉 MapReduce，Hdfs 工作机制和运行原理。
4.熟练使用 Kafka 实现集群分布式高吞吐量通信机制，同时借助 Zookeeper 建立生产   者和消费者的关系，实现负载均衡和持久化。
...
大数据岗简历模板参考：

1.熟练掌握 SparkSql、SparkStreaming、Spark Core，理解 Spark 工作机制及 Spark                                                                    任务的执行流程。
2.熟练掌握 Hadoop 分布式集群安装、部署、搭建和配置，能够熟悉应用 Hadoop 相关工具        进行相关应用开发。
3.熟悉 MapReduce，Hdfs 工作机制和运行原理。
4.熟练使用 Kafka 实现集群分布式高吞吐量通信机制，同时借助 Zookeeper 建立生产   者和消费者的关系，实现负载均衡和持久化。
...

        23份大数据岗位求职简历参考模板合集.rar
       5 928浏览
¥ 22.90
      
spark
大小：745B
分享一套用户画像视频教程——Spark+ES+ClickHouse 构建DMP用户画像，已完结，共8章。

行业竞争越来越激烈，精细化经营成为各企业取胜的秘籍。用户画像系统作为提供精准用户数据的重要来源，已经成为企业必备的核心平台，人才缺口大，薪资高。

本课程将基于大数据主流技术，数据挖掘核心算法，带你打造企业实用的用户画像平台，提升你的个人竞争力。业务-算法-技术，环环相扣，轻松掌握完整用户画像知识体系；热门业务场景，企业应用标准，项目扩展性强，可复用；从架构到开发部署，逐层递进，还原企业真实开发流程
分享一套用户画像视频教程——Spark+ES+ClickHouse 构建DMP用户画像，已完结，共8章。

行业竞争越来越激烈，精细化经营成为各企业取胜的秘籍。用户画像系统作为提供精准用户数据的重要来源，已经成为企业必备的核心平台，人才缺口大，薪资高。

本课程将基于大数据主流技术，数据挖掘核心算法，带你打造企业实用的用户画像平台，提升你的个人竞争力。业务-算法-技术，环环相扣，轻松掌握完整用户画像知识体系；热门业务场景，企业应用标准，项目扩展性强，可复用；从架构到开发部署，逐层递进，还原企业真实开发流程

        Spark+ES+ClickHouse 构建DMP用户画像视频教程
       3 495浏览

        会员免费
      
推荐系统
大小：154B
全局视角系统学习推荐系统课程2022版课程一共8章，提供配套的源码下载。

全局视角系统学习推荐系统课程2022版课程一共8章，提供配套的源码下载。


        全局视角系统学习《推荐系统》，实战中提升竞争力
       0 108浏览

        会员免费
      
clickhouse分布式表写
大小：57KB
基于waterdrop1.51(seatunnel1.x)，output clickhouse插件，新增分布式写表 rowhash和rowrandom模式
基于waterdrop1.51(seatunnel1.x)，output clickhouse插件，新增分布式写表 rowhash和rowrandom模式

        waterdrop1.x output clickhouse classes
       0 92浏览

        会员免费
      

          1
        

          2
        

          3
        

          4
        

          5
        

          9
        
前往
页