spark_大数据_IT技术下载资源-CSDN开发者文库

综合最新热门
python
大小：42MB
这个软件是通过scrapy爬虫框架结合代理IP池再加上request模拟请求技术以及验证码识别技术，可以做到日更新采集全国新工商信息。采集的数据自动存储在mysql数据库表里，可下载全量1.8亿多企业工商基本信息和36维度的详细信息.支持sql和excel导出数据包格式。
这个软件是通过scrapy爬虫框架结合代理IP池再加上request模拟请求技术以及验证码识别技术，可以做到日更新采集全国新工商信息。采集的数据自动存储在mysql数据库表里，可下载全量1.8亿多企业工商基本信息和36维度的详细信息.支持sql和excel导出数据包格式。

        基于python开发的河南新注册企业采集工具 v8.0版本
       0 3796浏览

        会员免费
      
spark
大小：16MB
Spark带注释源码

对于整个Spark源码分析系列，我将带有注释的Spark源码和分析的文件放在我的GitHub上Spark源码剖析欢迎大家fork和star
Spark带注释源码

对于整个Spark源码分析系列，我将带有注释的Spark源码和分析的文件放在我的GitHub上Spark源码剖析欢迎大家fork和star

        spark-2.2.0源码
       0 130浏览

        会员免费
      
spark
大小：667B
Spark从入门到上手实战视频教程，完整版下载，含代码、软件、笔记、课件等。

Spark属于新起的基于内存处理海量数据的框架，由于其快速被众公司所青睐。Spark 生态栈框架，非常的强大，可以对数据进行批处理、流式处理、SQL 交互式处理及机器学习和Graphx 图像计算。目前绝大数公司都使用，主要在于 Spark SQL 结构化数据的处理，非常的快速，高性能。
Spark从入门到上手实战视频教程，完整版下载，含代码、软件、笔记、课件等。

Spark属于新起的基于内存处理海量数据的框架，由于其快速被众公司所青睐。Spark 生态栈框架，非常的强大，可以对数据进行批处理、流式处理、SQL 交互式处理及机器学习和Graphx 图像计算。目前绝大数公司都使用，主要在于 Spark SQL 结构化数据的处理，非常的快速，高性能。

        Spark从入门到上手实战
       0 437浏览

        会员免费
      
scala
大小：40MB
两个版本文件和环境配置word
两个版本文件和环境配置word

        windows和linux版本的scala2.12.11
       0 101浏览

        会员免费
      
scala
大小：42MB
Scala编程中文版 ，完整33章，高清下载，适合scala爱好者
Scala编程中文版 ，完整33章，高清下载，适合scala爱好者

        Scala编程中文版
       0 61浏览

        会员免费
      
spark
大小：73KB
flume与spark streaming结合（pull方式）报错：org.apache.flume.FlumeException: Unable to load sink type: org.apache.spark.streaming.flume.sink.SparkSink, class: org.apache.spark.streaming.flume.sink.SparkSink;
把spark-streaming-flume-sink_2.11-2.2.0.jar复制到flume的lib目录。（使用不同版本的scala和spark请放对应的jar）我这里使用的scala为2.11.8。
flume与spark streaming结合（pull方式）报错：org.apache.flume.FlumeException: Unable to load sink type: org.apache.spark.streaming.flume.sink.SparkSink, class: org.apache.spark.streaming.flume.sink.SparkSink;
把spark-streaming-flume-sink_2.11-2.2.0.jar复制到flume的lib目录。（使用不同版本的scala和spark请放对应的jar）我这里使用的scala为2.11.8。

        2.0.0.rar之spark-streaming-flume-sink_2.11-2.0.0.jar
       0 314浏览

        会员免费
      
Spark
大小：5MB
Packt.Big.Data.Analytics.with.Spark.and.Hadoop
Packt.Big.Data.Analytics.with.Spark.and.Hadoop
Packt.Big.Data.Analytics.with.Spark.and.Hadoop
Packt.Big.Data.Analytics.with.Spark.and.Hadoop

        Packt.Big.Data.Analytics.with.Spark.and.Hadoop
       0 85浏览
免费
kafka
大小：3MB
1. 加载 MongoDB 里面的 ProductRecs 作为实时计算的基础数据
2. 用户 u 对商品 p 进行了评分，就触发一次实时计算
3. 从 ProductRecs  中选出与商品 p 最相似的 K 个商品作为集合 S
   1. 要过滤掉用户 u 自己评分过的其他全部商品，过滤掉之后推荐的东西才是他没有见过的
4. 从 Redis 中获取用户 u 最近时间内的 K 条评分，包含本次评分，作为集合 RK
5. 把从1、2、3 里面拿到的数据作为参数，开始计算商品的推荐优先级，产生 <qID,> 集合 updated_S
6. 将 updated_S 与上次对用户 u 的推荐结果 Rec 利用公式进行合并，产生新的推荐结果 NewRec 作为最终输出
1. 加载 MongoDB 里面的 ProductRecs 作为实时计算的基础数据
2. 用户 u 对商品 p 进行了评分，就触发一次实时计算
3. 从 ProductRecs  中选出与商品 p 最相似的 K 个商品作为集合 S
   1. 要过滤掉用户 u 自己评分过的其他全部商品，过滤掉之后推荐的东西才是他没有见过的
4. 从 Redis 中获取用户 u 最近时间内的 K 条评分，包含本次评分，作为集合 RK
5. 把从1、2、3 里面拿到的数据作为参数，开始计算商品的推荐优先级，产生 <qID,> 集合 updated_S
6. 将 updated_S 与上次对用户 u 的推荐结果 Rec 利用公式进行合并，产生新的推荐结果 NewRec 作为最终输出

        基于Spark+Kafka+Redis+MongoDB+Mysql的离线实时推荐系统项目源码+数据集.rar
       0 79浏览

        会员免费
      
flink
大小：3KB
一、什么是实时数仓
实时数据仓库（Real-time Data Warehouse）是指能够实时地处理和分析数据，使得数据仓库中的数据是最新的、最准确的，并且可以实时响应用户的查询和分析需求的一种数据仓库系统。

与传统的数据仓库相比，实时数据仓库更加注重数据的实时性和对业务的实时响应能力。传统数据仓库通常是每日、每周或每月定期进行数据的抽取、转换和加载（ETL），更新的速度较慢，一般不支持实时查询和分析。而实时数据仓库则更加注重数据的实时性和对业务的实时响应能力，能够在数据发生变化时及时响应用户的查询和分析需求。

二、安装Flink
步骤 1：下载 #
为了运行Flink，只需提前安装好 Java 11。你可以通过以下命令来检查 Java 是否已经安装正确。

java -version
下载 release 1.20-SNAPSHOT 并解压。

$ tar -xzf flink-1.20-SNAPSHOT-bin-scala_2.12.tgz
$ cd flink-1.20-SNAPSHOT-bin-scala_2.12
步骤 2：启动集群 #
Flink 附带了一个 bash
一、什么是实时数仓
实时数据仓库（Real-time Data Warehouse）是指能够实时地处理和分析数据，使得数据仓库中的数据是最新的、最准确的，并且可以实时响应用户的查询和分析需求的一种数据仓库系统。

与传统的数据仓库相比，实时数据仓库更加注重数据的实时性和对业务的实时响应能力。传统数据仓库通常是每日、每周或每月定期进行数据的抽取、转换和加载（ETL），更新的速度较慢，一般不支持实时查询和分析。而实时数据仓库则更加注重数据的实时性和对业务的实时响应能力，能够在数据发生变化时及时响应用户的查询和分析需求。

二、安装Flink
步骤 1：下载 #
为了运行Flink，只需提前安装好 Java 11。你可以通过以下命令来检查 Java 是否已经安装正确。

java -version
下载 release 1.20-SNAPSHOT 并解压。

$ tar -xzf flink-1.20-SNAPSHOT-bin-scala_2.12.tgz
$ cd flink-1.20-SNAPSHOT-bin-scala_2.12
步骤 2：启动集群 #
Flink 附带了一个 bash

        实战Flink+Doris实时数仓教程
       0 257浏览

        会员免费
      
生活娱乐
大小：71MB
实时电影推荐系统项目源码+数据集.rar
实时电影推荐系统项目源码+数据集.rar

        实时电影推荐系统项目源码+数据集
       0 116浏览

        会员免费
      
scala
大小：3MB
scala编程资料--------------------------------------------------------------------------------------------------------------------
scala编程资料--------------------------------------------------------------------------------------------------------------------

        scala编程资料
       0 98浏览

        会员免费
      
spark
大小：179MB
spark-2.0.1集群安装及编写例子提交任务,包括集群安装包及例子代码加上安装文档，
spark-2.0.1集群安装及编写例子提交任务,包括集群安装包及例子代码加上安装文档
spark-2.0.1集群安装及编写例子提交任务,包括集群安装包及例子代码加上安装文档，
spark-2.0.1集群安装及编写例子提交任务,包括集群安装包及例子代码加上安装文档

        spark-2.0.1集群安装及编写例子提交任务
       0 157浏览

        会员免费
      
spark
大小：16MB
中华石衫 spark 191-245课件   中华石衫 spark 191-245课件
中华石衫 spark 191-245课件   中华石衫 spark 191-245课件

        spark 191-245课件
       0 92浏览

        会员免费
      
大数据
大小：7KB
熟悉Spark的RDD基本操作及键值对操作；
熟悉使用RDD编程解决实际具体问题的方法
熟悉Spark的RDD基本操作及键值对操作；
熟悉使用RDD编程解决实际具体问题的方法

        RDD编程初级实践数据集.rar
       0 280浏览

        会员免费
      
性能调优
大小：14MB
1.spark-config-and-tuning
2.spark-graphx-source-analysis
3.spark-ml-source-analysis
4.spark-programming-guide-zh-cn
1.spark-config-and-tuning
2.spark-graphx-source-analysis
3.spark-ml-source-analysis
4.spark-programming-guide-zh-cn

        spark性能调优
       0 127浏览

        会员免费
      
spark
大小：4MB
主要应用在本人博客中的spark程序编写的IPSearch案例中的日志文件以及数据文件等。也可以下载用作自己的日志文件分析系统的日志来源。欢迎广大数据科学爱好者下载。
主要应用在本人博客中的spark程序编写的IPSearch案例中的日志文件以及数据文件等。也可以下载用作自己的日志文件分析系统的日志来源。欢迎广大数据科学爱好者下载。

        移动运营商日志文件
       0 266浏览

        会员免费
      
hadoop
大小：61KB
该资源包括hadoop集群和spark集群的搭建过程，以及每个配置文件的详细配置，内含2个文件（在linux环境下的搭建手册，另一个是在linux环境下的使用手册）。
该资源包括hadoop集群和spark集群的搭建过程，以及每个配置文件的详细配置，内含2个文件（在linux环境下的搭建手册，另一个是在linux环境下的使用手册）。

        集群搭建与使用文档
       0 85浏览

        会员免费
      
fm_volume
大小：611MB
fm_volume_讲义
fm_volume_讲义

        fm_volume_讲义
       0 181浏览

        会员免费
      
Struts大数据
大小：15KB
利用Struts的技术，和网络大数据来查询天气，主要针对队大数据的认知和Struts技术的熟用。
利用Struts的技术，和网络大数据来查询天气，主要针对队大数据的认知和Struts技术的熟用。

        Struts利用大数据查询天气
       0 43浏览

        会员免费
      
spark
大小：2MB
本节课程提供一个使用 Spark 的快速介绍，首先我们使用 Spark 的交互式 shell(用 Python 或
Scala) 介绍它的 API。当演示如何在 Java, Scala 和 Python 写独立的程序时，看编程指南里
完整的参考。
本节课程提供一个使用 Spark 的快速介绍，首先我们使用 Spark 的交互式 shell(用 Python 或
Scala) 介绍它的 API。当演示如何在 Java, Scala 和 Python 写独立的程序时，看编程指南里
完整的参考。

        spark 编程指南
       0 105浏览

        会员免费
      
用户画像
大小：768B
给大家分享一套课程，用户画像解决方案视频教程，欢迎大家下载学习。
给大家分享一套课程，用户画像解决方案视频教程，欢迎大家下载学习。

        用户画像解决方案视频教程
       1 46浏览

        会员免费
      
查看源码
大小：600KB
查看源码工具.rar可以查看.class源码，由于scala编写的代码会编译为.class文件，该工具可以用来查看
查看源码工具.rar可以查看.class源码，由于scala编写的代码会编译为.class文件，该工具可以用来查看

        查看源码工具.rar
       0 82浏览

        会员免费
      
Spark
大小：6MB
Intro to DataFrames and Spark SQL (training).
Intro to DataFrames and Spark SQL (training).

        Intro to DataFrames and Spark SQL (training)
       0 73浏览
免费
spark
大小：848KB
spark的源码部署和编译生成，本文适合于有一定JAVA开发基础的同学看，如果你尚不会配置JDK、尚不会myeclipse的基本操作，你应该先学会了这两项之后再来。
spark的源码部署和编译生成，本文适合于有一定JAVA开发基础的同学看，如果你尚不会配置JDK、尚不会myeclipse的基本操作，你应该先学会了这两项之后再来。

        spark源代码部署及编译生成
       0 64浏览

        会员免费
      
hadoop
大小：745KB
MapReduce在Windows环境下所需要的hadoop(bin目录),内含winutils
支持MapReduce和Spark的windos环境
MapReduce在Windows环境下所需要的hadoop(bin目录),内含winutils
支持MapReduce和Spark的windos环境

        MapReduce在Windows环境下所需要的hadoop(bin目录),内含winutils
       0 1338浏览

        会员免费
      
spark
大小：6MB
《Spark大数据处理：技术、应用与性能优化》高清pdf版，带完整详细目录
《Spark大数据处理：技术、应用与性能优化》高清pdf版，带完整详细目录

        Spark大数据处理：技术、应用与性能优化
       0 0浏览
免费
spark
大小：15MB
基于SparkSQL实现了一套即席查询服务，具有如下特性：

优雅的交互方式，支持多种datasource/sink，多数据源混算
spark常驻服务，基于zookeeper的引擎自动发现
负载均衡，多个引擎随机执行
多session模式实现并行查询
采用spark的FAIR调度，避免资源被大任务独占
基于spark的动态资源分配，在无任务的情况下不会占用executor资源
支持Cluster和Client模式启动
基于Structured Streaming实现SQL动态添加流
基于REPL的写代码功能，动态注册UDF函数
高效的script管理，配合import/include语法完成各script的关联
对数据源操作的权限验证
基于SparkSQL实现了一套即席查询服务，具有如下特性：

优雅的交互方式，支持多种datasource/sink，多数据源混算
spark常驻服务，基于zookeeper的引擎自动发现
负载均衡，多个引擎随机执行
多session模式实现并行查询
采用spark的FAIR调度，避免资源被大任务独占
基于spark的动态资源分配，在无任务的情况下不会占用executor资源
支持Cluster和Client模式启动
基于Structured Streaming实现SQL动态添加流
基于REPL的写代码功能，动态注册UDF函数
高效的script管理，配合import/include语法完成各script的关联
对数据源操作的权限验证

        IQL即席查询服务
       0 239浏览

        会员免费
      
png
大小：1MB
1基础，2.0离线计算专栏，2.1进阶，3.0实时计算专栏，3.1进阶，4数据仓库与etl专栏，5搜索与推荐专栏，6_机器学习算法专题
1基础，2.0离线计算专栏，2.1进阶，3.0实时计算专栏，3.1进阶，4数据仓库与etl专栏，5搜索与推荐专栏，6_机器学习算法专题

        大数据参考学习的流行路线
       0 54浏览

        会员免费
      
ssm
大小：159MB
使用爬虫技术将简书用户的数据爬取下来，对动态发表文章进行分析处理，分析出用户的帖子的更新时间以及用户的评论，点赞等文章的互动情况，生成词云。
使用爬虫技术将简书用户的数据爬取下来，对动态发表文章进行分析处理，分析出用户的帖子的更新时间以及用户的评论，点赞等文章的互动情况，生成词云。

        那个打包的不对用这个可以：简书动态爬取用户文章分析用户的写作习惯
       0 92浏览

        会员免费
      
数据挖掘
大小：18MB
是很好的数据挖掘的资料，很全，包含了很多知识，值得下载
是很好的数据挖掘的资料，很全，包含了很多知识，值得下载

        数据挖掘资料
       0 31浏览

        会员免费
      
大数据
大小：59KB
2019大数据公司面试真题，个人面试经验，有想从事大数据开发或者对大数据感兴趣的可以作为参考。
2019大数据公司面试真题，个人面试经验，有想从事大数据开发或者对大数据感兴趣的可以作为参考。

        应届求职经验
       0 85浏览

        会员免费
      
推荐系统
大小：118MB
profiledata_06-May-2005 是音乐推荐和Audioscrobbler数据集
profiledata_06-May-2005 是音乐推荐和Audioscrobbler数据集

        profiledata_06-May-2005
       0 66浏览

        会员免费
      
Spark
大小：50MB
1.Spark Streaming整合Flume需要的安装包. 2. Spark Streaming拉取Flume数据的flume配置文件.conf 3. Flume向Spark Streaming推数据的flume配置文件.conf
1.Spark Streaming整合Flume需要的安装包. 2. Spark Streaming拉取Flume数据的flume配置文件.conf 3. Flume向Spark Streaming推数据的flume配置文件.conf

        flume整合 SparkStreaming.rar
       0 172浏览

        会员免费
      
scala
大小：23MB
scala rpc基础搭建
scala rpc基础搭建

        scala rpc基础搭建
       0 77浏览

        会员免费
      
spark
大小：21MB
高清完整版的文档，内容：spark环境搭建、rdd的实现原理、spark的调度等知识
高清完整版的文档，内容：spark环境搭建、rdd的实现原理、spark的调度等知识

        spark教程之技术内幕
       0 55浏览

        会员免费
      
scala
大小：3MB
Scala面向对象编程课件.rar
Scala面向对象编程课件.rar

        Scala面向对象编程课件.rar
       0 124浏览

        会员免费
      
大数据
大小：3KB
大数据工程师2023版（升级版33周），视频+源码+PDF课件+电子手册+软件下载地址+接口数据集下载！
大数据工程师2023版（升级版33周），视频+源码+PDF课件+电子手册+软件下载地址+接口数据集下载！

        大数据工程师2023版（升级版35周）
       0 15浏览

        会员免费
      
ExactlyOnce
大小：15KB
包括mysql\redis\hbase的ExactlyOnce操作,其中使用一些简易的demo完成了mysql和redis操作ExactlyOnce(聚合类),hbase完成ExactlyOnce(幂等性)。其余数据库的ExactlyOnce都类似，先写入数据，在将偏移量写入到数据库，并且开启事务完成精准一次性写入
包括mysql\redis\hbase的ExactlyOnce操作,其中使用一些简易的demo完成了mysql和redis操作ExactlyOnce(聚合类),hbase完成ExactlyOnce(幂等性)。其余数据库的ExactlyOnce都类似，先写入数据，在将偏移量写入到数据库，并且开启事务完成精准一次性写入

        Spark的ExactlyOnce
       0 61浏览

        会员免费
      
大数据
大小：7MB
This book looks at the increasing interest in running microscopy processing algorithms on big image data by presenting the theoretical and architectural underpinnings of a web image processing pipeline (WIPP). Software-based methods and infrastructure components for processing big data microscopy experiments are presented to demonstrate how information processing of repetitive, laborious and tedious analysis can be automated with a user-friendly system. Interactions of web system components and their impact on computational scalability, provenance information gathering, interactive display, and computing are explained in a top-down presentation of technical details. Web Microanalysis of Big Image Data includes descriptions of WIPP functionalities, use cases, and components of the web software system &#40;web server and client architecture, algorithms, and hardware-software dependencies&#41;.

The book comes with test image collections and a web software system to increase the reader's understanding and to provide practical tools for conducting big image experiments.

By providing educational materials and software tools at the intersection of microscopy image analyses and computational science, graduate students, postdoctoral students, and scientists will benefit from the practical experiences, as well as theoretical insights. Furthermore, the book provides software and test data, empowering students and scientists with tools to make discoveries with higher statistical significance. Once they become familiar with the web image processing components, they can extend and re-purpose the existing software to new types of analyses.

Each chapter follows a top-down presentation, starting with a short introduction and a classification of related methods. Next, a description of the specific method used in accompanying software is presented. For several topics, examples of how the specific method is applied to a dataset (parameters, RAM requirements, CPU efficiency) are shown. Some tips are provided as practical suggestions to improve accuracy or computational performance.
This book looks at the increasing interest in running microscopy processing algorithms on big image data by presenting the theoretical and architectural underpinnings of a web image processing pipeline (WIPP). Software-based methods and infrastructure components for processing big data microscopy experiments are presented to demonstrate how information processing of repetitive, laborious and tedious analysis can be automated with a user-friendly system. Interactions of web system components and their impact on computational scalability, provenance information gathering, interactive display, and computing are explained in a top-down presentation of technical details. Web Microanalysis of Big Image Data includes descriptions of WIPP functionalities, use cases, and components of the web software system &#40;web server and client architecture, algorithms, and hardware-software dependencies&#41;.

The book comes with test image collections and a web software system to increase the reader's understanding and to provide practical tools for conducting big image experiments.

By providing educational materials and software tools at the intersection of microscopy image analyses and computational science, graduate students, postdoctoral students, and scientists will benefit from the practical experiences, as well as theoretical insights. Furthermore, the book provides software and test data, empowering students and scientists with tools to make discoveries with higher statistical significance. Once they become familiar with the web image processing components, they can extend and re-purpose the existing software to new types of analyses.

Each chapter follows a top-down presentation, starting with a short introduction and a classification of related methods. Next, a description of the specific method used in accompanying software is presented. For several topics, examples of how the specific method is applied to a dataset (parameters, RAM requirements, CPU efficiency) are shown. Some tips are provided as practical suggestions to improve accuracy or computational performance.

        Web Microanalysis of Big Image Data.pdf
       0 75浏览

        会员免费
      
pyspark
大小：220MB
hadoop和spark文件
hadoop和spark文件

        hadoop和spark文件.rar
       0 83浏览

        会员免费
      
spark-core
大小：26KB
适合新手练习，大数据的核心内容Spark Core算子操作。
适合新手练习，大数据的核心内容Spark Core算子操作。

        transformation、action算子代码示例
       0 127浏览

        会员免费
      
scala
大小：153MB
《Scala编程》循序渐进，由浅入深，经作者精心组织、仔细编排，将语言中的各种概念自然地铺陈在字里行间。除此之外，《Scala编程》还包含了大量富有针对性和趣味性的示例，它们除了提供对语言各个方面的具体演示之外，还从侧面说明了如何将函数式编程的理念切实并广泛地应用到面向对象编程中。《Scala编程》面向的读者是有一定编程经验的开发人员，他们希望能够开拓眼界，并致力于提高在软件开发各方面的技能。
《Scala编程》循序渐进，由浅入深，经作者精心组织、仔细编排，将语言中的各种概念自然地铺陈在字里行间。除此之外，《Scala编程》还包含了大量富有针对性和趣味性的示例，它们除了提供对语言各个方面的具体演示之外，还从侧面说明了如何将函数式编程的理念切实并广泛地应用到面向对象编程中。《Scala编程》面向的读者是有一定编程经验的开发人员，他们希望能够开拓眼界，并致力于提高在软件开发各方面的技能。

        Scala编程 第3版.rar
       0 100浏览

        会员免费
      
ZXSAD
大小：269KB
3264GPS时钟_V2.3.rar
3264GPS时钟_V2.3.rar

        3264GPS时钟_V2.3.rar
       0 116浏览

        会员免费
      
大数据
大小：7MB
《Spark 快速大数据分析》是一本为 Spark 初学者准备的书，它没有过多深入实现细节，而是更多关注上层用户的具体用法。不过，本书绝不仅仅限于 Spark 的用法，它对 Spark 的核心概念和基本原理也有较为全面的介绍，让读者能够知其然且知其所以然。
《Spark 快速大数据分析》是一本为 Spark 初学者准备的书，它没有过多深入实现细节，而是更多关注上层用户的具体用法。不过，本书绝不仅仅限于 Spark 的用法，它对 Spark 的核心概念和基本原理也有较为全面的介绍，让读者能够知其然且知其所以然。

        Spark 快速大数据分析
       0 79浏览

        会员免费
      
scala
大小：62MB
scala基础语法，字符串，数值，控制结构，类和属性，方法，对象，包和导入，特质，函数式编程，集合。列表，数组，映射，文件和进程，Actors和并发，命令行执行，
scala基础语法，字符串，数值，控制结构，类和属性，方法，对象，包和导入，特质，函数式编程，集合。列表，数组，映射，文件和进程，Actors和并发，命令行执行，

        Scala编程实战.rar
       0 80浏览

        会员免费
      
spark2.1下载
大小：187MB
spark2.1_for_hadoop2.7，解压后是tgz包，可在linux下安装使用。
spark2.1_for_hadoop2.7，解压后是tgz包，可在linux下安装使用。

        spark2.1_for_hadoop2.7
       0 55浏览

        会员免费
      
PySpark
大小：541B
给大家分享一套课程，PySpark大数据处理及机器学习Spark2.3视频课程，希望对大家学习有帮助。
给大家分享一套课程，PySpark大数据处理及机器学习Spark2.3视频课程，希望对大家学习有帮助。

        PySpark大数据处理及机器学习Spark2.3视频课程
       0 93浏览
免费
hadoop
大小：8MB
虚拟机搭建高可以spark集群(附各个节点配置文件 和 安装文档)。安装文档里含idea开发工具配置SCALA插件以及建工程，并有一个KAFKA消费生产代码工程
虚拟机搭建高可以spark集群(附各个节点配置文件 和 安装文档)。安装文档里含idea开发工具配置SCALA插件以及建工程，并有一个KAFKA消费生产代码工程

        vm安装高可以spark集群.rar
       0 95浏览

        会员免费
      
sparksql
大小：15KB
本例子包括spark count,sparksql,sparkstreaming的样例，本例子包括spark count,sparksql,sparkstreaming的样例，
本例子包括spark count,sparksql,sparkstreaming的样例，本例子包括spark count,sparksql,sparkstreaming的样例，

        SparkDemo.rar
       0 159浏览

        会员免费
      
spark
大小：3KB
一、Spark3.0.0运行环境安装

Spark常见部署模式：
Local模式：在本地部署单个Spark服务
所谓的Local模式，就是不需要其他任何节点资源就可以在本地执行Spark代码的环境，一般用于教学，调试，演示等。
在IDEA中运行代码的环境称之为开发环境，和Local模式还是有区别的。
Standalone模式：Spark自带的任务调度模式。（国内常用）
YARN模式：Spark使用Hadoop的YARN组件进行资源与任务调度。（国内常用）
Windows模式：为了方便在学习测试spark程序，Spark提供了可以在windows系统下启动本地集群的方式，这样，在不使用虚拟机或服务器的情况下，也能满足Spark的基本使用。
Mesos & K8S模式：（了解）。
Mesos是Apache下的开源分布式资源管理框架，它被称为是分布式系统的内核,在Twitter得到广泛使用,管理着Twitter超过30,0000台服务器上的应用部署，但是在国内，依然使用着传统的Hadoop大数据框架，所以国内使用Mesos框架的并不多，但是原理都差不多。
容器化部署是目前业界很流行的一项技术
一、Spark3.0.0运行环境安装

Spark常见部署模式：
Local模式：在本地部署单个Spark服务
所谓的Local模式，就是不需要其他任何节点资源就可以在本地执行Spark代码的环境，一般用于教学，调试，演示等。
在IDEA中运行代码的环境称之为开发环境，和Local模式还是有区别的。
Standalone模式：Spark自带的任务调度模式。（国内常用）
YARN模式：Spark使用Hadoop的YARN组件进行资源与任务调度。（国内常用）
Windows模式：为了方便在学习测试spark程序，Spark提供了可以在windows系统下启动本地集群的方式，这样，在不使用虚拟机或服务器的情况下，也能满足Spark的基本使用。
Mesos & K8S模式：（了解）。
Mesos是Apache下的开源分布式资源管理框架，它被称为是分布式系统的内核,在Twitter得到广泛使用,管理着Twitter超过30,0000台服务器上的应用部署，但是在国内，依然使用着传统的Hadoop大数据框架，所以国内使用Mesos框架的并不多，但是原理都差不多。
容器化部署是目前业界很流行的一项技术

        完结23章大数据硬核技能进阶 Spark3实战智能物业运营系统
       0 35浏览

        会员免费
      
spark
大小：1MB
Gain a broad foundation of advanced data analytics concepts and discover the recent revolution in databases such as Neo4j, Elasticsearch, and MongoDB. This book discusses how to implement ETL techniques including topical crawling, which is applied in domains such as high-frequency algorithmic trading and goal-oriented dialog systems. You’ll also see examples of machine learning concepts such as semi-supervised learning, deep learning, and NLP. Advanced Data Analytics Using Python also covers important traditional data analysis techniques such as time series and principal component analysis.
After reading this book you will have experience of every technical aspect of an analytics project. You’ll get to know the concepts using Python code, giving you samples to use in your own projects.
What You Will Learn
Work with data analysis techniques such as classification, clustering, regression, and forecasting
Handle structured and unstructured data, ETL techniques, and different kinds of databases such as Neo4j, Elasticsearch, MongoDB, and MySQL
Examine the different big data frameworks, including Hadoop and Spark
Discover advanced machine learning concepts such as semi-supervised learning, deep learning, and NLP
Who This Book Is For
Data scientists and software developers interested in the field of data analytics
Gain a broad foundation of advanced data analytics concepts and discover the recent revolution in databases such as Neo4j, Elasticsearch, and MongoDB. This book discusses how to implement ETL techniques including topical crawling, which is applied in domains such as high-frequency algorithmic trading and goal-oriented dialog systems. You’ll also see examples of machine learning concepts such as semi-supervised learning, deep learning, and NLP. Advanced Data Analytics Using Python also covers important traditional data analysis techniques such as time series and principal component analysis.
After reading this book you will have experience of every technical aspect of an analytics project. You’ll get to know the concepts using Python code, giving you samples to use in your own projects.
What You Will Learn
Work with data analysis techniques such as classification, clustering, regression, and forecasting
Handle structured and unstructured data, ETL techniques, and different kinds of databases such as Neo4j, Elasticsearch, MongoDB, and MySQL
Examine the different big data frameworks, including Hadoop and Spark
Discover advanced machine learning concepts such as semi-supervised learning, deep learning, and NLP
Who This Book Is For
Data scientists and software developers interested in the field of data analytics

        Advanced Data Analytics Using Python
       0 86浏览

        会员免费
      
大数据
大小：2KB
大数据工程师2023版体系课，10月升级版35周，源码+PDF课件+电子手册+软件下载地址+接口数据集下载！
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。简单来说，大数据就是结构化的传统数据再加上非结构化的新数据。
大数据作为时下最火热的IT行业的词汇，随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临，大数据分析也应运而生。
大数据工程师2023版体系课，10月升级版35周，源码+PDF课件+电子手册+软件下载地址+接口数据集下载！
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。简单来说，大数据就是结构化的传统数据再加上非结构化的新数据。
大数据作为时下最火热的IT行业的词汇，随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临，大数据分析也应运而生。

        大数据工程师2023版（23年10月升级版35周）
       0 31浏览

        会员免费
      
spark
大小：121KB
Spark跨集群bulk load（6-2）
Spark跨集群bulk load（6-2）

        Spark跨集群bulk load（6-2）
       0 74浏览

        会员免费
      
fm_open
大小：480MB
fm_open_20150101_20201231.rar
fm_open_20150101_20201231.rar

        fm_open_20150101_20201231.rar
       0 74浏览

        会员免费
      
spark
大小：3KB
Apache Flume 是一个分布式，高可用的数据收集系统，可以从不同的数据源收集数据，经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。
在推送式方法 (Flume-style Push-based Approach) 中，Spark Streaming 程序需要对某台服务器的某个端口进行监听，Flume 通过 `avro Sink` 将数据源源不断推送到该端口。
拉取式方法 (Pull-based Approach using a Custom Sink) 是将数据推送到 `SparkSink` 接收器中，此时数据会保持缓冲状态，Spark Streaming 定时从接收器中拉取数据。这种方式是基于事务的，即只有在 Spark Streaming 接收和复制数据完成后，才会删除缓存的数据。与第一种方式相比，具有更强的可靠性和容错保证
————————————————
版权声明：本文为CSDN博主「shangjg3」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：ht
Apache Flume 是一个分布式，高可用的数据收集系统，可以从不同的数据源收集数据，经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。
在推送式方法 (Flume-style Push-based Approach) 中，Spark Streaming 程序需要对某台服务器的某个端口进行监听，Flume 通过 `avro Sink` 将数据源源不断推送到该端口。
拉取式方法 (Pull-based Approach using a Custom Sink) 是将数据推送到 `SparkSink` 接收器中，此时数据会保持缓冲状态，Spark Streaming 定时从接收器中拉取数据。这种方式是基于事务的，即只有在 Spark Streaming 接收和复制数据完成后，才会删除缓存的数据。与第一种方式相比，具有更强的可靠性和容错保证
————————————————
版权声明：本文为CSDN博主「shangjg3」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：ht

        Spark整合Flume项目源码.rar
       0 77浏览
免费
数据集
大小：307KB
深入了解 RDD数据集文件
深入了解 RDD数据集文件

        深入了解 RDD数据集文件
       3 77浏览

        会员免费
      
spark
大小：21MB
spark 快速进行大数据分析教程，spark最新版
spark 快速进行大数据分析教程，spark最新版

        Fast Data Processing with Spark 2---3rd.rar
       0 73浏览

        会员免费
      
flume
大小：66MB
flume-ng-1.6.0-cdh5.14.2是常见flume分布式数据收集框架的压缩包
flume-ng-1.6.0-cdh5.14.2是常见flume分布式数据收集框架的压缩包

        flume-ng-1.6.0-cdh5.14.2.rar
       0 63浏览

        会员免费
      
clickhouse分布式表写
大小：57KB
基于waterdrop1.51(seatunnel1.x)，output clickhouse插件，新增分布式写表 rowhash和rowrandom模式
基于waterdrop1.51(seatunnel1.x)，output clickhouse插件，新增分布式写表 rowhash和rowrandom模式

        waterdrop1.x output clickhouse classes
       0 92浏览

        会员免费
      
spark
大小：6MB
《深入理解SPARK：核心思想与源码分析》结合大量图和示例，对Spark的架构、部署模式和工作模块的设计理念、实现源码与使用技巧进行了深入的剖析与解读。, 《深入理解SPARK：核心思想与源码分析》一书对Spark1.2.0版本的源代码进行了全面而深入的分析，旨在为Spark的优化、定制和扩展提供原理性的指导。阿里巴巴集团专家鼎力推荐、阿里巴巴资深Java开发和大数据专家撰写。, 本书分为三篇：, 准备篇（第1～2章），介绍了Spark的环境搭建、设计理念与基本架构，帮助读者了解一些背景知识。, 核心设计篇（第3～7章），着重讲解SparkContext的初始化、存储体系、任务提交与执行、计算引擎及部署模式的原理和源码分析。通过这部分的内容，读者可以通过源码剖析更加深入理解Spark的核心设计与实现，以便在实际使用中能够快速解决线上问题并对性能进行调优。, 扩展篇（第8～11章），主要讲解基于Spark核心的各种扩展及应用，包括SQL处理引擎、Hive处理、流式计算框架Spark Streaming、图计算框架GraphX、机器学习库MLlib等内容。通过阅读这部分内容，读者可以扩展实际项目中对Spark的应用场景，让Spark焕发活力。
《深入理解SPARK：核心思想与源码分析》结合大量图和示例，对Spark的架构、部署模式和工作模块的设计理念、实现源码与使用技巧进行了深入的剖析与解读。, 《深入理解SPARK：核心思想与源码分析》一书对Spark1.2.0版本的源代码进行了全面而深入的分析，旨在为Spark的优化、定制和扩展提供原理性的指导。阿里巴巴集团专家鼎力推荐、阿里巴巴资深Java开发和大数据专家撰写。, 本书分为三篇：, 准备篇（第1～2章），介绍了Spark的环境搭建、设计理念与基本架构，帮助读者了解一些背景知识。, 核心设计篇（第3～7章），着重讲解SparkContext的初始化、存储体系、任务提交与执行、计算引擎及部署模式的原理和源码分析。通过这部分的内容，读者可以通过源码剖析更加深入理解Spark的核心设计与实现，以便在实际使用中能够快速解决线上问题并对性能进行调优。, 扩展篇（第8～11章），主要讲解基于Spark核心的各种扩展及应用，包括SQL处理引擎、Hive处理、流式计算框架Spark Streaming、图计算框架GraphX、机器学习库MLlib等内容。通过阅读这部分内容，读者可以扩展实际项目中对Spark的应用场景，让Spark焕发活力。

        深入理解Spark
       0 129浏览

        会员免费
      

          1
        

          5
        

          6
        

          7
        

          8
        

          9
        
前往
页