大数据处理相关技术学习之路-相关技术包括离线处理，实时处理，OLAP等，如hadoop、spark、flink、hive、hba资源-CSDN文库

共408个文件

md：161个

scala：103个

java：43个

hadoop

spark

flink

hive

需积分: 5 124 浏览量 2024-04-29 18:16:53 上传评论收藏 6.66MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

大数据处理相关技术学习之路-相关技术包括离线处理，实时处理，OLAP等，如hadoop、spark、flink、hive、hba （408个子文件）

mvnw.cmd 6KB

mysql.conf 219B

yarn_architecture.gif 32KB

.gitignore 397B

.gitignore 204B

.gitignore 203B

.gitignore 200B

.gitignore 199B

maven-wrapper.jar 50KB

GetIDMapReduce.java 8KB

SecondarySort.java 7KB

SamplerInputFormat.java 6KB

KpiApp.java 5KB

GetStatusMapReduce.java 5KB

MavenWrapperDownloader.java 5KB

SamplerSort.java 4KB

SortTest.java 4KB

MultipleInputsTest.java 4KB

WordCount.java 4KB

Topk.java 4KB

GetSplitMapReduce.java 4KB

PartitionerDemo.java 4KB

DistributedDemo.java 4KB

CounterTest.java 4KB

CombineTextInputFormatTest.java 4KB

ChainMapperChainReducer.java 3KB

SequenceFileInputFormatTest.java 3KB

MyGroup.java 3KB

NLineInputFormatTest.java 3KB

HdfsUtils.java 3KB

DBInputFormatTest.java 3KB

TestwithMultipleOutputs.java 3KB

WordCount.java 2KB

FindMaxValueRecordReader.java 2KB

TextPathFilterDemo.java 2KB

FindMaxValueInputSplit.java 2KB

FindMaxValueInputFormat.java 2KB

GetInputSplit.java 2KB

FindMaxValueReducer.java 2KB

MaxValueDriver.java 1KB

FindMaxValueMapper.java 1KB

WordCountJava.java 1KB

BigDataController.java 557B

FileUtils.java 413B

BigDataBusiness.java 403B

BigDataMapper.java 351B

BigDataApplication.java 312B

BigDataEntity.java 247B

BigDataApplicationTests.java 211B

BigDataConstants.java 187B

HiveUtils.java 178B

HttpUtil.java 176B

SparkStreaming任务调度.jpeg 22KB

Hive谓词下推.jpeg 16KB

4.jpg 1.88MB

2.jpg 1.13MB

flink架构.jpg 114KB

yarn.jpg 86KB

resource_manager.jpg 70KB

flink对比.jpg 60KB

timg.jpg 37KB

Hive的MapJoin工作机制.jpg 36KB

flink模块.jpg 36KB

flink数据传输方式.jpg 24KB

hive架构.jpg 19KB

school.json 251B

stu.json 186B

flinkstreaming.md 96KB

sparkcore.md 61KB

doris.md 53KB

README.md 51KB

java.md 49KB

hive.md 27KB

kafka.md 23KB

hbase.md 22KB

sparkstreaming.md 15KB

1.数据仓库.md 10KB

scala.md 9KB

sparksql.md 8KB

tableAndSql.md 7KB

1.Griffin简介.md 7KB

Kafka面试题.md 6KB

sql.md 6KB

3.数据建模.md 5KB

其它框架.md 5KB

springboot.md 4KB

README.md 4KB

4_窗口windows.md 3KB

3_时间time.md 3KB

hdfs.md 3KB

共 408 条

## 1、Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 * [Hadoop](bigdata-hadoop) - [MapReduce](bigdata-hadoop/src/main/java/com/libin/doc/mapreduce/README.md) - [HDFS](bigdata-hadoop/src/main/java/com/libin/doc/hdfs/README.md) - [YARN](bigdata-hadoop/src/main/java/com/libin/doc/yarn/README.md) ## 2、Spark Spark是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序 * [Spark](spark-core) - [Spark-Core](spark-core) - [Spark-Streaming](bigdata-spark-streaming) - [Spark-Sql](bigdata-spark-sql) - [Spark-GraphX](spark-graphx) - [Spark-MLlib](spark-mllib) ## 3、Flink Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。 Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。 * [Flink](bigdata-flink) - [Flink DataStream](bigdata-flink/src/main/docs/module/dataStream.md) - [Flink Table API & SQL](bigdata-flink/src/main/docs/module/tableAndSql.md) - [Flink CEP](bigdata-flink/src/main/docs/module/cep.md) - [Flink DataSet](bigdata-flink/src/main/docs/module/dataSet.md) - [Flink ML](bigdata-flink/src/main/docs/module/ml.md) - [Flink Gelly](bigdata-flink/src/main/docs/module/gelly.md) ## 4、大数据生态圈一些其它技术框架 * [Hive](bigdata-hive/README.md) * [HBase](bigdata-hbase/README.md) * [Kafka](bigdata-kafka/README.md) * [Doris](bigdata-doris/README.md) * [Kudu]() * [Parquet]() * [Kylin]() * [Superset]() * [Druid](bigdata-druid/README.md) * [Talos](bigdata-info/src/main/java/com/libin/talos/README.md) * [Pegasus](bigdata-info/src/main/java/com/libin/pegasus/README.md) * [Griffin](bigdata-info/src/main/java/com/libin/griffin/README.md) * [ElasticSearch](bigdata-info/src/main/java/com/libin/elasticsearch/README.md) * [Oozie](bigdata-info/src/main/java/com/libin/oozie/README.md) * [Redis]() * [MySQL]() * [SpringBoot](bigdata-springboot/README.md) * [Vue](bigdata-info/src/main/java/com/libin/vue/README.md) ## 5、大数据相关技能前奏 * [Scala](bigdata-info/src/main/java/com/libin/scala/README.md) * [Java](bigdata-info/src/main/java/com/libin/java/README.md) * [SQL](bigdata-info/src/main/java/com/libin/sql/README.md) * [Maven](bigdata-project/src/main/bigdata/maven.md) * [Git](bigdata-project/src/main/bigdata/git.md) * [Linux Shell](bigdata-project/src/main/bigdata/linux.md) * [大数据算法](bigdata-project/src/main/bigdata/大数据算法.md) * [大数据相关计算机理论知识](bigdata-project/src/main/bigdata/大数据相关计算机理论知识.md) * [大数据产品技能](bigdata-project/src/main/bigdata/大数据产品技能.md) * [大数据应用场景](bigdata-project/src/main/bigdata/大数据应用场景.md) * [大数据相关硬件知识](bigdata-project/src/main/bigdata/大数据相关硬件知识.md) * [大数据平台相关知识](bigdata-project/src/main/bigdata/大数据平台相关知识.md) ## 6、大数据一些相关项目 * [用户画像](bigdata-project/src/main/java/userProfile/readme.md) * [Id-Mapping](bigdata-project/src/main/java/idmapping/readme.md) * [离线数仓](bigdata-project/src/main/java/dataWarehouse/readme.md) * [实时数仓](bigdata-project/src/main/java/realTimeWarehouse/readme.md) * [特征系统](bigdata-project/src/main/java/featureEngineering/readme.md) * [数据报告](bigdata-project/src/main/java/dataReport/readme.md) * [精准运营]() * [实时监控](bigdata-project/src/main/java/realTimeMonitor/README.md) ## 7、数据相关知识点 * [1、数据仓库](bigdata-project/src/main/data/1.数据仓库.md) * [2、数据中台](bigdata-project/src/main/data/2.数据中台.md) * [3、数据建模](bigdata-project/src/main/data/3.数据建模.md) * [4、数据监控](bigdata-project/src/main/data/4.数据监控.md) * [5、数据治理](bigdata-project/src/main/data/5.数据治理.md) * [6、数据质量](bigdata-project/src/main/data/6.数据质量.md) * [7、数据血缘](bigdata-project/src/main/data/7.数据血缘.md) * [8、数据计算](bigdata-project/src/main/data/8.数据计算.md) * [9、数据存储](bigdata-project/src/main/data/9.数据存储.md) * [数据收集](bigdata-project/src/main/data/数据收集.md) * [数据压缩](bigdata-project/src/main/data/数据压缩.md) * [数据加解密](bigdata-project/src/main/data/数据加解密.md) * [数据产生](bigdata-project/src/main/data/数据产生.md) * [数据延迟](bigdata-project/src/main/data/数据延迟.md) * [数据可视化](bigdata-project/src/main/data/数据可视化.md) * [数据字典](bigdata-project/src/main/data/数据字典.md) * [数据分析](bigdata-project/src/main/data/数据分析.md) * [数据集市](bigdata-project/src/main/data/数据集市.md) ## 8、大数据学习相关资料 ##### 8.1、大数据学习网站 * [Apache官网](http://www.apache.org/) * [DataFunTalk知乎](https://www.zhihu.com/org/datafuntalk/posts) * [美团大数据](https://tech.meituan.com/tags/%E5%A4%A7%E6%95%B0%E6%8D%AE.html) * [InfoQ大数据](https://www.infoq.cn/topic/bigdata) ##### 8.2、大数据学习书籍 * [Hadoop权威指南]() * [Hadoop技术内幕（3本）]() * [Hadoop实战]() * [Hive编程指南]() * [HBase权威指南]() * [Spark快速大数据分析]() * [Spark技术内幕]() ##### 8.3、大数据论文 * [The Google File System (HDFS)]() * [BigTable (HBase)]() * [MapReduce]() * [Spark]() ##### 8.4、学习网址收藏 * [Apache 官网地址](https://www.apache.org/) * [Hadoop 官网地址](http://hadoop.apache.org/) * [Spark 官网地址](http://spark.apache.org/) * [Flink 官网地址](http://flink.apache.org/) * [Doris GitHub地址](https://github.com/apache/incubator-doris/wiki) * [Doris 官网地址](http://doris.apache.org/master/zh-CN/) ## 9、必会知识点 * [9.1、Spark Core](bigdata-project/src/main/doc/sparkcore.md) - [1）、Spark作业提交流程？](./bigdata-project/src/main/doc/sparkcore.md) - [2）、Spark的内存模型？](bigdata-project/src/main/doc/sparkcore.md) - [3）、SparkContext创建流程？源码级别？](bigdata-project/src/main/doc/sparkcore.md) - [4）、简述Spark个版本区别？1.x与2.x？](bigdata-project/src/main/doc/sparkcore.md) - [5）、使用Spark中遇到过哪些问题？如何解决的？](bigdata-project/src/main/doc/sparkcore.md) - [6）、Spark的Shuffle过程？和MR Shuffle区别？](bigdata-project/src/main/doc/sparkcore.md) - [7）、Spark中的数据倾斜问题有啥好的解决方案？](bigdata-project/src/main/doc/sparkcore.md) - [8）、Spark有哪些聚合类的算子，我们应该怎么避免使用这些算子？ReduceByKey和GroupByKey的区别？](bigdata-project/src/main/doc/sparkcore.md) - [9）、Spark On Yarn作业执行流程？yarn-client和yarn-cluster的区别？](bigdata-project/src/main/doc/sparkcore.md) - [10）、Spark中Job、Task、RDD、DAG、Stage的理解？](bigdata-project/src/main/doc/sparkcore.md) - [11）、Spark中RDD如何通过记录更新的方式容错？](bigdata-project/src/main/doc/sparkcore.md) - [12）、Spark常用调优方法？](bigdata-project/src/main/doc/sparkcore.md) - [13）、Spark中宽依赖和窄依赖如何理解？](bigdata-project/src/main/doc/sparkcore.md) - [14）、Spark中Job和Task如何理解？](bigdata-project/src/main/doc/sparkcore.md) - [15）、Spark中Transformation和action区别是什么？列举出常用的方法？](bigdata-project/src/main/doc/sparkcore.md) - [16）、Spark中persist()和cache()的区别？](bigdata-project/src/main/doc/sparkcore.md) - [17）、Spark中map和mapPartitions的区别？](bigdata-

评论收藏

内容反馈