## 1、Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
* [Hadoop](bigdata-hadoop)
- [MapReduce](bigdata-hadoop/src/main/java/com/libin/doc/mapreduce/README.md)
- [HDFS](bigdata-hadoop/src/main/java/com/libin/doc/hdfs/README.md)
- [YARN](bigdata-hadoop/src/main/java/com/libin/doc/yarn/README.md)
## 2、Spark
Spark是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序
* [Spark](spark-core)
- [Spark-Core](spark-core)
- [Spark-Streaming](bigdata-spark-streaming)
- [Spark-Sql](bigdata-spark-sql)
- [Spark-GraphX](spark-graphx)
- [Spark-MLlib](spark-mllib)
## 3、Flink
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。
Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。
* [Flink](bigdata-flink)
- [Flink DataStream](bigdata-flink/src/main/docs/module/dataStream.md)
- [Flink Table API & SQL](bigdata-flink/src/main/docs/module/tableAndSql.md)
- [Flink CEP](bigdata-flink/src/main/docs/module/cep.md)
- [Flink DataSet](bigdata-flink/src/main/docs/module/dataSet.md)
- [Flink ML](bigdata-flink/src/main/docs/module/ml.md)
- [Flink Gelly](bigdata-flink/src/main/docs/module/gelly.md)
## 4、大数据生态圈一些其它技术框架
* [Hive](bigdata-hive/README.md)
* [HBase](bigdata-hbase/README.md)
* [Kafka](bigdata-kafka/README.md)
* [Doris](bigdata-doris/README.md)
* [Kudu]()
* [Parquet]()
* [Kylin]()
* [Superset]()
* [Druid](bigdata-druid/README.md)
* [Talos](bigdata-info/src/main/java/com/libin/talos/README.md)
* [Pegasus](bigdata-info/src/main/java/com/libin/pegasus/README.md)
* [Griffin](bigdata-info/src/main/java/com/libin/griffin/README.md)
* [ElasticSearch](bigdata-info/src/main/java/com/libin/elasticsearch/README.md)
* [Oozie](bigdata-info/src/main/java/com/libin/oozie/README.md)
* [Redis]()
* [MySQL]()
* [SpringBoot](bigdata-springboot/README.md)
* [Vue](bigdata-info/src/main/java/com/libin/vue/README.md)
## 5、大数据相关技能前奏
* [Scala](bigdata-info/src/main/java/com/libin/scala/README.md)
* [Java](bigdata-info/src/main/java/com/libin/java/README.md)
* [SQL](bigdata-info/src/main/java/com/libin/sql/README.md)
* [Maven](bigdata-project/src/main/bigdata/maven.md)
* [Git](bigdata-project/src/main/bigdata/git.md)
* [Linux Shell](bigdata-project/src/main/bigdata/linux.md)
* [大数据算法](bigdata-project/src/main/bigdata/大数据算法.md)
* [大数据相关计算机理论知识](bigdata-project/src/main/bigdata/大数据相关计算机理论知识.md)
* [大数据产品技能](bigdata-project/src/main/bigdata/大数据产品技能.md)
* [大数据应用场景](bigdata-project/src/main/bigdata/大数据应用场景.md)
* [大数据相关硬件知识](bigdata-project/src/main/bigdata/大数据相关硬件知识.md)
* [大数据平台相关知识](bigdata-project/src/main/bigdata/大数据平台相关知识.md)
## 6、大数据一些相关项目
* [用户画像](bigdata-project/src/main/java/userProfile/readme.md)
* [Id-Mapping](bigdata-project/src/main/java/idmapping/readme.md)
* [离线数仓](bigdata-project/src/main/java/dataWarehouse/readme.md)
* [实时数仓](bigdata-project/src/main/java/realTimeWarehouse/readme.md)
* [特征系统](bigdata-project/src/main/java/featureEngineering/readme.md)
* [数据报告](bigdata-project/src/main/java/dataReport/readme.md)
* [精准运营]()
* [实时监控](bigdata-project/src/main/java/realTimeMonitor/README.md)
## 7、数据相关知识点
* [1、数据仓库](bigdata-project/src/main/data/1.数据仓库.md)
* [2、数据中台](bigdata-project/src/main/data/2.数据中台.md)
* [3、数据建模](bigdata-project/src/main/data/3.数据建模.md)
* [4、数据监控](bigdata-project/src/main/data/4.数据监控.md)
* [5、数据治理](bigdata-project/src/main/data/5.数据治理.md)
* [6、数据质量](bigdata-project/src/main/data/6.数据质量.md)
* [7、数据血缘](bigdata-project/src/main/data/7.数据血缘.md)
* [8、数据计算](bigdata-project/src/main/data/8.数据计算.md)
* [9、数据存储](bigdata-project/src/main/data/9.数据存储.md)
* [数据收集](bigdata-project/src/main/data/数据收集.md)
* [数据压缩](bigdata-project/src/main/data/数据压缩.md)
* [数据加解密](bigdata-project/src/main/data/数据加解密.md)
* [数据产生](bigdata-project/src/main/data/数据产生.md)
* [数据延迟](bigdata-project/src/main/data/数据延迟.md)
* [数据可视化](bigdata-project/src/main/data/数据可视化.md)
* [数据字典](bigdata-project/src/main/data/数据字典.md)
* [数据分析](bigdata-project/src/main/data/数据分析.md)
* [数据集市](bigdata-project/src/main/data/数据集市.md)
## 8、大数据学习相关资料
##### 8.1、大数据学习网站
* [Apache官网](http://www.apache.org/)
* [DataFunTalk知乎](https://www.zhihu.com/org/datafuntalk/posts)
* [美团大数据](https://tech.meituan.com/tags/%E5%A4%A7%E6%95%B0%E6%8D%AE.html)
* [InfoQ大数据](https://www.infoq.cn/topic/bigdata)
##### 8.2、大数据学习书籍
* [Hadoop权威指南]()
* [Hadoop技术内幕(3本)]()
* [Hadoop实战]()
* [Hive编程指南]()
* [HBase权威指南]()
* [Spark快速大数据分析]()
* [Spark技术内幕]()
##### 8.3、大数据论文
* [The Google File System (HDFS)]()
* [BigTable (HBase)]()
* [MapReduce]()
* [Spark]()
##### 8.4、学习网址收藏
* [Apache 官网地址](https://www.apache.org/)
* [Hadoop 官网地址](http://hadoop.apache.org/)
* [Spark 官网地址](http://spark.apache.org/)
* [Flink 官网地址](http://flink.apache.org/)
* [Doris GitHub地址](https://github.com/apache/incubator-doris/wiki)
* [Doris 官网地址](http://doris.apache.org/master/zh-CN/)
## 9、必会知识点
* [9.1、Spark Core](bigdata-project/src/main/doc/sparkcore.md)
- [1)、Spark作业提交流程?](./bigdata-project/src/main/doc/sparkcore.md)
- [2)、Spark的内存模型?](bigdata-project/src/main/doc/sparkcore.md)
- [3)、SparkContext创建流程?源码级别?](bigdata-project/src/main/doc/sparkcore.md)
- [4)、简述Spark个版本区别?1.x与2.x?](bigdata-project/src/main/doc/sparkcore.md)
- [5)、使用Spark中遇到过哪些问题?如何解决的?](bigdata-project/src/main/doc/sparkcore.md)
- [6)、Spark的Shuffle过程? 和MR Shuffle区别?](bigdata-project/src/main/doc/sparkcore.md)
- [7)、Spark中的数据倾斜问题有啥好的解决方案?](bigdata-project/src/main/doc/sparkcore.md)
- [8)、Spark有哪些聚合类的算子,我们应该怎么避免使用这些算子?ReduceByKey和GroupByKey的区别?](bigdata-project/src/main/doc/sparkcore.md)
- [9)、Spark On Yarn作业执行流程?yarn-client和yarn-cluster的区别?](bigdata-project/src/main/doc/sparkcore.md)
- [10)、Spark中Job、Task、RDD、DAG、Stage的理解?](bigdata-project/src/main/doc/sparkcore.md)
- [11)、Spark中RDD如何通过记录更新的方式容错?](bigdata-project/src/main/doc/sparkcore.md)
- [12)、Spark常用调优方法?](bigdata-project/src/main/doc/sparkcore.md)
- [13)、Spark中宽依赖和窄依赖如何理解?](bigdata-project/src/main/doc/sparkcore.md)
- [14)、Spark中Job和Task如何理解?](bigdata-project/src/main/doc/sparkcore.md)
- [15)、Spark中Transformation和action区别是什么?列举出常用的方法?](bigdata-project/src/main/doc/sparkcore.md)
- [16)、Spark中persist()和cache()的区别?](bigdata-project/src/main/doc/sparkcore.md)
- [17)、Spark中map和mapPartitions的区别?](bigdata-
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
大数据处理相关技术学习之路 相关技术包括离线处理,实时处理,OLAP等,如hadoop、spark、flink、hive、hbase、oozie...以及大数据项目,如用户画像、数据仓库等 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Spark是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。 Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。
资源推荐
资源详情
资源评论
收起资源包目录
大数据处理相关技术学习之路-相关技术包括离线处理,实时处理,OLAP等,如hadoop、spark、flink、hive、hba (408个子文件)
mvnw.cmd 6KB
mysql.conf 219B
yarn_architecture.gif 32KB
.gitignore 397B
.gitignore 204B
.gitignore 204B
.gitignore 204B
.gitignore 204B
.gitignore 204B
.gitignore 204B
.gitignore 204B
.gitignore 204B
.gitignore 203B
.gitignore 200B
.gitignore 200B
.gitignore 200B
.gitignore 200B
.gitignore 199B
maven-wrapper.jar 50KB
GetIDMapReduce.java 8KB
SecondarySort.java 7KB
SamplerInputFormat.java 6KB
KpiApp.java 5KB
GetStatusMapReduce.java 5KB
MavenWrapperDownloader.java 5KB
SamplerSort.java 4KB
SortTest.java 4KB
MultipleInputsTest.java 4KB
WordCount.java 4KB
Topk.java 4KB
GetSplitMapReduce.java 4KB
PartitionerDemo.java 4KB
DistributedDemo.java 4KB
CounterTest.java 4KB
CombineTextInputFormatTest.java 4KB
ChainMapperChainReducer.java 3KB
SequenceFileInputFormatTest.java 3KB
MyGroup.java 3KB
NLineInputFormatTest.java 3KB
HdfsUtils.java 3KB
DBInputFormatTest.java 3KB
TestwithMultipleOutputs.java 3KB
WordCount.java 2KB
FindMaxValueRecordReader.java 2KB
TextPathFilterDemo.java 2KB
FindMaxValueInputSplit.java 2KB
FindMaxValueInputFormat.java 2KB
GetInputSplit.java 2KB
FindMaxValueReducer.java 2KB
MaxValueDriver.java 1KB
FindMaxValueMapper.java 1KB
WordCountJava.java 1KB
BigDataController.java 557B
FileUtils.java 413B
BigDataBusiness.java 403B
BigDataMapper.java 351B
BigDataApplication.java 312B
BigDataEntity.java 247B
BigDataApplicationTests.java 211B
BigDataConstants.java 187B
HiveUtils.java 178B
HttpUtil.java 176B
SparkStreaming任务调度.jpeg 22KB
Hive谓词下推.jpeg 16KB
4.jpg 1.88MB
2.jpg 1.13MB
flink架构.jpg 114KB
yarn.jpg 86KB
resource_manager.jpg 70KB
flink对比.jpg 60KB
timg.jpg 37KB
Hive的MapJoin工作机制.jpg 36KB
flink模块.jpg 36KB
flink数据传输方式.jpg 24KB
hive架构.jpg 19KB
school.json 251B
stu.json 186B
flinkstreaming.md 96KB
sparkcore.md 61KB
doris.md 53KB
README.md 51KB
java.md 49KB
hive.md 27KB
kafka.md 23KB
hbase.md 22KB
sparkstreaming.md 15KB
1.数据仓库.md 10KB
scala.md 9KB
sparksql.md 8KB
tableAndSql.md 7KB
1.Griffin简介.md 7KB
Kafka面试题.md 6KB
sql.md 6KB
3.数据建模.md 5KB
其它框架.md 5KB
springboot.md 4KB
README.md 4KB
4_窗口windows.md 3KB
3_时间time.md 3KB
hdfs.md 3KB
共 408 条
- 1
- 2
- 3
- 4
- 5
资源评论
程序媛小y
- 粉丝: 5613
- 资源: 93
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功