数据存储
数据库
关系型数据库
MySQL
SQL Server
Oracle
...
非关系型数据库
Redis
MongoDB
HBase
Neo4J
InfluxDB
...
搜索引擎
Elasticsearch
作用
分布式、Rest风格的全文搜索引擎
基础概念
节点
集群
分片
副本
类型
文档
索引
路由
映射
安装部署
单节点方式
多节点集群方式
数据类型
基础类型
复杂类型
基本操作(含API使用)
索引操作
增/删/改/查
文档操作
增/删/改/查
分词
同义词
高亮
推荐
基本检索
结构化检索
全文检索
复合检索
特殊检索
基本聚合
Metric聚合
Buckting聚合
Pipeline聚合
Matrix聚合
集群运维
集群状态
集群扩展
集群安全
集群监控
集群备份
调优
写入优化
检索/聚合优化
索引优化
磁盘读写优化
数据模型优化
集群部署优化
分布式文件系统
HDFS
基本概念和架构
概念
Hadoop 分布式文件系统
基本架构
Blocks
NameNode
DataNode
平台主要特点
高容错
高吞吐量
大数据量支持
基本使用
命令行接口
创建目录/文件
删除文件/目录
查看文件内容
导入/导出文件
拷贝/移动文件
...
对应的API编程接口
核心机制理解
数据读/写原理
数据复制和原理
副本策略
路由策略
心跳机制
快照机制
缓存机制
认证机制
...
GlusterFS
KFS
Ceph
Tachyon
...
分布式数据库
HBase
基本概念和架构
概念 面向列(簇)的分布式数据库
基本数据模型
NameSpace
Table
Row
Column
TimeStamp
Cell
基本架构
Client
ZooKeeper
Master
Region Server
安装部署和环境搭建
Standalone/伪集群模式
集群模式
常用操作
基本Shell命令
状态/版本/Help命令
表操作
增/删/改/查
对应的API编程接口
重要机制和原理
存储原理
读/写流程
复制原理
负载均衡原理
容灾与备份机制
宕机恢复和故障处理
...
注:交流咨询,直接在微信公众号 CodeSheep 私信提,里面也整理了其他各方向的学习路线、知识点总结梳理、及书籍资料
概念
一款构建在Hadoop之上的数据仓库
用户接口
CLI
Web GUI
JDBC/ODBC
数据采集
数据类型
结构化数据
关系型数据库表形式所管理的数据
半结构化数据
非关系模型,但是有基本的固定结构模式,如XML、JSON等
非结构化数据
没有固定模式,如文档、图片、音视频等
数据来源
已有数据库的数据
关系型数据库
非关系型数据库
日志数据
接口请求数据
埋点访问数据
搜索类数据
...
第三方服务数据
第三方平台的请求数据
第三方平台的运营数据
第三方埋点数据
...
爬取的网络数据
...
数据采集(收集/聚合)
Flume
概念
分布式数据采集和聚合框架
基本组件和架构
组件
Event:数据基本单元
Source:数据的收集端
Channel:临时存储数据的管道
Sink:从Channel中取数据
Agent
架构模式
单Agent
串联Agent
并联Agent
...
安装部署
数据采集流程
Source
HTTP Source
Avro Source
Kafka Source
...
Channel
Memory Channel
JDBC Channel
File Channel
Kafka Channel
...
Sink
HDFS Sink
Avro Sink
...
Sink Processor
Default Sink Processor
Load Balancing Sink Processor
Failover Sink Processor
Selector
复制模式
多路复用模式
Interceptor
Timestamp Interceptor
Static Interceptor
Regex Interceptor
...
Logstash
概念
开源数据收集引擎
安装部署
数据采集流程
input
filter
output
强大的插件功能
数据迁移(同步/传输)
Sqoop
概念
数据同步和传输工具
下载和配置安装
基本命令和使用
help
查询库/表
导入/导出数据
job作业
...
数据传输实战
DataX
淘宝开源的数据导入/导出的工具,支持HDFS集群与各种关系型数据库之间的数据交换
注:交流咨询,直接在微信公众号 CodeSheep 私信提,里面也整理了其他各方向的学习路线、知识点总结梳理、及书籍资料
基本开发工具
Linux操作系统
CentOS
Ubuntu
...
SSH终端
SecureCRT
Mobaxterm
Xshell
...
FTP/SFTP工具
WinSCP
FileZilla
Transmit
...
IDE
IDEA
Eclipse
...
源码控制工具
Git
SVN
构建工具
Maven
Gradle
大数据开发基础
编程语言
Java
语言基础
基础语法
面向对象
接口
容器
异常
泛型
反射
注解
I/O
JVM虚拟机
类加载机制
字节码执行机制
JVM内存模型
GC垃圾回收
JVM性能监控与故障定位
JVM调优
并发/多线程编程
并发编程基础
线程池
锁
原子类
并发容器
JUC并发工具类
Scala
基础语法
类型系统
类和对象
函数和闭包
字符串/数组/集合
迭代器
Trait
模式匹配和正则
隐式转换
异常处理
函数式编程范式
Actor编程
...
数据结构和算法
数据结构
字符串
数组
链表
堆
栈
队列
树
哈希
图
算法
基本算法
查找
排序
算法思想
枚举
递归
贪心
分治
动态规划
回溯
计算机网络
体系结构和分层模型
ARP/RARP协议
IP/ICMP协议
TCP/UDP协议
DNS/HTT P/HTT PS协议
Session/Cookie/Token等概念
操作系统
进程与线程
内存管理和调度
I/O原理
文件管理
数据库基础
SQL语句书写
SQL语句优化
数据库规范化设计
事务/隔离级别/并发/索引等重要机制
设计模式
单例
工厂
代理
策略
模板方法
观察者
适配器
责任链
...
Linux系统
系统安装部署
基本命令和配置
常用系统和网络管理
基本的Shell编程
服务/软件部署
注:交流咨询,直接在微信公众号 CodeSheep 私信提,里面也整理了其他各方向的学习路线、知识点总结梳理、及书籍资料