核心团队大数据技术 - 数据管理技
术
Oracl
e
MySQL
SQL
Server
ETL 清
洗
分布式数据库
Flume &
Sqoop
日志 点击流 其它数据接口
HDFS 分布式文件系统
结构化业务数据、机器数据
半结构化数据、机器数据
序列化
NoSQL
结构化数据,通过两种途径抽取并存放到 HDFS 分布式文件系统中:
•
能够序列化的数据,直接存放到 HDFS 中;
•
不能够序列化的数据,通过数据整理后统一存放在分布式数据库环境中,再经过序列化后再存放在分布式数据库环境中,
整理后还不能序列化的数据也直接存放到 HDFS 中。
半结构化和非结构化数据:
•
各种日志数据(通常序列化半
结构化数据)直接存放到
HDFS 中;
•
点击流和数据接口中的数据
(通常序列化半结构化数据)
直接存放到 HDFS 中;
•
非结构化的数据直接存放到
HDFS 中。
第 一 步 - 数 据 抽 取 并 存 储
评论0