大数据技术是一系列技术的总称,它是集合了数据采集与传输、数据存
储、数据处理与分析、数据挖掘、数据可视化等技术,是一个庞大而复杂
的技术体系。
根据大数据从来源到应用,实现传输的流程,可以将大数据技术架构分
为数据收集层、数据存储层、数据处理层、数据治理与建模层、数据应用
层。
(1)互联网数据( 2)系统日志数据( 3)数据库数据
当大量的数据收集完后,我们需要对大数据进行存储。数据的存储分为
持久化存储和非持久化存储 。持久化存储 表示把数据 存储在磁盘中 ,关机
或断电后,数据依然不会丢失。 非持久化存储 表示把数据 存储在内存 中,
读写速度快 ,但是关机或断电后,数据丢失。
对于持久化存储而言,最关键的概念就是文件系统和数据库系统。常见
的分布式文件系统 HDFS 、对应的分布式非关系型数据库系统 Hbase ,以及
另一个非关系型数据库 MongoDB 。
而支持非持久化的系统,包括 Redis 、Berkeley DB 和 Memcached ,则为
前述的存储数据库提供了缓存机制,可以大幅地提升系统的响应速度,降
低持久化存储的压力。
当我们把数据收集好了、数据存储以及读写也都没有问题,我们手握着
这一堆数据干嘛?除了保存原始数据,做好数据备份之外,我们还需要考
评论0
最新资源