2018数据管理音频整理1

preview
需积分: 0 0 下载量 102 浏览量 更新于2022-08-08 收藏 244KB DOCX 举报
大数据领域中,"2018数据管理音频整理1"涵盖了多个关键知识点,包括大数据的四个V(Volume、Variety、Velocity、Value),Memcached的内存替换策略,DynamoDB的高可用性和一致性模型,以及NWR理论和Vector Clock更新算法。 大数据的四个V定义了大数据的主要特征。Volume指的是数据的海量性,数据量从TB级别跃升至PB级别;Variety表示数据的多样性,包括网络日志、视频、图片、地理位置等多种类型;Velocity强调处理速度,要求在1秒内完成处理,与传统数据挖掘技术相比更快速;Value则指出大数据的价值密度相对较低,需要通过分析大量数据才能提取有价值的信息。 接着,Memcached作为内存缓存系统,其内存替换策略旨在高效利用有限的内存资源。优先使用已超时的记录的空间,确保空间的循环利用。如果空间不足,会采用最近最少使用(LRU)策略,但只有引用计数为零的记录才会被替换,以避免频繁操作。惰性回收机制是Memcached的一个特点,记录超时并不会立即释放内存,只有在下次get操作时检查到记录过期才会释放,减少CPU的监控成本。 DynamoDB是亚马逊的一个分布式键值存储系统,它增加了多副本功能以提高数据的可用性和持久性。面对节点失效,DynamoDB采用hinted handoff技术,当写请求无法送达某个节点时,会将数据暂存到其他节点,待故障节点恢复后再写回,确保W个副本的写确认和R个副本的读取。这种策略保障了系统的高可用性。 一致性是分布式系统中的重要概念,DynamoDB的一致性模型基于R+W>N的原则,确保在W个副本同步写入成功和R个副本读取的情况下,系统能提供强一致性。NWR理论由Werner Vogels提出,其中N为副本数,W为写确认数,R为读取数,当W+R>N时,系统可保证强一致性。 Vector Clock是一种分布式系统中用于维持因果关系的工具,每个节点维护一个向量时钟,记录本地事件和对其他节点事件的知觉。当节点间通信时,会更新向量时钟,但无限增长的问题需要解决。为避免向量时钟过长,可以采用服务器向量,以服务器而非客户端标识向量空间,从而限制向量的长度。 这个资料涉及了大数据的基本特性、内存管理策略、分布式存储的高可用性设计以及一致性算法,这些都是理解现代数据管理系统不可或缺的基础知识。
臭人鹏
  • 粉丝: 34
  • 资源: 328
上传资源 快速赚钱
voice
center-task 前往需求广场,查看用户热搜