没有合适的资源?快使用搜索试试~ 我知道了~
算法学习:从B树、B+树、B-树谈到R-树
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 17 浏览量
2023-09-20
22:50:29
上传
评论
收藏 985KB DOC 举报
温馨提示
试读
42页
算法学习:从B树、B+树、B_树谈到R_树
资源推荐
资源详情
资源评论
第一节、B 树、B+树、B*树
1.前言:
动态查找树主要有:二叉查找树(Binary Search Tree),平衡二叉查找
树(Balanced Binary Search Tree),红黑树(Red-Black Tree ),
B-tree/B
+
-tree/ B
*
-tree (B~Tree)。前三者是典型的二叉查找树结构,其查
找的时间复杂度 O(log
2
N)与树的深度相关,那么降低树的深度自然会提高查找效
率。
但是咱们有面对这样一个实际问题:就是大规模数据存储中,实现索引查询
这样一个实际背景下,树节点存储的元素数量是有限的(如果元素数量非常多的
话,查找就退化成节点内部的线性查找了),这样导致二叉查找树结构由于树的
深度过大而造成磁盘 I/O 读写过于频繁,进而导致查询效率低下(为什么会出
现这种情况,待会在外部存储器-磁盘中有所解释),那么如何减少树的深度(当
然是不能减少查询的数据量),一个基本的想法就是:采用多叉树结构(由于树
节点元素数量是有限的,自然该节点的子树数量也就是有限的)。
这样我们就提出了一个新的查找树结构——多路查找树。根据平衡二叉树的
启发,自然就想到平衡多路查找树结构,也就是这篇文章所要阐述的第一个主题
B~tree(B 树结构)。
B-tree(B-tree 树即 B 树)这棵神奇的树是在 Rudolf Bayer, Edward M.
McCreight(1970)写的一篇论文《Organization and Maintenance of Large
Ordered Indices》中首次提出的(wikipedia 中:
http://en.wikipedia.org/wiki/B-tree,阐述了 B-tree 名字来源以及相关的开源
地址)。
在开始介绍 B~tree 之前,先了解下相关的硬件知识,才能很好的了解为什
么需要 B~tree 这种外存数据结构。
2.外存储器—磁盘
计算机存储设备一般分为两种:内存储器(main memory)和外存储器
(external memory)。 内存存取速度快,但容量小,价格昂贵,而且不能长期保
存数据(在不通电情况下数据会消失)。
外存储器—磁盘是一种直接存取的存储设备(DASD)。它是以存取时间变化不
大为特征的。可以直接存取任何字符组,且容量大、速度较其它外存设备更快。
2.1 磁盘的构造
磁盘是一个扁平的圆盘(与电唱机的唱片类似)。盘面上有许多称为磁道的圆
圈,数据就记录在这些磁道上。磁盘可以是单片的,也可以是由若干盘片组成的
盘组,每一盘片上有两个面。如下图 11.3 中所示的 6 片盘组为例,除去最顶端
和最底端的外侧面不存储数据之外,一共有 10 个面可以用来保存信息。
当磁盘驱动器执行读/写功能时。盘片装在一个主轴上,并绕主轴高速旋转,
当磁道在读/写头(又叫磁头) 下通过时,就可以进行数据的读 / 写了。
一般磁盘分为固定头盘(磁头固定)和活动头盘。固定头盘的每一个磁道上都
有独立的磁头,它是固定不动的,专门负责这一磁道上数据的读/写。
活动头盘 (如上图)的磁头是可移动的。每一个盘面上只有一个磁头(磁头是
双向的,因此正反盘面都能读写)。它可以从该面的一个磁道移动到另一个磁道。
所有磁头都装在同一个动臂上,因此不同盘面上的所有磁头都是同时移动的(行
动整齐划一)。当盘片绕主轴旋转的时候,磁头与旋转的盘片形成一个圆柱体。
各个盘面上半径相同的磁道组成了一个圆柱面,我们称为柱面 。因此,柱面的
个数也就是盘面上的磁道数。
2.2 磁盘的读/写原理和效率
磁盘上数据必须用一个三维地址唯一标示:柱面号、盘面号、块号(磁道上
的盘块)。
读/写磁盘上某一指定数据需要下面 3 个步骤:
(1) 首先移动臂根据柱面号使磁头移动到所需要的柱面上,这一过程被称
为定位或查找 。
(2) 如上图 11.3 中所示的 6 盘组示意图中,所有磁头都定位到了 10 个盘
面的 10 条磁道上(磁头都是双向的)。这时根据盘面号来确定指定盘面上的磁道。
(3) 盘面确定以后,盘片开始旋转,将指定块号的磁道段移动至磁头下。
经过上面三个步骤,指定数据的存储位置就被找到。这时就可以开始读/写
操作了。
访问某一具体信息,由 3 部分时间组成:
● 查找时间(seek time) Ts: 完成上述步骤(1)所需要的时间。这部分时间
代价最高,最大可达到 0.1s 左右。
● 等待时间(latency time) Tl: 完成上述步骤(3)所需要的时间。由于盘片
绕主轴旋转速度很快,一般为 7200 转/分(电脑硬盘的性能指标之一, 家用的普
通硬盘的转速一般有 5400rpm(笔记本)、7200rpm 几种)。因此一般旋转一圈大约
0.0083s。
● 传输时间(transmission time) Tt: 数据通过系统总线传送到内存的时间,
一般传输一个字节(byte)大概 0.02us=2*10^(-8)s
磁盘读取数据是以盘块(block)为基本单位的。位于同一盘块中的所有数据
都能被一次性全部读取出来。而磁盘 IO 代价主要花费在查找时间 Ts 上。因此我
们应该尽量将相关信息存放在同一盘块,同一磁道中。或者至少放在同一柱面或
相邻柱面上,以求在读/写信息时尽量减少磁头来回移动的次数,避免过多的查
找时间 Ts。
所以,在大规模数据存储方面,大量数据存储在外存磁盘中,而在外存磁盘
中读取/写入块(block)中某数据时,首先需要定位到磁盘中的某块,如何有效地
查找磁盘中的数据,需要一种合理高效的外存数据结构,就是下面所要重点阐述
的 B-tree 结构,以及相关的变种结构:B
+
-tree 结构和 B
*
-tree 结构。
3.B- 树
具体讲解之前,有一点,再次强调下:B-树,即为 B 树。因为 B 树的原英
文名称为 B-tree,而国内很多人喜欢把 B-tree 译作 B-树,其实,这是个非常不
好的直译,很容易让人产生误解。如人们可能会以为 B-树是一种树,而 B 树又
是一种一种树。而事实上是,B-tree 就是指的 B 树。特此说明。
我们知道,B 树是为了磁盘或其它存储设备而设计的一种多叉(下面你会看
到,相对于二叉,B 树每个内结点有多个分支,即多叉)平衡查找树。与本 blog
之前介绍的红黑树很相似,但在降低磁盘 I/0 操作方面要更好一些。许多数据库
系统都一般使用 B 树或者 B 树的各种变形结构,如下文即将要介绍的 B+树,B*
树来存储信息。
B 树与红黑树最大的不同在于,B 树的结点可以有许多子女,从几个到几
千个。那为什么又说 B 树与红黑树很相似呢?因为与红黑树一样,一棵含 n 个结
点的 B 树的高度也为 O(lgn),但可能比一棵红黑树的高度小许多,应为它的
分支因子比较大。所以,B 树可以在 O(logn)时间内,实现各种如插入
(insert),删除(delete)等动态集合操作。
剩余41页未读,继续阅读
资源评论
小小哭包
- 粉丝: 1900
- 资源: 3864
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 论文(最终)_20240430235101.pdf
- 基于python编写的Keras深度学习框架开发,利用卷积神经网络CNN,快速识别图片并进行分类
- 最全空间计量实证方法(空间杜宾模型和检验以及结果解释文档).txt
- 5uonly.apk
- 蓝桥杯Python组的历年真题
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 前端开发技术实验报告:内含4四实验&实验报告
- Highlight Plus v20.0.1
- 林周瑜-论文.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功