没有合适的资源?快使用搜索试试~ 我知道了~
有效支持使用B +-树的基于编辑距离的字符串相似度搜索
0 下载量 192 浏览量
2021-03-16
01:59:12
上传
评论
收藏 2.2MB PDF 举报
温馨提示
试读
14页
编辑距离被广泛用于测量两个字符串之间的相似度。 作为基本操作,基于编辑距离的字符串相似度搜索是使用编辑距离在集合中查找与给定查询字符串相似的字符串。 回答此类字符串相似性查询的现有方法通过使用各种索引来遵循过滤验证框架。 通常,大多数方法都假定索引和数据集保存在主存储器中。 为了克服这个限制,在本文中,我们提出了一种基于B +树的方法来回答基于编辑距离的字符串相似性查询,因此,我们的方法可以轻松地集成到现有的RDBMS中。 通常,我们使用度量空间中采用的修剪技术来回答字符串相似性搜索,因为编辑距离是一个度量。 首先,我们根据一组参考字符串将字符串集合划分为多个分区。 然后,我们根据单个字符串与相应参考字符串之间的距离,使用单个B +树对所有分区中的字符串编制索引。 最后,我们提出了两种基于B +树的有效回答范围查询和KNN查询的方法。 我们证明数据集的最佳划分是一个NP难题,因此提出了一种启发式方法,用于贪婪地选择参考字符串,并提出了一种最佳划分分配策略,以最大程度地减少在验证期间需要验证的预期字符串数查询评估。 通过在各种真实数据集上进行的广泛实验,我们证明了在大多数情况下,基于B
资源推荐
资源评论
资源评论
weixin_38677046
- 粉丝: 6
- 资源: 912
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功