Web database sampling approach based on attribute correlation
本文介绍了一种基于属性相关性的Web数据库抽样方法。该方法被设计用于在非均匀隐藏数据库中执行抽样任务。作者提出了计算属性依赖性的方法,并根据属性依赖性构建了抽样模板。接着,使用抽样模板生成初始抽样查询,并提出了一个自底向上的算法来搜索抽样模板。此外,作者还对实际的深层网站和受控数据库进行了广泛的实验,以证明所提出的方法在质量和效率上均表现良好。 在本文中,作者首先回顾了数据库抽样方法的发展历程,这些方法主要用于从传统数据库中收集统计信息,并提供了对数据的完整且无限制的访问。传统上,数据库抽样被用于从数据库中提取数据并收集统计信息。许多论文研究了随机抽样方法,并开发了用于直方图估计技术和近似查询处理的抽样方法。在搜索引擎领域,文档的随机游走被提出以从搜索引擎索引中抽样文档。在文本数据库研究领域,Callan等人和Panagiotis等人利用基于查询的抽样方法生成文本数据库的内容摘要。此外,Hedley等人在基于文本的界面上使用了两阶段抽样方法。 然而,在查询接口背后的隐藏数据库被提出之后,现有的抽样技术并不能很好地解决隐藏数据库中的抽样问题。这是因为这些隐藏数据库通常具有不均匀的分布,且仅通过查询接口进行访问。为了解决这一挑战,本文提出了一种新的基于属性相关性的抽样方法,该方法能够有效地从非均匀隐藏数据库中抽样数据。 为了实现这一目标,作者首先定义了属性依赖性的计算方法。属性依赖性指的是数据库中不同属性值之间的相互关系,这种依赖性可以用来确定哪些属性组合可以提供更有信息量的抽样数据。利用属性依赖性,作者构建了一个抽样模板,这个模板可以指导后续的抽样过程。 接着,作者介绍了如何使用抽样模板生成初始的抽样查询。生成的查询将用于从隐藏数据库中检索样本数据。为了有效搜索抽样模板,作者提出了一种自底向上的算法。这种算法从基础属性值对开始,逐步构建更复杂的属性组合,直到找到具有最高信息量的样本数据。 实验部分是该方法验证的关键。作者通过在实际的深层网站和受控数据库上进行广泛的实验,展示了所提出方法在质量和效率方面的优越性。实验结果表明,基于属性相关性的抽样方法不仅能够提供高质量的样本数据,而且在处理大量数据时保持了高效率。 本文中所涉及到的核心概念包括属性相关性、隐藏数据库、抽样模板以及互信息等。属性相关性是指在数据库中不同属性之间关联程度的度量,而隐藏数据库通常指的是通过查询接口访问的数据库,其内容不是完全公开的。抽样模板是一个指导抽样过程的数据结构,它基于属性依赖性构建。互信息则是一种用来衡量两个变量之间相互依赖程度的统计量。 从上述内容中可以看出,本文的研究方向属于Web挖掘领域,作者是田建伟,一位博士候选人,研究方向为Web挖掘。文章得到了中国国家自然科学基金(编号***)的支持。通过本文的研究,可以为处理隐藏在查询接口背后的数据库提供了一种有效的抽样方法,这对于Web数据挖掘和信息检索等领域具有重要的意义。
- 粉丝: 5
- 资源: 884
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助