针对WAP-mine 需要生成大量中间数据会降低算法效率的缺点,本文基于WAP-mine算法所提出的WAP树结构
,提出一种自顶向下的挖掘算法,能够有效地避免生成大量中间数据,从而提高了算法的效率,节省了存储空间
Web访问模式挖掘是Web使用挖掘的一个重要分支,其核心任务是从Web服务器的访问日志中抽取用户浏览网站的行为模式。随着互联网技术的迅猛发展和网站内容的日益丰富,挖掘这些数据以发现用户行为模式,对于网站设计优化、个性化服务提供等方面具有重要的应用价值。WAP(Web Access Patterns)指的是用户在网站上的访问序列,可以视为一种特殊的序列模式。传统的数据挖掘算法如GSP(Generalized Sequential Patterns)和PrefixSpan被应用于挖掘Web访问模式,但这些算法存在效率低下的问题。
为了解决传统算法效率低下的问题,提出了WAP-mine算法。WAP-mine算法通过两遍扫描将Web访问序列转化为一棵WAP树,并使用自底向上的策略递归挖掘条件模式基和条件模式树来生成频繁模式。尽管WAP-mine算法在效率上优于GSP算法,但其自底向上的挖掘策略在挖掘过程中会产生大量中间数据,尤其是当支持度较低时,算法效率会受到较大影响。
为了克服WAP-mine算法生成大量中间数据的缺点,本文提出了一种新的自顶向下的挖掘算法,称为T-WAP-mine。该算法基于WAP-mine算法提出的WAP树结构,有效地避免了生成大量中间数据,从而提高了算法的效率并节省了存储空间。通过在真实和人造数据集上的测试表明,T-WAP-mine算法在性能上优于WAP-mine算法。
算法的核心思想是在挖掘Web访问模式时,直接从WAP树的根节点开始,逐层向下构建条件模式基和条件模式树,并在此过程中剪枝,最终生成频繁模式。与自底向上的策略不同,自顶向下算法从树的高层开始搜索,这样可以先处理较为频繁的模式,减少不必要的中间数据构建,从而提高挖掘效率。在数据挖掘领域,减少中间数据的生成是提升算法效率的关键。
本文的算法思想和实验结果表明,基于WAP树结构的自顶向下的挖掘策略能够有效提高挖掘Web访问模式的效率。这对于数据密集型的Web使用挖掘领域而言,具有十分重要的理论与应用价值。通过更加高效的挖掘算法,能够更好地从海量的Web访问日志中提取有价值的信息,从而为网站的优化设计和个性化服务提供有力的数据支持。