• 基于扩展锚文本的网页特征识别

    基于源网页的信息比目标网页的更具有区别性,提出通过提取源网页扩展的锚文本,进行目标网页特征识 别。 分析了不同位置的扩展锚文本,获取其 XPath 表达式,用于提取网页特征,并通过实验分析其性能。

    0
    67
    203KB
    2018-02-07
    1
  • 概率XML文档Top-k关键字并行检索算法

    概率 XML是描述不确定数据的有效方式, Dewey 编码是一种重要的 XML文档关键字索引编码技术。在概 率 XML 大文档关键字索引检索过程中,频繁地比较关键字索引 Dewey 编码非常耗时。针对上述问题,对概率 XML 文档进行分区,并设计了适合概率 XML 文档特点的关键字索引的 Dewey 编码策略,提出了一种概率 XML 文档 Top - k 关键字并行检索算法PTKS ( Parallel Top - k  Keyword Search Algorithm )。实验证明, PTKS提高了概率 XML文档关 键字检索的时间效率,尤其在文档结构复杂度高的情况下检索效率提高更加显著。

    0
    103
    1.39MB
    2018-02-07
    10
上传资源赚积分or赚钱