概率；XML文档下载地址、锚文本；识别文档资源下载-weixin_41720277的资源-CSDN下载

基于扩展锚文本的网页特征识别

基于源网页的信息比目标网页的更具有区别性，提出通过提取源网页扩展的锚文本，进行目标网页特征识别。分析了不同位置的扩展锚文本，获取其 XPath 表达式，用于提取网页特征，并通过实验分析其性能。

评级：0

浏览量：67

资源大小：203KB

上传时间：2018-02-07

所需积分： 1
概率XML文档Top-k关键字并行检索算法

概率ＸＭＬ是描述不确定数据的有效方式，Ｄｅｗｅｙ编码是一种重要的ＸＭＬ文档关键字索引编码技术。在概率ＸＭＬ大文档关键字索引检索过程中，频繁地比较关键字索引Ｄｅｗｅｙ编码非常耗时。针对上述问题，对概率ＸＭＬ文档进行分区，并设计了适合概率ＸＭＬ文档特点的关键字索引的Ｄｅｗｅｙ编码策略，提出了一种概率ＸＭＬ文档Ｔｏｐ－ｋ关键字并行检索算法ＰＴＫＳ（Ｐａｒａｌｌｅｌ　Ｔｏｐ－ｋ　Ｋｅｙｗｏｒｄ　Ｓｅａｒｃｈ　Ａｌｇｏｒｉｔｈｍ）。实验证明，ＰＴＫＳ提高了概率ＸＭＬ文档关键字检索的时间效率，尤其在文档结构复杂度高的情况下检索效率提高更加显著。

评级：0

浏览量：103

资源大小：1.39MB

上传时间：2018-02-07

所需积分： 10

weixin_41720277

码龄6年

关注私信

上传资源赚积分or赚钱