信息抽取文档下载地址、资源下载-qq_23026507的资源-CSDN下载

动态网页的信息抽取方法

动态网页的信息抽取W曲信息抽取将W|eb中的数据抽取出来并表示为结构化的形式。动态网页是通过程序动态生成的页面。据统计，目前Web上的页面主要是以动态网页的形式存在。因此，研究动态网页的信息抽取方法，具有较大的实用价值。本文将动态网页分为记录级和页面级两类，主要工作包括：(1)针对记录级动态网页，提出基于相似记录项归纳(Similar Records Induction，s对)的信息抽取方法。该方法采用编辑距离算法和树排列算法归纳产生记录项的包装器树，并为抽取到的信息手工标注标签。(2)针对页面级动态网页，提出基于相似页面归纳(Similar Pages Induction,SPI)的信息抽取方法。该方法首先清洗样本网页集，然后通过树排列算法，归纳产生页面的包装器树，并选择模板字符串为相邻信息自动标注标签。(3) 针对记录级动态网页的标签自动获取问题，提出基于隐马尔科夫模型(Hidden Markov Model。HMM) 的记录项字段识别和抽取方法。该方法将记录项作为字段值的序列，并采用HM_／VI对字段值的标签进行分类标注。

评级：0

浏览量：85

资源大小：3.79MB

上传时间：2018-03-19

所需积分： 9

qq_23026507

码龄10年

关注私信

上传资源赚积分or赚钱