没有合适的资源?快使用搜索试试~ 我知道了~
互联网网页文本对象抽取实现技术本科生.doc
1 下载量 111 浏览量
2023-07-07
14:14:11
上传
评论
收藏 1.09MB DOC 举报
温馨提示
试读
47页
互联网网页文本对象抽取实现技术本科生.doc
资源推荐
资源详情
资源评论
湖 南 大 学 毕 业 论 文 第 I 页
湖南大学软件学院
互联网网页文本对象抽取实现技术
摘 要
互联网中蕴含着大量的关于现实世界对象的结构化信息。为了能应对信息爆炸带来
的严重挑战,抽取、集成网页上各式各样的文本对象信息,进行对象级别的搜索,迫切
需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。 网页文
本对象抽取实现技术正是解决这个问题的一种方法。
本文以传统的信息抽取理论和方法为基础,针对目前热门的博客领域,提出了一种
基于 HTML 特征和机器学习的博客正文抽取算法。在该算法中,研究了博客网页的特
征,提出了一种基于 HTML 标签特征的网页分块算法,使用决策树算法对博客数据集
进行统计训练,采用专门的统计工具 WEKA 对该算法进行了测试和评估,并总结出该
算法的优点以及可以改进的地方。最后,展示了基于该博客正文抽取算法的博客搜索引
擎 Geeseek 的系统结构和界面演示。该系统属于新型的垂直搜索引擎,能够对博客和博
文进行快速有效的搜索。据了解,Geeseek 也是目前国内高校中第一个博客搜索引擎。
关键词:互联网,信息爆炸,信息抽取,博客,HTML,机器学习,决策树,搜索引
擎,Geeseek
湖 南 大 学 毕 业 论 文 第 II 页
湖南大学软件学院
Implementation of text object extraction for Internet web pages
Author: Zhang Hui
Tutor: Lin Yaping
Abstract
Nowadays, there is a large number of semi-structural information which represents
objects in the real world on the Internet. In order to deal with the severe challenge brought by
information explosion, extract and integrate all kinds of text object information on web pages,
and put up the object-level searching, it cries for the automated technologies to help people
find the very information they really need among such a large number of information. The
technology of text object extraction is just one of methods to solve this problem.
Based on the traditional theory of Information Extraction and aiming at the blog domain,
this paper puts forward an arithmetic implementing the extraction function for the text objects
of blog articles with the HTML features and machine learning. In this arithmetic, it analyses
the features of blog pages, introduces an arithmetic for web page partition basing on the
HTML tag features, uses decision tree to do statistics and training on the blog data set, tests
and evaluates this arithmetic using the expert statistical tool, WEKA, and summarizes the
advantages as well as the points needing improving. Finally, it shows the system architecture
and interface presentation of the Geeseek, a blog Search Engine which applies the technology
of text object extraction for blog pages. This system blongs to the new-style vertical Search
Engine and is able to search for the blog home pages and blog article pages quickly and
effectively. So far as we know, Geeseek is the first blog Search Engine in all the colleges in
China.
Key words: Internet, information explosion, Information Extraction, blog, HTML, machine
learning, Search Engine, decision tree , Geeseek
毕业设计(论文)原创性声明和使用授权说明
湖 南 大 学 毕 业 论 文 第 III 页
湖南大学软件学院
原创性声明
本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指
导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致
谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包
含我为获得 及其它教育机构的学位或学历而使用过的材料。对
本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说
明并表示了谢意。
作 者 签 名: 日 期:
指导教师签名: 日 期:
使用授权说明
本人完全了解 大学关于收集、保存、使用毕业设计(论文)的
规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学
校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览
服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不
以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名: 日 期:
湖 南 大 学 毕 业 论 文 第 IV 页
湖南大学软件学院
学位论文原创性声明
本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取
得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何
其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献
的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法
律后果由本人承担。
作者签名: 日期: 年 月 日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学
校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被
查阅和借阅。本人授权 大学可以将本学位论文的全部或部分
内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保
存和汇编本学位论文。
涉密论文按学校规定处理。
作者签名: 日期: 年 月 日
导师签名: 日期: 年 月 日
湖 南 大 学 毕 业 论 文 第 V 页
湖南大学软件学院
目 录
1. 绪论........................................................................................................................................1
1.1 课题背景及目的 ..............................................................................................................1
1.2 国内外研究状况 ..............................................................................................................3
1.2.1 国内研究现状............................................................................................................3
1.2.2 国外研究现状............................................................................................................4
1.3 课题研究方法 ..................................................................................................................5
1.4 论文构成及研究内容 ......................................................................................................5
2. Web 信息抽取及网页文本对象抽取概述............................................................................7
2.1 Web 信息抽取的概念 ......................................................................................................7
2.2 Web 信息抽取的方法 ......................................................................................................8
2.3 Web 信息抽取的典型流程 ..............................................................................................9
2.4 网页文本对象抽取的理论和方法 .................................................................................11
3. 博客正文信息抽取系统的设计..........................................................................................14
3.1 博客搜索的概况 ............................................................................................................14
3.2 博客正文抽取的过程 ....................................................................................................15
3.2.1 分类..........................................................................................................................15
3.2.2 分块..........................................................................................................................18
3.2.3 统计训练,获取决策树..........................................................................................21
3.3 算法的测试和评估 ........................................................................................................24
3.4 博客正文抽取算法的意义和思考 ................................................................................25
4. 基于博客正文抽取的 Geeseek 搜索引擎..........................................................................27
4.1 Geeseek 系统介绍 ..........................................................................................................27
4.2 博客正文抽取模块 .........................................................................................................28
4.2.1 博客正文抽取模块简介..........................................................................................28
4.2.2 博客正文抽取模块的主要数据类..........................................................................29
4.2.3 博客正文抽取模块的实现思路..............................................................................30
4.3 系统展示 .........................................................................................................................33
5. 总结......................................................................................................................................36
致 谢.......................................................................................................................................37
参考文献...................................................................................................................................39
剩余46页未读,继续阅读
资源评论
zzzzl333
- 粉丝: 706
- 资源: 7万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功