基于语义结构的信息抽取系统的研究与实现资源-CSDN文库

基于语义

信息抽取

需积分: 9 139 浏览量 2009-05-09 17:04:38 上传评论收藏 2.91MB PDF 举报

资源推荐

资源详情

资源评论

中文摘要

　　　　互联网资源含有大量的有用信息，且其信息数量仍在以指数形式飞速增长，

这为用户提供了一个极具价值的信息源．但是因为互联网信息的海量性、异构性、

易变性、非语义性等特点，人们要快速准确在海量网页中得到所需的信息并不容

易，迫切需要一些自动化工具帮助用户有效获取互联网上信息。

　　　　本文提出了一种新型的基于网站语义结构的信息自动抽取机制，意在从网站

逻辑结构所体现的网站本身语义入手进行网页信息抽取，以使得计算机在一定程

度上理解信息的含义，达到使信息抽取更为有效的目的。

　　　　本文构建了一个基于网站语义结构的信息抽取系统，系统由三个主要部分组

成：网站网页搜索器，网站语义结构生成器，网页信息抽取器。由网站网页搜索

器对目标网站进行搜索，提供网站的链接关系以生成网站有向图，提供采集回的

页面以进行信息提取；由网站语义结构生成器在网站管理者对网页内容的理解所

进行分类的基础上，将网站有向图（网站的物理结构）转换为网站的语义结构，

即得到一个按照网站语义分类得到的分类关系结构图；由网页信息抽取器在得到

的分类关系的基础上对网页进行信息抽取，进而抽取出相关信息。

　　　　本文实现了网站Ｓｐｉｄｅｒ，可对网站遍历采集，生成网站有向图，对网站Ｓｐｉｄｅｒ

实现的一些关键问题进行了详细阐述：提出了基于网站语义的网页分类，并在网

站有向图的基础上依据网站网页语义分类进一步生成可以反映网站语义的网站语

义结构；然后在得到的网站语义结构的基础上进行信息抽取，提出了一个融入网

页上视觉信息的、基于同类页面匹配的抽取网页信息的算法。

关键词：ｗｅｂ信息抽取；网页分类；标记树；网页去噪；Ｓｐｉｄｅｒ

分类号：ＴＰ３９１

ＡＢＳＴＲＡＣＴ

　　　　Ｔｈｅ　Ｉｎｔｅｒｎｅｔ　ｉｓ　ａｎ　ｅｘｔｒｅｍｅｌｙ　ｌａｒｇｅ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｐｏｓｉｔｏｒｙ　ｗｉｔｈ　ｉｔｓ　ｄａｔａ　ａｍｏｕｎｔ

ｅｖｅｒ－ｉｎｃｒｅａｓｉｎｇ　ｉｎ　ａｎ　ｅｘｐｏｎｅｎｔｉａｌ　ｒａｔｅ．　Ｔｈｉｓ　ｐｒｏｖｉｄｅｓ　ｕｓｅｒｓ　ｗｉｔｈ　ａ　ｖａｌｕａｂｌｅ　ｒｅｓｏｕｒｃｅ　ｏｆ

ｉｎｆｏｒｍａｔｉｏｎ．　Ｈｏｗｅｖｅｒ，　ｔｈｅ　ｉｎｆｏｒｍａｔｉｏｎ　ｉｎ　ｔｈｅ　Ｉｎｔｅｒｎｅｔ　ｉｓ　ｍａｓｓｉｖｅ，　ｈｅｔｅｒｏｇｅｎｅｏｕｓ，

ｖａｒｉａｂｌｅ　ａｎｄ　ｎｏｎ－ｓｅｍａｎｔｉｃ，　ｗｈｉｃｈ　ｍａｋｅｓ　ｉｔ　ｄｉｆｆｉｃｕｌｔ　ｔｏ　ｒｅｔｒｉｅｖｅ　ｒｅｌｅｖａｎｔ　ｄａｔａ　ｑｕｉｃｋｌｙ　ａｎｄ

ａｃｃｕｒａｔｅｌｙ　ｆｒｏｍ　ｔｈｅ　ｔｒｅｍｅｎｄｏｕｓ　ａｍｏｕｎｔ　ｏｆ　ｗｅｂ　ｐａｇｅｓ．　Ｔｈｅｒｅｆｏｒｅ，　ｔｈｅ　ａｖａｉｌａｂｉｌｉｔｙ　ｏｆ

ｒｏｂｕｓｔ，　ｆｌｅｘｉｂｌｅ　ａｎｄ　ａｕｔｏｍａｔｉｃ　ｔｏｏｌｓ　ｔｈａｔ　ｃａｎ　ｈｅｌｐ　ｕｓｅｒｓ　ｅｆｆｅｃｔｉｖｅｌｙ　ｒｅｔｒｉｅｖｅ　ｉｎｆｏｒｍａｔｉｏｎ

ｆｒｏｍ　ｔｈｅ　Ｉｎｔｅｒｎｅｔ　ｈａｓ　ｂｅｃｏｍｅ　ａ　ｇｒｅａｔ　ｎｅｃｅｓｓｉｔｙ．

　　　　Ｔｈｉｓ　ｔｈｅｓｉｓ　ｐｒｅｓｅｎｔｓ　ａ　ｎｏｖｅｌ　ｗｅｂ　ｉｎｆｏｒｍａｔｉｏｎ　ａｕｔｏｍａｔｉｃ　ｅｘｔｒａｃｔｉｎｇ　ｍｅｃｈａｎｉｓｍ

ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｗｅｂｓｉｔｅ　ｓｅｍａｎｔｉｃ　ｓｔｒｕｃｔｕｒｅ，　ｗｈｉｃｈ　ｔｒｙｉｎｇ　ｔｏ　ｅｘｔｒａｃｔ　ｉｎｆｏｒｍａｔｉｏｎ　ｕｓｉｎｇ　ｔｈｅ

ｓｅｍａｎｔｉｃａｌｌｙ－ｍｅａｎｉｎｇｆｕｌ　ｌｏｇｉｃａｌ　ｖｉｅｗ　ｏｆ　ｔｈｅ　ｗｅｂｓｉｔｅ，　ｓｏ　ｔｈｅ　ｃｏｍｐｕｔｅｒ　ｃａｎ　ｂｅ　ｍａｄｅ　ｔｏ

ｕｎｄｅｒｓｔａｎｄ　ｔｈｅ　ｍｅａｎｉｎｇ　ｏｆ　ｉｎｆｏｒｍａｔｉｏｎ　ｔｏ　ａ　ｃｅｒｔａｉｎ　ｅｘｔｅｎｔ，　ａｔｔａｉｎｉｎｇ　ｔｈｅ　ｇｏａｌ　ｏｆ　ｍａｋｉｎｇ

ｔｈｅ　ｐｒｏｃｅｓｓ　ｏｆ　ｉｎｆｏｒｍａｔｉｏｎ　ｅｘｔｒａｃｔｉｏｎ　ｍｏｒｅ　ｅｆｆｉｃｉｅｎｔ．

　　　　Ｔｈｉｓ　ｔｈｅｓｉｓ　ｄｅｓｉｇｎｓ　ａ　ｗｅｂ　ｉｎｆｏｒｍａｔｉｏｎ　ｅｘｔｒａｃｔｉｏｎ　ｓｙｓｔｅｍ　ｗｈｉｃｈ　ｂａｓｅｄ　ｏｎ　ｓｅｍａｎｔｉｃ

ｓｔｒｕｃｔｕｒｅ　ｏｆ　ｔｈｅ　ｗｅｂｓｉｔｅ．　Ｔｈｅ　ｓｙｓｔｅｍ　ｃｏｎｓｉｓｔｓ　ｏｆ　ｔｈｒｅｅ　ｍａｉｎ　ｃｏｍｐｏｎｅｎｔｓ：　ｗｅｂｓｉｔｅ　ｓｐｉｄｅｒ，

ｗｅｂｓｉｔｅ　ｓｅｍａｎｔｉｃ　ｓｔｒｕｃｔｕｒｅ　ｇｅｎｅｒａｔｏｒ，　ｗｅｂ　ｉｎｆｏｒｍａｔｉｏｎ　ｅｘｔｒａｃｔｏｒ．　Ｔｈｅ　ｔａｓｋ　ｏｆ　ｗｅｂｓｉｔｅ

ｓｐｉｄｅｒ　ｉｓ　ｔｏ　ｓｅａｒｃｈ　ｔｈｅ　ｔａｒｇｅｔ　ｗｅｂｓｉｔｅ，　ｐｒｏｖｉｄｅ　ｒｅｌａｔｉｏｎｓ　ｏｆ　ｌｉｎｋｓ　ｔｏ　ｇｅｎｅｒａｔｅ　ｔｈｅ　ｗｅｂｓｉｔｅ

ｄｉｒｅｃｔ　ｇｒａｐｈ，　ｄｏｗｎｌｏａｄ　ｐａｇｅｓ　ｔｏ　ｅｘｔｒａｃｔ　ｒｅｌｅｖａｎｔ　ｉｎｆｏｒｍａｔｉｏｎ．　Ｔｈｅ　ｔａｓｋ　ｏｆ　ｗｅｂｓｉｔｅ

ｓｅｍａｎｔｉｃ　ｓｔｒｕｃｔｕｒｅ　ｇｅｎｅｒａｔｏｒ　ｉｓ　ｔｏ　ｔｒａｎｓｌａｔｅ　ｔｈｅ　ｗｅｂｓｉｔｅ　ｄｉｒｅｃｔ　ｇｒａｐｈ　（ｔｈｅ　ｐｈｙｓｉｃａｌ

ｓｔｒｕｃｔｕｒｅ　ｏｆ　ｔｈｅ　ｗｅｂｓｉ哟ｔｏ　ｔｈｅ　ｗｅｂｓｉｔｅ　ｓｅｍａｎｔｉｃ　ｓｔｒｕｃｔｕｒｅ　ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｗｅｂ　ｐａｇｅ

ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｗｈｉｃｈ　ｈａｓ　ｂｅｅｎ　ｄｏｎｅ　ｂｙ　ｗｅｂｓｉｔｅ　ｄｅｓｉｇｎｅｒ　ａｃｃｏｒｄｉｎｇ　ｔｏ　ｈｉｓ　ｕｎｄｅｒｓｔａｎｄｉｎｇ

ｏｆ　ｔｈｅ　ｃｏｎｔｅｎｔ　ｏｆ　ｗｅｂ　ｐａｇｅｓ，　ｎａｍｅｌｙ　ｔｏ　ｐｒｏｄｕｃｅ　ａ　ｃａｔｅｇｏｒｙ　ｒｅｌａｔｉｏｎｓｈｉｐ　ｃｈａｒｔ　ｉｎ

ａｃｃｏｒｄａｎｃｅ　ｗｉｔｈ　ｔｈｅ　ｓｅｍａｎｔｉｃ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｏｆ　ｔｈｅ　ｗｅｂｓｉｔｅ．　Ｔｈｅ　ｔａｓｋ　ｏｆ　ｗｅｂ　ｉｎｆｏｒｍａｔｉｏｎ

ｅｘｔｒａｃｔｏｒ　ｉｓ　ｔｏ　ｅｘｔｒａｃｔ　ｒｅｌｅｖａｎｔ　ｉｎｆｏｒｍａｔｉｏｎ　ｂａｓｅｄ　ｏｎ　ｔｈｉｓ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ．

　　　　Ａ　ｗｅｂｓｉｔｅ　ｓｐｉｄｅｒ　ｗａｓ　ｉｍｐｌｅｍｅｎｔｅｄ　ｉｎ　ｔｈｅ　ｔｈｅｓｉｓ．　Ｔｈｅ　ｗｅｂｓｉｔｅ　ｓｐｉｄｅｒ　ｃａｎ　ｔｒａｖｅｒｓｅ

ｗｅｂｓｉｔｅｓ，　ｄｏｗｎｌｏａｄ　ｗｅｂ　ｐａｇｅｓ　ａｎｄ　ｇｅｎｅｒａｔｅ　ｗｅｂｓｉｔｅ　ｄｉｒｅｃｔ　ｇｒａｐｈｓ．　Ｓｅｖｅｒａｌ　ｋｅｙ　ｉｓｓｕｅｓ

ａｂｏｕｔ　ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ａｒｅ　ｄｅｍｏｎｓｔｒａｔｅｄ　ｉｎ　ｄｅｔａｉｌｓ．　Ｔｈｅ　ｔｈｅｓｉｓ　ａｌｓｏ　ｐｒｏｐｏｓｅｓ　ａ　ｗｅｂ　ｐａｇｅ

ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｓｅｍａｎｔｉｃ　ｍｅａｎｉｎｇ　ｏｆ　ｔｈｅ　ｗｅｂｓｉｔｅ．　Ｗｈｅｎ　ｔｈｅ　ｗｅｂｓｉｔｅ　ｄｉｒｅｃｔ

ｇｒａｐｈ　ｈａｓ　ｂｅｅｎ　ｃｏｎｓｔｒｕｃｔｅｄ，　ａ　ｔｏｐｏｌｏｇｙ　ｓｔｒｕｃｔｕｒｅ　ｗｈｉｃｈ　ｒｅｆｌｅｃｔｓ　ｔｈｅ　ｗｅｂｓｉｔｅ　ｓｅｍａｎｔｉｃ

ｍｅａｎｉｎｇ　ｗｉｌｌ　ｂｅ　ｇｅｎｅｒａｔｅｄ　ｂａｓｅｄ　ｏｎ　ｗｅｂ　ｐａｇｅ　ｓｅｍａｎｔｉｃ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ａｎｄ　ｗｅｂｓｉｔｅ　ｄｉｒｅｃｔ

ｇｒａｐｈ．　Ｗｈｅｎ　ｔｈｅ　ｓｅｍａｎｔｉｃ　ｓｔｒｕｃｔｕｒｅ　ｏｆ　ｔｈｅ　ｗｅｂｓｉｔｅ　ｈａｓ　ｂｅｅｎ　ｃｏｎｓｔｒｕｃｔ喊ｗｅｂ

ｉｎｆｏｒｍａｔｉｏｎ　ｅｘｔｒａｃｔｉｏｎ　ｃａｎ　ｂｅ　ｄｏｎｅ　ｂａｓｅｄ　ｏｎ　ｔｈｉｓ　ｓｔｒｕｃｔｕｒｅ．　Ｔｈｅ　ｔｈｅｓｉｓ　ｐｒｅｓｅｎｔｓ　ａ　ｗｅｂ

ｌＶ

󰀥



󰷅󰷅󰷅󰷅󰇈󰂘󰁖󰁖󰁉󰂾󰅘󰃚

󰂾󰁼󰇒

󰇒󰇵󰄔󰁖

󰄔󰆺󰂾󰅰

󰁖

󰷅󰷅󰷅󰷅󰅡󰂦󰁖󰄀

󰂾󰃚󰄇󰂦󰃚󰇬

󰄀󰇚󰁸󰇚󰂠

󰂾󰄤󰅰󰆺󰄔

󰁱

󰷅󰷅󰷅󰷅󰀔󰇈󰂘󰁖󰁖󰆺

󰁠󰅣󰇈󰂘



󰷅󰷅󰷅󰷅󰂾

󰅰󰂾󰁖

󰁖󰁖

󰁖

󰷅󰷅󰷅󰷅󰁵󰀍󰂾󰆗

󰙮󰙮󰁠󰇒

󰁵󰀍󰀬󰁉󰅑󰁉 



󰷅󰷅󰷅󰷅󰀔󰁵󰀍󰁖

󰅣󰄑󰁖󰇒󰆚󰂾󰂘󰅰

󰆺󰄔󰄨󰄿

󰷅󰷅󰷅󰷅󰀥󰀥

󰀊󰆗󰇡

󰷅󰷅󰷅󰷅 󰁉󰅛󰇔󰇔󰇧󰄔󰂾

󰁉󰁉󰅲󰄨󰄿

剩余71页未读，继续阅读

评论收藏

内容反馈

hutaoer06051

粉丝: 24
资源: 11

基于语义结构的信息抽取系统的研究与实现

基于语义网的信息检索系统研究

基于语义和句法依存特征的评论对象抽取研究

半结构化文档中语义信息抽取方法的研究.kdh 论文

基于语义和规则的Web网页细粒度信息抽取方法

基于HTMLParser的Web信息抽取系统的设计与实现

论文研究-基于HMM的文本信息的结构抽取 .pdf

基于主动学习的关系抽取题目方法研究.zip

基于语义的通用数据抽取方法 (2010年)

论文研究-基于树核的中英文语义关系抽取比较 .pdf

基于语义的林产品贸易Web信息抽取算法 (2014年)

基于语义分类的比较句识别与比较要素抽取研究

DeepWeb信息抽取系统的研究与实现

基于语义模板的问答系统研究

开放式Web信息抽取系统研究与实现

语义相似度的计算方法研究与分析.pdf

论文研究-基于答案模式和语义特征融合的答案抽取方法.pdf

论文研究-基于语义层行为结构的变换对形式化格局识别技术的再探究.pdf

从零开始的知识图谱生活，构建一个百科知识图谱，完成基于Deepdive的知识抽取、基于ES的简单语义搜索、基于 REfO 的简单

基于规则推理引擎的实体关系抽取研究_薛丽娟.pdf

基于XML的Web信息抽取研究与实现

用语义包装器实现基于语义的信息集成.pdf

基于多粒度和语义信息的中文关系抽取

基于WEB的快速信息抽取技术的研究和实现

基于网络知识百科的情感语义抽取研究

论文研究-基于维基百科的语义知识库及其构建方法研究.pdf

基于合一句法和实体语义树的中文语义关系抽取

具有丰富语法和语义信息的基于树核的语义关系提取

基于语义的林产品贸易文本信息结构化研究 (2011年)

人工智能大作业_基于同义词林的语义相似度计算

最新资源