没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
基于扩展锚文本的网页特征识别
严海兵
!苏州科技学院 图书馆"江苏 苏州
215011
#
摘 要: 基于源网页的信息比目标网页的更具有区别性"提出通过提取源网页扩展的锚文本"进行目标网页特征识
别$ 分析了不同位置的扩展锚文本"获取其
XPath
表达式"用于提取网页特征"并通过实验分析其性能$
关键词: 网页特征%锚文本%
XPath
中图分类号:
TP391
文献标识码:
!
文章编号:
"#$%&’#($
!
)**9
&
*2+**51&*4
网页特征识别是研究
Internet
信息搜索和网页自动分类的关键环节$ 由于网页表示与普通文本有所不
同"因此"如何选择合适的特征对网页进行描述"成为网页识别中一个首要解决的问题$
通常网页可以从两个层面进行描述’(
1
&采用超文本语言)
HTML
&编写的*半结构的文本文件%!
2
&通过
超链!
Hyperlink
&连接起来的
Internet
中的一个节点$ 传统的网页特征识别研究着眼于!
1
&的描述"它仅凭借
网页自身的结构和内容进行分析"忽略了网页之间相互的链接信息$ 例如"孙承杰等学者把自然语言处理技
术运用到网页文档中" 利用网页中的
HTML
标记的结构和网页自身的内容统计信息
,
从网页正文内容中抽
取网页特征信息
[1]
$ 殷贤亮等学者提出利用
HTML
标记的结构对网页的内容信息进行分块"把网页块表示成
特征向量
"根据有序标记集识别网页特征信息
[2]
$
近年随着对
PageRank
*
HITS
等超链分析算法的深入研究"一些学者相继提出了基于超链分析的网页分
类方法"它认为网页的链接可以传递网页的信任值"而信任值的大小可以表示网页和链接源网页分类特征的
相似度$ 这一方法考虑网页!
2
&的描述"而忽视了链接结构信息和网页内容信息不能等同这一事实$ 例如"刘
菁菁等学者提出利用网页间相互链接关系"扩展链接"将链接源网页所含有的类别信息传播给目标网页
[3]
$
叶卫国等学者提出基于
Hyperlink
聚类的分类算法"不需要分析
Web
文档内容"只根据
Web
图来聚类
[4
"
5]
$ 上
述方法的不足之处在于多数网站的网页一方面与自己相关的网页链接"另一方面把与自己最相近的竞争对
手的网页排除在链接之外$
1
相关概念
在逻辑上"可以把
Internet
看作是位于物理网络上的一个有向图"网页表示节点"节点间的连接通过超
链构成$ 网页
A
指向网页
B
的链接称为
A
的链出链接!简称链接&"
B
的链入链接"称
A
为源网页"
B
为目标
网页$
与源网页链接相对应的描述文字称为锚文本!
anchor text
&"例如’在源网页中有+
<a href="http:∥library.
usts.edu.cn">
苏州科技学院图书馆
</a>
,这样的一条链接"其中+苏州科技学院图书馆,就是链接地址
http:∥
library.usts.edu.cn
的锚文本"链接地址所对应的网页为目标网页$ 作为链接的描述文字"锚文本一般不是由
目标网页作者编写的"通常是源网页作者对目标网页内容描述和评价$ 据统计有近
50%
的网页缺少对本身
网页内容和关键字描述最为权威的
<meta name="description"content="
内容描述
">
和
<meta name="keywords"
content="
关键字
1
"关键字
2
"-
">
标签"因此"在通常情况源网页的信息甚至比目标网页的更具有区别性"结
合链接锚文本和目标网页本身内容描述目标网页比其本身更加有力
[6]
$
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
,
收稿日期
- %**8+11+14
,
作者简介
-
严海兵)
./74+
&"男"安徽安庆人"工程师"硕士"研究方向’
XML
应用技术*知识发现/
第
%6
卷第
2
期 苏州科技学院学报(自 然 科 学 版)
0123%6 4132
)**9
年
6
月
5167892 1: ;6<=16 >8?@A7B?CD 1: ;E?A8EA 98F GAE=8121HD
(
49C6792 ;E?A8EA
)
Jun3 %**9
资源评论
weixin_41720277
- 粉丝: 0
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功