摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇
基
于视觉的网页重要变化检测方法
史存会
1,2
摇 摇 俞晓明
1
摇 摇 刘摇 悦
1
摇 摇 靳小龙
1,2
摇 摇 程学旗
1,2
摘摇 要摇 检测网页重要变化,判断页面核心内容是否发生变化,可有效降低数据采集中重复索引的数量,因此,文
中提出基于视觉的网页重要变化检测方法,用于检测页面不同语义区域的变化,可将页面压缩表示为一个低维向
量. 从用户视觉的角度,理解页面不同区块语义重要度的差异. 相比现有方法,文中方法独立于基于 HTML 类基础
文档的分析方法,在新媒体,如移动互联网上,也有一定的适用性. 实验也验证文中方法的有效性.
关键词摇 Web 内容, 变化检测, 视觉特征, 低维向量
引用格式摇 史存会,俞晓明,刘 悦,靳小龙,程学旗. 基于视觉的网页重要变化检测方法. 模式识别与人工智能,
2020, 33(11): 1004-1012.
DOI摇 10. 16451 / j. cnki. issn1003鄄6059. 202011005摇 摇 摇 摇 摇 摇 中图法分类号摇 TP 391
Vision Based Important Change Detection Method for Web Pages
SHI Cunhui
1,2
, YU Xiaoming
1
, LIU Yue
1
, JIN Xiaolong
1,2
, CHENG Xueqi
1,2
ABSTRACT摇 Duplicate Web indexes of Web crawling can be reduced effectively by detecting important
changes and determining changes of essential content in Web pages. Therefore, a vision based detection
method is proposed to detect changes in different semantic regions of the page and compress the page into
a low dimensional vector representation. The proposed method is utilized to understand the difference of
semantic importance in different regions from the perspective of users. Compared with the existing
methods, the proposed method is independent of the analysis of HTML, and thus it is suitable for new
media, such as mobile Internet. Experiments show the effectiveness of the proposed method.
Key Words摇 Web Content, Change Detection, Visual Feature, Low Dimensional Vector
Citation摇 SHI C H, YU X M, LIU Y, JIN X L, CHENG X Q. Vision Based Important Change Detec鄄
tion Method for Web Pages. Pattern Recognition and Artificial Intelligence, 2020, 33(11): 1004-
1012.
收稿日期:2020-08-12;录用日期:2020-09-22
Manuscript received August 12, 2020;
accepted September 22, 2020
国家重点研究计划项目(No. 2017YFC0820404)、国家杰出青
年科学基金项目(No. 61425016)、国家自然科学基金重大研
究计划项目(No. 91746301)资助
Supported by National Key Research and Development Program
of China(No. 2017YFC0820404), National Science Foundation
for Distinguished Young Scholars of China(No. 61425016), Ma鄄
jor Program of National Natural Science Foundation of China
(No. 91746301)
本文责任编委 马少平
Recommended by Associate Editor MA Shaoping
1. 中国科学院计算技术研究所 网络数据科学与技术重点实
验室摇 北京 100190
2. 中国科学院大学 计算机科学与技术学院摇 北京 100049
摇 摇 检测网页变化对于理解互联网的演化十分重
要. 许多互联网应用,如搜索引擎、内容变化与通知
系统、互联网归档系统等,都是基于对页面变化的判
断,估计页面的变化频率,优化网络爬虫的调度策
略. 然而,随着互联网的发展,Web 页面包含的信息
日益丰富,形式也日益多样化,当前的变化检测考虑
页面的变化,并未区分变化的类型,这些变化中常包
含大量的广告等信息的变化会导致爬虫浪费时间和
空间去下载一些不重要的更新页面,如不断变化的
广告.
1. Key Laboratory of Network Data Science and Technology, In鄄
stitute of Computing Technology, Chinese Academy of Sci鄄
ences, Beijing 100190
2. School of Computer Science and Technology, University of
Chinese Academy of Sciences, Beijing 100049
第 33 卷摇 第 11 期 模式识别与人工智能 Vol. 33摇 No. 11
2020 年 11 月 Pattern Recognition and Artificial Intelligence Nov. 摇 2020
摇 摇 摇 摇 摇
摇 摇 摇 摇 摇
摇 摇 摇 摇
摇 摇 摇 摇 摇
摇 摇 摇 摇 摇
摇 摇 摇 摇 摇
摇 摇 摇 摇 摇
摇
评论0
最新资源