互联网已经成为最大的非结构化数据库, 极大方便了信息访问。然而, 网络上的信息大多都是无组织的, 由于网络的分布式特性, 很难对它进行信息和知识管理。因此, 如何建立一个智能的信息发现机制很有必要。本文在分析了爬虫工作原理和传统算法后, 提出了一种基于本体的网络爬虫的信息发现框架。该框架包含了预处理模块和本体管理模块, 定义了网页相关度计算策略, 最后通过实验对该框架进行了评估。
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~