针对Web同一对象内部信息组件之间的空间距离小于不同对象之间信息组件之间的距离这一显示特征。提出一种新的Web对象抽取方法。通过分析给定页面中不同实体间的空间位置关系来判断哪些信息成分属于同一对象,与Web文档的表示无关。通过Web页的文档对象模型(DOM)获得不同信息成分之间的位置关系,进而判断这些信息组件是否属于同一对象。实验结果表明,该方法对于多个领域中不同结构的Web文档具有很好的适应性。对于设计结构规则,含有多个数据对象的页面,抽取结果的准确率可以达到100%。
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~