国家图书馆WEB数据增量采集设计及其实现
本文主要讨论了国家图书馆WEB数据增量采集设计及其实现,旨在解决网络资源保存技术策略现状,并从国家图书馆网络资源采集的实际业务需求出发,制定并设计符合国家图书馆业务需求的增量采集技术策略。
一、网络资源保存技术策略
网络资源保存是指将互联网上的信息资源保存到一定的存储介质上,以便长期保存和利用。随着互联网信息的爆炸式增长,如何优化网络资源采集策略和采集技术以广泛和完整地保存互联网资源成为业界研究热点。
二、国家图书馆网络资源采集业务需求
国家图书馆最早于2003年开展网络信息资源采集与保存试验项目(Web Information Collection and Preservation,WICP),针对中国发生的具有较大影响力的重特大事件进行专题采集;同时,对在中国境内注册的政府网站(.gov.cn)进行定期镜像存档。多年来,国家图书馆在采集策略、采集方法、采集效率等方面不断寻求突破。
三、增量采集技术策略
基于Heritrix最新版本,进行程序定制开发,以增量方式采集网站,提高采集效率,灵活数据更新机制,较好地避免了周期性整站采集所产生的大规模网站采集效率低、大量网站重复数据保存以及存储空间利用浪费等问题。
四、国外网络资源保存现状分析
近年来,国外的Web Archives机构对互联网资源的保存展开了广泛的研究并积极开展多个项目,多个国家均开展了网络资源采集与保存相关工作,并从本国的实际出发,不断扩大保存范围、丰富保存资源类型、完善采集技术。
五、结论
国家图书馆WEB数据增量采集设计及其实现旨在解决网络资源保存技术策略现状,并从国家图书馆网络资源采集的实际业务需求出发,制定并设计符合国家图书馆业务需求的增量采集技术策略。该技术策略可以提高采集效率,灵活数据更新机制,避免了周期性整站采集所产生的大规模网站采集效率低、大量网站重复数据保存以及存储空间利用浪费等问题,为业界提供有益的参考和借鉴。
关键词:国家图书馆;增量采集;Heritrix