针对 HTML 语言的标记符号的语义特点,提出了正则表达式抽取网页信息的方法,并将该方法应用于抽取网页中的旅游突发事件信息。该方法不需要构建 DOM 树,利用正则表达式的匹配替换功能去掉网页源码中与正文无关的内容生成原始文档,根据原始文档中的正文内容密集出现的特点,寻找正文的起点和终点,从而提取正文。抽取旅游突发事件信息的试验结果表明,正则表达式能高效地抽取目标信息。
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~