摩天大广告
一个框架,可帮助您构建整个网站的结构化转储。
概念
结构刮和刮树
想想。 它允许您解析任意HTML并从中提取各种信息:子树或由选择器确定的子树的一部分。 然后,您可以将该信息转换为其他格式,以方便机器使用,或以您希望的任何其他方式进行处理。 这称为刮擦。
现在想象一下,您必须解析许多HTML文档。 它们都来自同一站点,因此大多数结构都以相同的方式构建,并且可以使用相同的选择器集进行刮取。 但并非所有人。 有一个索引页面,它具有不同的布局,需要以其独特的方式进行分页和全部处理。 有些页面将类别中的各个页面组合在一起。 等等。 处理单个页面很容易,但是随着页面的整个集合,您很快就会发现自己编写了许多样板代码。
特别是,您意识到不能只用wget -r整个内容,然后依次解析每个页面。 相反,您想模拟试图“点击”网站以获得其感兴趣信息的用户的工作流程。网站具有树状结构,并且您希望在遍
评论0
最新资源