《Pyth on 爬虫大数据采集与挖掘》期末考试考题汇总带答案
一、填空题
、爬虫技术的应用可以分为两大类:采集型爬虫、监测型爬虫。
、根据 页面组成结构中的信息内容的生成方式不同,可以将 页面分为静态页
面、动态页面、以及伪静态页面三大类。
、协议为了给 网站提供灵活的控制方式来决定页面是否能够被爬虫采集。
、在浏览器中打开网站后,在网站首页的地址后面添加“,如果网站设置了
访问许可,按回车就可以看到网站的 协议,即 文件内容。
、信息提取包含 页面中的超链接提取和 内容提取两大部分。
、页面它具有一定的结构,即由 标签构成的树型结构。
、目前有多种 解析器的开源框架如 等,大都集成了 !"树的
解析。
#、$状态码($%&)是用来表示网页服务器 $响应状态的 位
数字代码。 状态码包含了五种类别,即消息、成功、重定向、请求错误和服务器错误。
'、用于 ()&函数中的 * +,-./-01-'2-34表达式用于提取 * +开始的超链
接。
1、5标签为 时属性为 *。5标签为资源名称时,例如 65、&,属性为
7。
、互联网上的 页面可以抽象化为一张有向图。图的遍历就是用来解决节点的访问
顺序问题。图的遍历算法有两种,即深度优先算法 !8和宽度优先算法 8。
、宽度优先的策略使用队列作为存储结构。深度优先的策略,需要采用堆栈作为存储结
构。
、按照链接的形式不同,可以分为绝对链接、相对链接和书签。
、按照链接的路径指向不同,可以分为内部链接,锚点链接和外部链接。
、按照超链接指向的资源不同,分为 页面超链接、图片超链接、视频超链接等。
- 1
- 2
- 3
前往页