《Python爬虫大数据采集与挖掘》期末考试考题汇总带答案.doc_爬虫期末考试试卷,python爬虫大数据采集与挖掘期末资源-CSDN文库

版权申诉

5星 · 超过95%的资源 191 浏览量 2021-11-25 11:37:25 上传评论 2 收藏 134KB DOC 举报

资源推荐

资源详情

资源评论

第 1 页共 10 页

《Pyth on 爬虫大数据采集与挖掘》期末考试考题汇总带答案

一、填空题

、爬虫技术的应用可以分为两大类：采集型爬虫、监测型爬虫。

、根据 页面组成结构中的信息内容的生成方式不同，可以将 页面分为静态页

面、动态页面、以及伪静态页面三大类。

、协议为了给 网站提供灵活的控制方式来决定页面是否能够被爬虫采集。

、在浏览器中打开网站后，在网站首页的地址后面添加“，如果网站设置了

访问许可，按回车就可以看到网站的 协议，即 文件内容。

、信息提取包含 页面中的超链接提取和 内容提取两大部分。

、页面它具有一定的结构，即由 标签构成的树型结构。

、目前有多种 解析器的开源框架如  等，大都集成了 !"树的

解析。

#、$状态码（$%&）是用来表示网页服务器 $响应状态的 位

数字代码。状态码包含了五种类别，即消息、成功、重定向、请求错误和服务器错误。

'、用于 ()&函数中的 * +,-./-01-'2-34表达式用于提取 * +开始的超链

接。

1、5标签为 时属性为 *。5标签为资源名称时，例如 65、&，属性为

7。

、互联网上的 页面可以抽象化为一张有向图。图的遍历就是用来解决节点的访问

顺序问题。图的遍历算法有两种，即深度优先算法 !8和宽度优先算法 8。

、宽度优先的策略使用队列作为存储结构。深度优先的策略，需要采用堆栈作为存储结

构。

、按照链接的形式不同，可以分为绝对链接、相对链接和书签。

、按照链接的路径指向不同，可以分为内部链接，锚点链接和外部链接。

、按照超链接指向的资源不同，分为 页面超链接、图片超链接、视频超链接等。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余9页未读，立即下载

内容反馈

版权申诉

weixin_58733287

2022-12-02

资源有很好的参考价值，总算找到了自己需要的资源啦。
weixin_47079130

2023-01-06

资源是宝藏资源，实用也是真的实用，感谢大佬分享~
weixin_43279354

2022-12-15

资源内容详实，描述详尽，解决了我的问题，受益匪浅，学到了。
qq_42006915

2022-10-23

感谢资源主的分享，这个资源对我来说很有用，内容描述详尽，值得借鉴。
qq_30991935

2022-08-12

这个资源值得下载，资源内容详细全面，与描述一致，受益匪浅。

前往

页

我慢慢地也过来了

粉丝: 5806
资源: 3719

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip