南开大学20秋《网络爬虫与信息提取》在线作业(参考答案).docx资源-CSDN文库

版权申诉

47 浏览量 2022-10-18 14:30:31 上传评论收藏 18KB DOCX 举报

南开大学20秋《网络爬虫与信息提取》在线作业(参考答案) 本资源总结了南开大学20秋《网络爬虫与信息提取》在线作业的知识点，涵盖了Scrapy、爬虫、信息提取、MongoDB、Redis、Python、 requests、xpath、Selenium等方面的知识。 1. Scrapyd是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。知识点：Scrapyd是Scrapy的部署工具，用于部署、运行和管理Scrapy爬虫。 2. 当爬虫创建好了之后，可以使用“scrapy crawl”命令运行爬虫。知识点：Scrapy爬虫的运行命令是“scrapy crawl”，用于启动爬虫的运行。 3. 在 Scrapy 的目录下，哪个文件负责存放爬虫的各种配置信息? 知识点：settings.py文件负责存放Scrapy爬虫的各种配置信息。 4. 使用 UI Automatorr 根据坐标来滑动桌面的操作是得到相应控件后使用命令swipe。知识点：UI Automatorr可以根据坐标来滑动桌面，使用命令swipe来实现滑动操作。 5. windows 中创建定时任务的命令为schtasks。知识点：windows中的定时任务命令是schtasks，用于创建和管理定时任务。 6. MongoDB 中数据存储的形式类似于字典。知识点：MongoDB中数据存储的形式是基于键值对的字典形式。 7. requests 中 post 请求方法的使用为 requests.post(‘网址’， data=data)中的 data 为字典。知识点：requests库的post方法使用字典作为数据参数，用于发送post请求。 8. Python 中把列表转换为集合需要使用set函数。知识点：Python中可以使用set函数将列表转换为集合。 9. 使用了 RedisSpider 作为爬虫的父类以后，爬虫会直接监控Redis中的数据，并不读取 start_urls 中的数据。知识点：RedisSpider是Scrapy爬虫的父类，用于监控Redis中的数据。 10. 在 Mac OS 下安装 MongoDB 使用命令brew install mongodb。知识点：Mac OS下安装MongoDB的命令是brew install mongodb。 11. 当需要把 Python 里面的数据发送给网页时，应先将其转换成Json字符串。知识点：Python中可以将数据转换为Json字符串，然后发送给网页。 12. 服务器端记录信息确定用户身份的数据是session。知识点：服务器端记录信息确定用户身份的数据是session。 13. 下列说法错误的是小程序的反爬虫能力比网页版的低很多。知识点：小程序的反爬虫能力并不一定低于网页版，爬虫开发时需要根据实际情况选择合适的爬虫方式。 14. Python 代码输出为第一步:[100]第二步:[100，50]。知识点：Python中的默认参数可以导致函数的输出结果不符合预期，需要注意默认参数的使用。 15. 在 Scrapy 的目录下，哪个文件负责存放爬虫文件? 知识点：spiders文件夹负责存放Scrapy爬虫文件。 16. xpath 中 extract 方法返回值类型是列表。知识点：xpath的extract方法返回值类型是列表，用于存放提取的数据。 17. 参数 headers=()，把请求头添加到 Scrapy 请求中，使爬虫的请求看起来像是从浏览器发起的。知识点：Scrapy中可以使用headers参数添加请求头，使爬虫的请求看起来像是从浏览器发起的。 18. Python 中 Object=(1，2，3，4，5)，则 Object 是元组。知识点：Python中的Object是一个元组，用于存放多个元素。 19. 在 Scrapy 的目录下，哪个文件负责定义需要爬取的数据? 知识点：item.py文件负责定义需要爬取的数据。 20. Scrapy 中使用 Xpath 获得的结果调用了.extract 方法，结果以列表形式生成。知识点：Scrapy中使用Xpath获得的结果调用了extract方法，结果以列表形式生成。 21. Python 中的容器有列表、元组、字典、集合。知识点：Python中有多种容器类型，包括列表、元组、字典、集合等。 22. 使用 Selennium 获取网页中元素的方法有find_element_by_name、find_element_by_id、find_elements_by_name、find_elements_by_id。知识点：Selenium提供了多种方法来获取网页中元素，包括find_element_by_name、find_element_by_id、find_elements_by_name、find_elements_by_id等。 23. 一个可行的自动更换代理的爬虫系统，应该具有多个功能。知识点：自动更换代理的爬虫系统需要具有多个功能，包括代理池管理、代理切换、爬虫监控等。

资源推荐

资源详情

资源评论