南开大学20秋《网络爬虫与信息提取》在线作业(参考答案).docx
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
南开大学20秋《网络爬虫与信息提取》在线作业(参考答案) 本资源总结了南开大学20秋《网络爬虫与信息提取》在线作业的知识点,涵盖了Scrapy、爬虫、信息提取、MongoDB、Redis、Python、 requests、xpath、Selenium等方面的知识。 1. Scrapyd是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具。 知识点:Scrapyd是Scrapy的部署工具,用于部署、运行和管理Scrapy爬虫。 2. 当爬虫创建好了之后,可以使用“scrapy crawl”命令运行爬虫。 知识点:Scrapy爬虫的运行命令是“scrapy crawl”,用于启动爬虫的运行。 3. 在 Scrapy 的目录下,哪个文件负责存放爬虫的各种配置信息? 知识点:settings.py文件负责存放Scrapy爬虫的各种配置信息。 4. 使用 UI Automatorr 根据坐标来滑动桌面的操作是得到相应控件后使用命令swipe。 知识点:UI Automatorr可以根据坐标来滑动桌面,使用命令swipe来实现滑动操作。 5. windows 中创建定时任务的命令为schtasks。 知识点:windows中的定时任务命令是schtasks,用于创建和管理定时任务。 6. MongoDB 中数据存储的形式类似于字典。 知识点:MongoDB中数据存储的形式是基于键值对的字典形式。 7. requests 中 post 请求方法的使用为 requests.post(‘网址’, data=data)中的 data 为字典。 知识点:requests库的post方法使用字典作为数据参数,用于发送post请求。 8. Python 中把列表转换为集合需要使用set函数。 知识点:Python中可以使用set函数将列表转换为集合。 9. 使用了 RedisSpider 作为爬虫的父类以后,爬虫会直接监控Redis中的数据,并不读取 start_urls 中的数据。 知识点:RedisSpider是Scrapy爬虫的父类,用于监控Redis中的数据。 10. 在 Mac OS 下安装 MongoDB 使用命令brew install mongodb。 知识点:Mac OS下安装MongoDB的命令是brew install mongodb。 11. 当需要把 Python 里面的数据发送给网页时,应先将其转换成Json字符串。 知识点:Python中可以将数据转换为Json字符串,然后发送给网页。 12. 服务器端记录信息确定用户身份的数据是session。 知识点:服务器端记录信息确定用户身份的数据是session。 13. 下列说法错误的是小程序的反爬虫能力比网页版的低很多。 知识点:小程序的反爬虫能力并不一定低于网页版,爬虫开发时需要根据实际情况选择合适的爬虫方式。 14. Python 代码输出为第一步:[100]第二步:[100,50]。 知识点:Python中的默认参数可以导致函数的输出结果不符合预期,需要注意默认参数的使用。 15. 在 Scrapy 的目录下,哪个文件负责存放爬虫文件? 知识点:spiders文件夹负责存放Scrapy爬虫文件。 16. xpath 中 extract 方法返回值类型是列表。 知识点:xpath的extract方法返回值类型是列表,用于存放提取的数据。 17. 参数 headers=(),把请求头添加到 Scrapy 请求中,使爬虫的请求看起来像是从浏览器发起的。 知识点:Scrapy中可以使用headers参数添加请求头,使爬虫的请求看起来像是从浏览器发起的。 18. Python 中 Object=(1,2,3,4,5),则 Object 是元组。 知识点:Python中的Object是一个元组,用于存放多个元素。 19. 在 Scrapy 的目录下,哪个文件负责定义需要爬取的数据? 知识点:item.py文件负责定义需要爬取的数据。 20. Scrapy 中使用 Xpath 获得的结果调用了.extract 方法,结果以列表形式生成。 知识点:Scrapy中使用Xpath获得的结果调用了extract方法,结果以列表形式生成。 21. Python 中的容器有列表、元组、字典、集合。 知识点:Python中有多种容器类型,包括列表、元组、字典、集合等。 22. 使用 Selennium 获取网页中元素的方法有find_element_by_name、find_element_by_id、find_elements_by_name、find_elements_by_id。 知识点:Selenium提供了多种方法来获取网页中元素,包括find_element_by_name、find_element_by_id、find_elements_by_name、find_elements_by_id等。 23. 一个可行的自动更换代理的爬虫系统,应该具有多个功能。 知识点:自动更换代理的爬虫系统需要具有多个功能,包括代理池管理、代理切换、爬虫监控等。
剩余11页未读,继续阅读
- 粉丝: 1w+
- 资源: 5万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助