南开大学复习资料-网络爬虫与信息提取0001.docx资源-CSDN文库

9 浏览量 2022-12-17 21:26:57 上传评论收藏 87KB DOCX 举报

《网络爬虫与信息提取》课程是一门涵盖了网络数据抓取和处理的学科，主要针对计算机科学和技术领域的学生。这门课程的复习资料涉及到的知识点广泛，包括编程基础、网络爬虫原理、数据处理和Python语言特性等多个方面。 1. **Python编程基础** - 判断题中提到了Python中的浮点数计算、列表和元组的操作以及字符串切片等基本概念。 - Python中浮点数计算可能存在精度问题，如0.1+0.2不等于0.3。 - 列表是可变数据类型，可以添加和删除数据，而元组是不可变的，一旦创建，其内容无法更改。 - 字符串是不可变数据类型，切片后仍为字符串。 - 条件语句的逻辑运算符`and`和`or`的理解，`and`需要所有条件都为真，`or`只需一个为真即可。 2. **Python函数与返回值** - 函数可以返回多个值，使用逗号分隔即可。 - `findall`和`search`是正则表达式中的方法，`search`找到第一个匹配项，效率较高。 3. **文件操作** - 使用`with`语句打开文件，会自动进行关闭操作，确保资源释放。 - 写入CSV文件时，`writerow`接收一个列表，而`writerows`接收一个包含列表的列表。 4. **Python数据结构** - 列表用`append`方法在末尾添加元素，而非`add`、`plus`或`+`。 - `Object={'obj_1':'1', 'obj_2':'2'}`是字典，`Object={1, 2, 3, 4, 5}`是集合。 - 集合中的元素是唯一的，不重复。 - 字典可以通过键`key`获取值，使用`get`方法避免 KeyError，或者直接用索引`[]`。 5. **循环与控制流** - `range()`函数的使用，`range(10)`会执行10次循环。 - `while`循环中，`i<10`且每次循环`i`加1，同样执行10次。 6. **网络爬虫基础知识** - 通用搜索引擎主要基于关键字搜索，可能不支持复杂的语义查询。 - 网络爬虫的目标通常是提高网络覆盖率，但服务器资源与网络数据资源需合理匹配。 - 通用网络爬虫通常采用并行抓取以提高效率，而不是串行工作。这些复习资料涵盖了Python编程、数据结构、文件操作以及网络爬虫的基础知识，是学习网络爬虫与信息提取课程的重要参考资料。掌握这些内容有助于理解网络数据的获取和处理过程，为进一步学习高级爬虫技术打下坚实基础。

资源推荐

资源详情

资源评论

《网络爬虫与信息提取》课程期末复习资料

一、客观部分：（单项选择、多项选择、不定项选择、判断）

（一）、判断部分1、通用搜索引擎大多提供基于关键字的检索，难以支持根据语

义信息提出的查询。答案：正确2、通用搜索引擎的目标是尽可能大的网络覆盖率

，搜索引擎服务器资源与网络数据资源互相匹配答案：错误3、通用网络爬虫通常

采用串行工作方式答案：错误4、Python中直接对浮点数进行计算有print （0.

1+0. 2）,则结果为0. 35、答案：错误5> Python中列表生成以后还可以往里面继续添

加数据，也可以从里面删除数据；答案：正确6、Python中元组生成以后还可以往里

面继续添加数据，也可以从里面删除数据; 答案：错误7、如果元组里面只有整数、

浮点数、字符串、一个列表，就既不能添加数据，也不能删除数据，还不能修改里

面数据的值。答案：错误8> Python中字符串切片以后的结果还是字符串答案：正确9

、Python中条件语句在使用and连接的多个表达式中，只要有一个表达式不为真，那

么后面的表达式就不会执行。答案：正确10、Python中条件语句在使用or连接的多个

表达式中，只要有一个表达式为真，那么后面的表达式就不会执行。答案：正确11

、Python中函数返回值的个数可以是多个答案：正确12、Python中相比于findall方法

，search方法对于从超级大的文本里面只找第1个数据特别有用，可以大大提高程序

的运行效率。答案：正确13、Python中使用下面代码打开文件也需要对文件进行close

关闭操作with open（*文件路径','文件操作方式'，encoding」utf-8'） as f答案

：错误14、Python中写CSV文件的writerows方法参数为字典类型答案：错误15、Python

中写CSV文件的writerow方法参数为包含字典的列表类型12 B. 123 C. 23 D. 23411、

Python 中若定义 object=[1, 2, 3, 4, 5],则 print (object [:3])输出(B)12 B.

123 C. 23 D. 23412> Python 中若定义 object=(l, 2, 3, 4, 5),则 print

(object [:3])输出(C)345 B. 34 C. 45 D. 12313、Python 中若定义 object="

12345”,则 print (object [: ：-l])输出(C)A. 1 B. 5 C. 54321 D.程序报错14、

Python中列表可以用(B)方法在末尾添加元素A. add B. append C. plus D. +

15、Python 中 Object={' obj_T :' 1',' obj_2

:' 2'},则 Object 是(C)A.列表 B.元组 C.

字典 D.集合16、Python 中 Object={l, 2, 3, 4, 5},则 Objcet 是(D)A.列表 B.元组 C.字典

D.集合17、Python中以下哪个容器里的元素不能重复(D)A.列表 B.元组 C.字典D.集合18、

Python 中 Object={' obj_l' :' 1',' obj_2' :' 2'},则 Objcet. get (' boj_l',' 3') 是

(A)A. 1 B. 2 C. 3 D.无输出19^Python 中 Object=(

，

obj_T :' 1',' obj_2

:' 2'},则

Objcet. get

boj_3',' 3') 是(OA. 1 B. 2 C. 3 D.无输出20、Python中把列表转换为集

合需要使用㈱函数AA. set B. list C. convert D. change2k Python中把集合转换为列表

需要使用㈱函数BA. set B. list C. convert D. change22、执行下面代码，结果为(B)：

name_list =[]if name_l ist and name_l ist [100]='张三'：

printC OK')A.程序报错B. OK C. NULL D.无输出23、Python中通过Key来从字典object中

读取对应的Value的方法有(AB)A. object [key] B. object, get (key) C. object, pop

(key)D. object. pop()24、下面代码一共执行循环多少次(B)：

for i in range(10):

print(i ** i)A. 9 B. 10 C. ll#025、下面代码一共执行循环多少次(B)：

i=0while i<10:

i+=lA. 9 B. 10 C. ll#026、Python中跳过本次循环应用关键字(B)A. break B.

continue C. exit D. return27、Python中退出循环应用关键字(A)A. break B. continue C.

exit D. return28、Python中定义函数关键字为(A)A. def B. define C. func D.

function29、Python中一个函数可以有(ABCD)个return语句A. 0 B. 1 C.多个 D. 230、

Python中一个函数没有返回值则可以写(ABC)A.没有 return B. return C. return None D.

return NULL31、下面Python代码输出为(A)：

def defau1t_para_trap(para=[], value=0):

para, append(value)

return parapri nt ('第一步：｛｝'. format (defaul t_ para_trap (value=100)))print

第二步:(｝

，

. format (default para trap(value=50)))第一步:[100]第二步:[100, 50]

第一步:[100]第二步：[50]第一步:[100]第二步：[]第一步:[100]第二步:[100]32、下面

Python代码输出为(B)：

def dcfault_para_without_trap(para=[], valuc=0):

if not para:

para =[]

para, append(value)

return paraprint

第一步:format(default para trap(value=100)))print ('第二步:.

format (defau 11jpara_trap (value=50)))第一步:[100]第二步:[100, 50]第一步:[100]第

二步：[50]第一步:[100]第二步：口第一步:[100]第二步:[100]33、Python正则表达式模

块的findall方法返回结果为(A)列表元组字典D.集合34、Python正则表达式模块的findall

方法如果没有匹配到结果，则返回结果为(B)A.空 B.空列表C.空元组D.不返回35、Python正

则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含(B)A.列表 B.元组

C.字典 D.集合36、Python操作CSV文件可通过(C)容器的方式操作单元格A.列表 B.元组C.字典D.集

合37、Python中(ACD)容器有推导式A.列表 B.元组C.字典D.集合38、Python读CSV文件需要哪

61、用Xpathh获取第二个div标签应该是(D)A. dvi(l) B. div(2) C. div[l] D.div[2]62、BS4

可以用来从(AB)中提取数据A. HTML B. XML C.数据库 D. JSON63、使用BeautifulSoup对象后

可以使用(AB)来查找内容A. find_all B. find C. search D. search_all64、针对解析源代

码的BeautifulSoup对象，构造时BeautifulSoup(网页源代码，’解析器')中的解析器可

以为(AC)A. html B. html. parser C. Ixml D. xml65、MongoDB中数据存储的形式类似于

(C)A.列表 B.元组 C.字典 D.集合66、在 Mac OS 下安装 MongoDB 使用命令(A) install

mongodbA. brew B. apt-get C. sudo D. apt67、启动 MongoDB 使用命令 mongod ― (A)

usr/local/etc/mongod. confA. config B. install C. start D. begin68、以下哪个命令是利

用URL语法在命令行下工作的文件传输工具(A)A. curlB. tar -zxvfC. mkdirD. cp69、以下

哪个命令是linux下解压缩命令(B)A. curlB. tar -zxvfC. mkdirD. cp70、以下哪个命令是

创建文件夹命令(C)A. curlB. tar -zxvfC. mkdirD. cp71、以下哪个命令是复制文件或者

文件夹命令(D)A. curlB. tar -zxvfC. mkdirD. cp72、如果使用Python的数据结构来做类

比的话，MongoDB中文档相当于一个(C)A.列表 B.元组 C.字典D.集合73、如果使用Python的

数据结构来做类比的话，MongoDB中集合相当于一个(A)A.列表B.元组C.字典D.集合74、如

果使用Python的数据结构来做类比的话,MongoDB中库相当于一个(C)A.列表B.元组C.字典D.

集合75、如果使用Python的数据结构来做类比的话，MongoDB中库相当于一个大字典，大字典里面

的每一个键值对都对应了一个集合，Key为(B), Value就是一个集合。

A.字典 B.集合的名字C.集合 D.文档76、如果使用Python的数据结构来做类比的话，

MongoDB中库相当于一个大字典，大字典里面的每一个键值对都对应了一个集合，Key

为集合的名字，Value 就是一个(OoA.字典 B.集合的名字 C.集合D.文档77> MongoDB中

获取名字为db的库的语句为(AC)A. client, db B. client ('db') C. client['db']

D. client db

，

}78、MongoDB中获取名字为sctl的集合的语句为(AC)A. database,

setl B. database(* setl*) C. databasef seti, ]database{' setl'}79、MongoDB

中可以将(C)数据结构插入集合中A.列表 B.元组C.字典 D.集合80、以下哪种方法是

MongoDB的查找方法(AB)A. find B. find one C. finds D. find all81、PyMongo中的

查找方法的参数是哪种数据结构(C)A.列表 B.元组C.字典 D.集合82、PyMongo中逻辑查询

表示大于的符号是(A)A. $gt B. $lt C. $gte$$lte3、PyMong。中逻辑查询表示大于等

于的符号是(C)A. $gt B. $lt C. $gte$$lte84> PyMongo中逻辑查询表示小于的符号

是(B)A. $gtB. $ltC. $gte$$lte85、PyMongo中逻辑查询表示小于等于的符号是(D)A.

剩余35页未读，继续阅读

评论收藏

内容反馈

智慧安全方案

粉丝: 3851
资源: 59万+

南开大学复习资料-网络爬虫与信息提取0001.docx

南开大学复习资料-网络爬虫与信息提取.docx

南开大学复习资料-计算机高级网络技术0001.docx

南开大学复习资料-数据库技术与程序设计0001.docx

21春南开大学《网络爬虫与信息提取》在线作业参考答案.docx

南开大学复习资料-计算机网络基础0001.docx

南开大学复习资料-大数据导论0001.docx

南开大学复习资料-电子商务0001.docx

南开大学复习资料-数据科学导论0001.docx

电商平台推广测试题--数据分析参考答案思路.docx

南开大学复习资料-Python编程基础0001.docx

云计算开发服务平台用户手册-Cloud-paas-v1.2.docx

南开大学20秋《网络爬虫与信息提取》在线作业-2(参考答案).docx

大学计算机课程报告-Python爬虫与可视化.docx

南开大学复习资料-计算机网络管理0001.docx

南开大学复习资料-大学计算机基础0001.docx

南开大学复习资料-计算机原理0001.docx

南开大学复习资料-Web页面设计0001.docx

南开大学复习资料-计算机病毒分析0001.docx

RED二次开发-Node-RED与AI技术结合.docxRED二次开发-Node-RED与HTTP协议集成.docx

白话中台战略-中台到底长啥样.docx

下一代防火墙方案模版-深信服全网安全监测解决方案.docx

分析报告--赛整理分析.docx.docx

5G+区块链-智慧景区服务平台-解决方案-v1.2.docx

南开大学复习资料-程序设计基础(上)0001.docx

南开大学复习资料-软件工程与软件测试技术0001.docx

南开大学复习资料-电子商务物流管理0001.docx

南开大学复习资料-DirectX程序设计0001.docx

南开大学复习资料-操作系统原理0001.docx

Java-H11ttpURLConnection爬虫程序-0913.docx

Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案.docx

最新资源