1、《数据清洗与分析》课程所使用的《大数据预处理技术》一书共分为 6 个单元,其中单
元 1 标题数据读写。
2、《数据洁洗与分析》课程所使用的《大数据预处理技术》一书共分为 6 个单元,其中单
元 2、标题数据清洗
3、《数据清洗与分析)课程所使用的《大数据预处理技术》一书,共分为 6 个单元,其中单
元 3 标题数据集成。
4、pip 是 Python 包管理工具,该工具提供了对 Python 包的查找、下载、按照、卸载的功
能。
5、Python 提供了多个函数,其中 open()函数用于打开一个文件,创建一个 file 对象。
6、]Python 提供了多个函数,其中 read()函数用于读数据内容至文件尾时返回。
7、Python 提供了多个函数,其中 close()虽数用于关闭文件。
8、如果文件内包含中文,读取的内容将可能出现乱码,需要传入 utf-8 参数来指定使用的编码
格式。
9、如图所示,打开命令提示符,输入“python--version”,如果打印出 python 的版本号,
说明安装成果,否则失效。
10、为了优化如下繁琐的代码,Pthon 引入了 with 语句来自动都调用 close0 方法
11、代码如下图所示,#mode="a”,表示以追加核式打开文件。
12、findall (srting[, pos[, endpos]]):在字符串中找到正则表达式所匹配的所有子串,并返
回一个列表,如果有多个匹配模式,则返回元组列表,如果没有找到匹配,则返回空列表。
13、正则表达式修饰符中,I,使匹配对大小写不敏感
14、正则表达式修饰符中,M 为多行匹配
15、缺失值:数据集中某个或某整属性的值是不充全的.
16、fillna0 函数使用指定的方法填充缺失值,其中参数 a1 表示按行填充。'colums’按列填
充:index"
17、f1lna0 西数使用指定的方法填充缺失值,其中参数 axis='columns’表示按列填充;
18、 interpolate0 虽数,使用插扑方法填充 NaN 值,
19、如图所示,dropna0 西数,用于剧除缺失数据函数,其中 ho 的默认参数为 any
20、merge0 否数中,我数 how:默认为’inner’;
21、merge0 函数通过设置 hom 参数选择两个 dataframe 的连搜方式,有内连接,外连接,
左连接,右连接。
22、在微观方面,模式层是指存储数据的数据库结构。
23、在微观方面,实例层是指在数据库中具停存储的数据记录。
答案:实例层
24、重复数据也叫作“相似重复记录”,或是“冗余的数据”。可用 duplicated()函数查询
相关记录
25、数据的抽取分为数据的全量抽取和数据的增量抽取
26、数据的清洗转换是 ETL 中最为复杂的部分,主要任务是过滤摊不符合要求的数据,不符
合要求的数据主要有不完整的数据、错误的数据、重复的数据三大类。
27、merge0 函数,设置 ho:='right'即为右连接,使用右边位置 dataframe 的列进行连接,参
数 on 设置连接的共有列名。
28、concat0 函数有行拼接(默认)和列拼接,接方法也有内排接、外拼接、左拼接、右拼接.
其中拼接方法默认为外拼接
29、DataFrame. join(other. on=None. hom'left’. lsuffix= ‘ ‘ . rBuffix-*sort=False)函是
使用 index 将两个 dataframe 连接起采。