《数据科学》课程期末复习资料
一、客观部分:(单项选择、判断)
(一)、选择部分1、通过构造新的指标-线损率,当超出线损率的正常范围,
则可以判断这条线 路的用户可能存在窃漏电等异常行为属于数据变换中的(C)简单
函数变换B.规范化 C.属性构造 D.连续属性离散化2、实体识别属于以下哪个过程(B
)A.数据清洗 B.数据集成C.数据规约D.数据变换3、数据质量检验的主要任务就是检
查原始数据中是否存在“脏数据”,概括性来 说,脏数据不包括以下(A)A.普通值
B.异常值 C.不一致的值D.重复值4、决策树在什么情况下结点需要划分(D)当前结点
所包含的样本全属于同一类别当前属性集为空,或是所有样本在所有属性上取值相
同当前结点包含的样本集为空还有子集不能被基本正确分类5、系统日志收集的基本
特征不包括(D)A.高可用性 B.高可靠性C.可扩展性D.高效率6、k近邻法的基本要素
不包括(C)oA.距离度量B.k值的选择C.样本大小D.分类决策规则7、一元回归参数估
计的参数求解方法不包括(D)。
A,最大似然法B.距估计法C.最小二乘法 D,欧式距离法8、下列选项不是BFR的对象是(
B)A.废弃集 B.临时集 C.压缩集 D.留存集9、聚类的主要方法不包括(D)A.划分聚类
B.层次聚类C.密度聚类D.距离聚类10、以下哪一项不是特征选择常见的方法(D)A.过
滤式 B.封装式 C.嵌入式 D.开放式 11、以下哪一项不是特征工程的子问题(D)A.特
征创建B.特征提取C.特征选择 D.特征识别12、比如一张表,从业务上讲,一个用户
应该只会有一条记录,那么如果某个 用户出现了超过一•条的记录,这就产生了 (
C)A,异常值B.不一致的值C.重复值D.缺失值13、对于相似性与相异性的度量方法,基
于距离的方法,以下哪一项不符合要求
(D)A.欧氏距离B.曼哈顿距离C.马氏距离 D.对角距离14、通过变量标准化计算得到的回
归方程称为(A)
o
A.标准化回归方程B.标准化偏回归方程C.标准化自回归方程D.标准化多回归方
程15、一元线性回归中,真实值与预测值的差称为样本的(D)。
A.误差 B.方差C.测差 D.残差16、在回归分析中,自变量为(),因变量为(D)。
A.离散型变量,离散型变量 B.连续型变量,离散型变量C.离散型变量,连续型变量
D.连续型变量,连续型变量17、为了解决任何复杂的分类问题,使用的感知机结构应