
箱线图:五数概括的图形显示
直方图:是一种概括给定属性 X 的分布的图形方法,
其中 x 轴代表一组分类数据,y 轴代表数值或频数。
分位数图: 一种观察单变量数据分布的简单有效方法,它显示给定属性的所有数据
分位数-分位数图(q-q 图):将一个单变量分布的分位数与另一个相应的分位数进行比较,
看是否存在漂移。
散点图:每一对值是一对坐标,在平面上作为点绘制
10、五数概括以及如何通过箱线图来识别离群点
五数概括: 最小值,四分位数 Q1, 中位数,四分位数 Q3, 最大值
箱线图(盒图)
数据用盒子表示
盒子的两端是在第一和第三个四分位,即盒子的高度为 IQR
中位数由框内的一条线标记
晶须:盒外两端延伸至最小和最大
离群值:超出指定离群值阈值的点,单独标绘
11、apriori 算法实现的基本流程
① 首先,扫描数据库一次,获得频繁 1 项集
② 从长度为 k 的频繁项集生成长度(k+1)的候选项集
③ 使用最小支持度来筛选候选集
④ 当不能生成频繁集或候选集时终止
12、FP-growth 算法实现的基本流程
构建 FP-tree
1、扫描数据库查找 1 项集:与 Apriori 算法相同
2、按频率降序排序形成频繁项列表
3、再次扫描数据库,构建 FP-tree
构造条件模式基
在 FP-tree 中查找频繁 1 项集 L 集合中每一项的条件模式基(按支持度从小到大的顺序构造),即每个
项的前缀路径。前缀路径是介于所查找元素项与树的根节点之间的所有内容。