1、简单描述一下数据挖掘的过程
(1)数据清洗:清除数据噪声和与挖掘主题明显无关的数据
(2)数据集成:将来自多个数据源中的相关数据组合到一起
(3)数据选择:根据数据挖掘的目标选取待处理的数据
(4)数据转换:将数据转换为易于进行数据挖掘的数据存储形式
(5)数据挖掘:根据一定评估标准,从挖掘结果中筛选出有意义的相关知识
(6)知识表示:利用可视化和知识表达技术,向用户展示所挖掘的相关知识
2、均值、中位数、截断均值在反应数据中心方面的特点
(1)均值:
(2)中位数:对于倾斜的(非对称的)数据,中位数是数据中心的一个较好度
量
(3)截断均值:均值对极端值很敏感,截断均值可以避免少量极端值影响均值
3、在数据预处理的时候可以发现并清除噪音数据吗?噪音数据一般有哪些处理
方法
(1)可以。数据清理的目的就是试图填充缺失值、去除噪声并识别利群点、纠
正数据中的不一致值。
(2)1、分箱:通过考察周围的值来平滑有序数据的值
2、聚类:聚类将类似的值组织成群或簇。落在簇集合之外的值被视为异常
值
3、回归:通过回归(线性回归、非线性回归)让数据适合一个函数来平滑
数据
4、举例说明什么是数据挖掘的关联分析任务
例:通过对数据集进行关联分析,发现关联规则 A→B,表示购买产品 A 的顾
评论6