数据挖掘
-1-
引言
1) 数据挖掘的定义:简而言之,数据挖掘是寻找数据中的有用模式;
2) 涉及相关领域:数据库系统、数据清理、可视化、探索性数据分析;
3) 所用算法渊源:起源于统计学、人工智能、机器学习、数据库理论、模式识别之后吸取
并行计算、演化过程语言学、行为学研究方法;
4) 数据挖掘流程:探索、预处理、建模、评估、知识提取;
5) 数据挖掘种类:分类、回归、关联分析、异常检测、时间序列、文本挖掘;
6) 算法:决策树、神经网络、k 近邻、k 均值聚类、DBSCAN 聚类、逻辑回归、Aproir 算
法、FP-Growth 算法等等。
一、 数据挖掘的流程
1.1 先验知识
先验知识指的是关于某一问题的所有已知信息,可以帮助我们明确正在试图解决的问题
是什么?如何结合商业背景?解决该问题所需要的数据有哪些?
1.2 数据准备
1) 数据探索:手段有描述性统计量的计算和数据的可视化能够展示数据的结构、数值的分
布,是否存在极端值还能展示数据集内部的相互关系。
2) 数据质量:会用到一些数据清洗和转换方法,提高质量清洗的方法很多,比如:记录的
去重、值域以外离群点的隔离、属性值的标准化、缺失值的替换,等等
3) 缺失值:了解缺失值的原因处理缺失数据的办法有:视数据属性特点通过数据集得到,
或构件模型忽视缺失数据
4) 离群点:数据集中的异常点,本身可能是正常数据也可能是异常数据
5) 数据类型和转换:数据类型可以有连续数值型、整数数值型、类别型等,不同的算法对
输入的数据类型有不同的要求,这就需要进行类型转换
6) 数据转换:在一些算法中,要求不同属性数据间差距不能太大,而有些还需要减少属性
的数目。
7) 特征选择:许多数据挖掘处理的问题涉及成百上千种属性,而这些属性并不完全同等重
要,有些彼此间可能高度相关,这就需要特征选择
8) 数据采样:从原始数据集中选出一部分子集,经常会用到分层抽样
1.3 建模
模型是数据和自身内部各种关系的抽象概括。数据挖掘模型可以分为几大类:分类、回
归、关联分析、聚类、离群点检测其实现已经有开源的工具可用,我们只要知道他们是如何
运作的机如何调整参数就可以。
1) 训练集和测试集:有一份已知属性值(包括目标群属性)的数据集。一般将其中 2/3 的
数据作为训练集,1/3 的数据作为测试集
2) 建模算法:业务提出的问题以及可使用的数据基本指明了所需数绝挖掘的种类。数据挖
掘者再根据具体种类选取合适的算法,
3) 模型评估:可以比较模型预测值与真实值间的差异,算出预测误差进行评估预测值与真
实值完全一致并不好,称为过拟合
4) 集成建模:集成建模是构件多个不同模型(预测同一个输出)并把他们组合在一起。体
评论0