• 数据挖掘
• Data mining is the computational process of discovering patterns in large data sets involving methods at
the intersection of artificial intelligence, machine learning, statistics, and database systems.The overall
goal of the data mining process is to extract information from a data set and transform it into an
understandable structure for further use.(Wikipedia)
• 数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。(百度百科)
• 分类和聚类
• 分类(Classification)就是按照某种标准给对象贴标签,再根据标签来区分归类,类别数不变。
• 聚类(clustering)是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集
合叫做簇,并且对每一个这样的簇进行描述的过程。
• 决策树
决策树是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然
后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。由于这种
决策分支画成图形很像一棵树的枝干,故称决策树。
• ID3算法
• C4.5算法