键入章标题(第 1 级)1
键入章标题(第 2 级)2
键入章标题(第 3 级
)3
键入章标题(第 1 级)4
键入章标题(第 2 级)5
键入章标题(第 3 级
)6
ID3:ID3 算法是一种贪心算法,用来构造决策树。ID3 算法以信息嫡的下降速度
为选取
测试属性的标准,即对当前结点,计算各个特征对这个节点划分后的信息增益,
选取还尚未
被用来划分的而且具有信息增益最大的属性作为划分特征。从根节点一直进行这
个过程,直
到生成的决策树能完美分类训练样例。(gini 系数,误分类率等不纯度表示)
信息增益的计算方法:比如计算一个特征 A 对数据集 D 的特征,A 的取值有
A1,A2,A3,
对应数据集 D1,D2,D3o 计算 D1,D2,D3 的信息嫡,
04.5:C4.5 是在 ID3 基础上改进的一种算法。改用信息增益比来选择属性(A 对 D 的信
息增益/D 的
过拟合.剪枝:先剪枝和后剪枝。限制深度,限制最小划分节点,限制最小叶子节点包
含记录的数
目。损失函数=不纯度+入节点个数
最小二乘回归树:递归的将输出空间划分为两个区域,并确定一个区域上的输出值。
划分方式:
选择当前区域上最佳切分变量和最佳切分点从而分成两个区域,分别确定两个区
域输出值(一般取均值),重复此过程构建一个决策树。除了根结点,每个结点对应一个输
出,也对应
一个权值,预测时,从根节点到叶结点以此判断测试记录属于哪个分支
,把它经
过的每个节点的权重乘以该点输出加起来求和。
CART 保证生成二叉机(对特征 A,CART 以
A=a 和
a 分成两类,而 ID3 中特征的每个取值算
一类,
从而分成多类),cart 剪枝是后剪枝通过把子树叶子结点的个数加上
预测误差
随机的方式建立一个森林,森林里含有很多决策树组成,森林的每一颗树之间都是没
有关联的。
建立过程:首先要进行行采样和列采样,行采样采用随机有放回方式抽取。列采样
是从全部特征中抽取一部分。然后使用完全分裂的方式建立一棵决策树,这里不进行剪枝
,因为
随机特性使 RF 不容易过拟合。RF 得到的每一颗树都是很弱的,但是组合起来就很厉害了。
优点:简洁高效;可处理高维数据,无需特征选择;训练完成后可以给出哪些特征重
要;很容易
并行实现