前文简介
上一篇文章中主要介绍了以下几方面:
决策树的简介
决策树的流程
熵的定义及如何计算熵
信息增益的定义及如何计算信息增益
依据信息增益划分数据集
本文以一个新的数据集(隐形眼镜数据集)为基础实现构建决策树、决策树的保存与加载、利用决策树分类、决策树的可视化,前文的知识不在过多概述,着重介绍这四个方面。
先大致了解一下数据集:
这份数据源至UCI数据库,其共有4个特征分别为age(年龄)、prescript(症状)、astigmatic(闪光)、tearRate(泪液产生率)以及一个分类标签class,该分类包含硬材质、软材质和不应配带三种。
为了方便处理,对样本做以下处理:
age: