function [tree,discrete_dim] = train_C4_5(S, inc_node, Nu, discrete_dim)
% Classify using Quinlan's C4.5 algorithm
% Inputs:
% training_patterns - Train patterns 训练样本 每一列代表一个样本 每一行代表一个特征
% training_targets - Train targets 1×训练样本个数 每个训练样本对应的判别值
% test_patterns - Test patterns 测试样本,每一列代表一个样本
% inc_node - Percentage of incorrectly assigned samples at a node 一个节点上未正确分配的样本的百分比
% inc_node为防止过拟合,表示样本数小于一定阈值结束递归,可设置为5-10
% 注意inc_node设置太大的话会导致分类准确率下降,太小的话可能会导致过拟合
% Nu is to determine whether the variable is discrete or continuous (the value is always set to 10)
% Nu用于确定变量是离散还是连续(该值始终设置为10)
% 这里用10作为一个阈值,如果某个特征的无重复的特征值的数目比这个阈值还小,就认为这个特征是离散的
% Outputs
% test_targets - Predicted targets 1×测试样本个数 得到每个测试样本对应的判别值
% 也就是输出所有测试样本最终的判别情况
%NOTE: In this implementation it is assumed that a pattern vector with fewer than 10 unique values (the parameter Nu)
%is discrete, and will be treated as such. Other vectors will be treated as continuous
% 在该实现中,假设具有少于10个无重复值的特征向量(参数Nu)是离散的。 其他向量将被视为连续的
train_patterns = S(:,1:end-1)';
train_targets = S(:,end)';
[Ni, M] = size(train_patterns); %M是训练样本数,Ni是训练样本维数,即是特征数目
inc_node = inc_node*M/100; % 5*训练样本数目/100
if isempty(discrete_dim)
%Find which of the input patterns are discrete, and discretisize the corresponding dimension on the test patterns
%查找哪些输入模式(特征)是离散的,并离散测试模式上的相应维
discrete_dim = zeros(1,Ni); %用于记录每一个特征是否是离散特征,初始化都记为0,代表都是连续特征,
%如果后面更改,则意味着是离散特征,这个值会更改为这个离散特征的无重复特征值的数目
for i = 1:Ni %遍历每个特征
Ub = unique(train_patterns(i,:)); %取每个特征的不重复的特征值构成的向量
Nb = length(Ub); %得到无重复的特征值的数目
if (Nb <= Nu) %如果这个特征的无重复的特征值的数目比这个阈值还小,就认为这个特征是离散的
%This is a discrete pattern
discrete_dim(i) = Nb; %得到训练样本中,这个特征的无重复的特征值的数目 存放在discrete_dim(i)中,i表示第i个特征
% dist = abs(ones(Nb ,1)*test_patterns(i,:) - Ub'*ones(1, size(test_patterns,2)));
% %前面是把测试样本中,这个特征的那一行复制成Nb行,Nb是训练样本的这个特征中,无重复的特征值的数目
% %后面是把这几个无重复的特征值构成的向量复制成测试样本个数列
% %求这两个矩阵相应位置差的绝对值
% [m, in] = min(dist); %找到每一列绝对差的最小值,构成m(1×样本数目) 并找到每一列绝对差最小值所在行的位置,构成in(1×样本数目)
% %其实,这个in的中每个值就是代表了每个测试样本的特征值等于无重复的特征值中的哪一个或者更接近于哪一个
% %如=3,就是指这个特征值等于无重复的特征值向量中的第3个或者更接近于无重复的特征值向量中的第3个
% test_patterns(i,:) = Ub(in); %得到这个离散特征
end
end
end
%Build the tree recursively 递归地构造树
% disp('Building tree')
flag = [];
tree = make_tree(train_patterns, train_targets, inc_node, discrete_dim, max(discrete_dim), 0, flag);
function tree = make_tree(patterns, targets, inc_node, discrete_dim, maxNbin, base, flag)
%Build a tree recursively 递归地构造树
[N_all, L] = size(patterns); %%L为当前的样本总数,Ni为特征数目
if isempty(flag)
N_choose = randi([1,N_all],1,0.5*sqrt(N_all));%从所有特征中随机选择m个
Ni_choose = length(N_choose);
flag.N_choose = N_choose;
flag.Ni_choose = Ni_choose;
else
N_choose = flag.N_choose;
Ni_choose = flag.Ni_choose;
end
Uc = unique(targets); %训练样本对应的判别标签 无重复的取得这些标签 也就是得到判别标签的个数
tree.dim = 0; %初始化树的分裂特征为第0个
%tree.child(1:maxNbin) = zeros(1,maxNbin);
tree.split_loc = inf; %初始化分裂位置是inf
if isempty(patterns)
return
end
%When to stop: If the dimension is one or the number of examples is small
% inc_node为防止过拟合,表示样本数小于一定阈值结束递归,可设置为5-10
if ((inc_node > L) | (L == 1) | (length(Uc) == 1)) %如果剩余训练样本太小(小于inc_node),或只剩一个,或只剩一类标签,退出
H = hist(targets, length(Uc)); %统计样本的标签,分别属于每个标签的数目 H(1×标签数目)
[m, largest] = max(H); %得到包含样本数最多的那个标签的索引,记为largest 包含多少个样本,记为m
tree.Nf = [];
tree.split_loc = [];
tree.child = Uc(largest);%姑且直接返回其中包含样本数最多一类作为其标签
return
end
%Compute the node's I
for i = 1:length(Uc) %遍历判别标签的数目
Pnode(i) = length(find(targets == Uc(i))) / L; %得到当前所有样本中 标签=第i个标签 的样本的数目 占样本总数的比例 存放在Pnode(i)中
end
% 计算当前的信息熵(分类期望信息)
% 例如,数据集D包含14个训练样本,9个属于类别“Yes”,5个属于类别“No”,Inode = -9/14 * log2(9/14) - 5/14 * log2(5/14) = 0.940
Inode = -sum(Pnode.*log(Pnode)/log(2));
%For each dimension, compute the gain ratio impurity %对于每维,计算杂质的增益比 对特征集中每个特征分别计算信息熵
%This is done separately for discrete and continuous patterns %对于离散和连续特征,分开计算
delta_Ib = zeros(1, Ni_choose); %Ni是特征维数 用于记录每个特征的信息增益率
split_loc = ones(1, Ni_choose)*inf; %初始化每个特征的分裂值是inf
for i_idx = 1:Ni_choose%遍历每个特征
i = N_choose(i_idx);
data = patterns(i,:); %得到当前所有样本的这个特征的特征值
Ud = unique(data); %得到无重复的特征值构成向量Ud
Nbins = length(Ud); %得到无重复的特征值的数目
if (discrete_dim(i)) %如果这个特征是离散特征
%This is a discrete pattern
P = zeros(length(Uc), Nbins); %Uc是判别标签的个数 判别标签个数×无重复的特征值的数目
for j = 1:length(Uc) %遍历每个标签
for k = 1:Nbins %遍历每个特征值
indices = find((targets == Uc(j)) & (patterns(i,:) == Ud(k)));
% &适用于矩阵间的逻辑运算 &&不适用,只能用于单个元素 &的意思也是与
%找到 (样本标签==第j个标签 并且 当前所有样本的这个特征==第k个特征值) 的样本个数
P(j,k) = length(indices); %记为P(j,k)
end
end
Pk = sum(P); %取P的每一列的和,也就是得到当前所有样本中,这个特征的特征值==这个特征值的样本数目 Pk(1×特征值数目)表示这个特征的特征值等于每个特征值的样本数目
P1 = repmat(Pk, length(Uc), 1); %把Pk复制成 判别标签个数 行
P1 = P1 + eps*(P1==0); %这主要在保证P1作被除数时不等于0
P = P./P1; %得到当前所有样本中,这个特征的值等于每个特征值且标签等于每个标签的样本,占当前这个特征值中的样本的比例
Pk = Pk/sum(Pk); %得到当前所有样本中,这个特征的值等于每个特征值的样本,占当前样本总数的比例
info = sum(-P.*log(eps+P)/log(2)); %对特征集中每个特征分别计算信息熵 info(1×特征值数目)
delta_Ib(i_idx) = (Inode-sum(Pk.*info))/(-sum(Pk.*log(eps+Pk)/log(2))); %计算得到当前特征的信息增益率
%计算信息增益率(GainRatio),公式为Gain(A)/I(A),
%其中Gain(A)=Inode-sum(Pk.*info)就是属性A的信息增益
Java徐师兄
- 粉丝: 1597
- 资源: 2309
最新资源
- Python编程绘制圣诞树图形的实现
- 基于ZH5212设计的产品电路原理图+PCB+其它技术资料.zip
- 【深度学习实战】kaggle 自动驾驶的假场景分类
- Labview和西门子PLC smart200 OPC通讯仪器串口通讯 全套项目资料,包括Labview 程序,研华工控机,西门子Smart 200程序,电气原理图,元器件拿后清单,详细注释 Labv
- Python图形库绘制交互式生日蛋糕图形程序
- 交流电机仿真,原理分析 转速磁链闭环矢量控制系统 滞环控制 【电机控制仿真类】
- 西藏自治区各市、县、区及街镇SVG图
- C#导入CAD DXF格式的图纸文件源码 结合了. net dxf库文件 C#写的CAD DXF格式文件导入,自动解析图形文件坐标并显 示,看懂源代码就可根据实际要求应用到项目,非常具有学习价值
- 基于 Java 写的沙盒塔防游戏,好的开源项目
- 代码示例涵盖了排序算法、数据结构(栈和二叉树)的基本实现
- 永磁同步电机模型预测控制,单矢量,占空比,双矢量,无差拿仿真
- rabbitmq-server-4.0.2.exe
- 西门子1500PLC大型项目程序 ,气缸,通讯,机械手,模拟量等,各种FB块,可用来参考和学习 软件博图,威纶通触摸屏,网络结构可参考图一,PTO控制20多个轴,100多个气缸,控制2台机器人 5台
- Python海龟绘图实现樱花树效果与程序讲解
- 三菱FX3U与施耐德ATV12变频器通讯程序 程序有注释 并附送程序,有接线方式,设置 上电自动走完DRIVECOM流程,同时解决施耐德ATV变频器断电重启后,自准备工作,程序
- 三菱FX3U XYZR四轴机械手码垛机程序,程序结构清晰明了,注释清晰,程序本体3轴加1个1 PG轴扩展模块,程序中有几十个定位位置,可适合大部分码垛要求
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈