CHAID 决策树算法 CHAID(Chi-Square Automatic Interaction Detection)是一种多变量分析方法,用于寻找多个自变量中能产生最大差异的变量方案。CHAID 分析可以生成非二进制树,即有些分割有两个以上的分支。 1. CHAID 方法 CHAID 根据细分变量区分群体差异的显著性程度(卡方值)的大小顺序,将消费者分为不同的细分群体,最终的细分群体是由多个变量属性共同描述的,因此属于多变量分析。在形式上,CHAID 非常直观,它输出的是一个树状的图形。 1.1. CHAID 分析步骤 建立细分模型,根据卡方值最显著的细分变量将群体分出两个或多个群体,对于这些群体再根据其它的卡方值相对最显著的细分变量继续分出子群体,直到没有统计意义上显著的细分变量可以将这些子群体再继续分开为止。 1.2. CHAID 分层的标准 卡方值最显著的变量 2. CHAID 的特点 2.1. 自动归并自变量中类别,使之显著性达到最大。 2.2. 可以自动地把数据分成互斥的、无遗漏的组群,但只适用于类别型资料。 2.3. 当预测变量较多且都是分类变量时,CHAID 分类最适宜。 3. CHAID 的一般步骤 3.1. 属性变量的预处理 * 对定类的属性变量,在其多个分类水平中找到对目标变量取值影响不显著的分类,并合并它们。 * 对定距型属性变量,先按分位点分组,然后再合并具有同质性的组。 * 如果目标变量是定类变量,则采用卡方检验。 * 如果目标变量为定距变量,则采用 F 检验。 3.2. 确定当前分支变量和分隔值 * 计算经预处理后的各属性变量与目标变量的卡方检验统计量和 P-值。 * P-值最小的变量(与目标变量联系最紧密)作为当前的最佳分支变量,该变量的所有分组形成该分支下的子节点。 4. CHAID 的适用范围 当预测变量是分类变量时,CHAID 方法最适宜。对于连续型变量,CHAID 在缺省状态下将连续变量自动分为 10 段处理,但是可能有遗漏。 5. CHAID 的预剪枝基本参数 5.1. 决策树最大深度 如果决策树的层数已经达到指定深度,则停止生长。 5.2. 树中父节点和子节点所包含的最少样本量或比例 对父节点是指,如果节点的样本量已低于最少样本量或比例,则不再分组;对于子节点是指,如果分组后生成的子节点中的样本量低于最小样本或比例,则不必进行分组。 5.3. 当输入变量与输出变量的相关性小于一个指定值,则不必进行分组。 6. CHAID 模块的优点 * 不像 CART 和 QUEST 模块,CHAID 可产生多分枝的, * 可以自动地把数据分成互斥的、无遗漏的组群, * 适用于类别型资料。 7. CHAID 在机器学习和人工智能中的应用 CHAID 算法可以广泛应用于机器学习和人工智能领域,例如: * 客户细分市场分析 * 客户价值分析 * 客户行为分析 * 市场趋势分析 * 决策支持系统 CHAID 算法是一种功能强大且实用的多变量分析方法,广泛应用于机器学习和人工智能领域。
剩余11页未读,继续阅读
- 粉丝: 92
- 资源: 2万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助