为满足复杂数据挖掘应用对处理丰富语义的要求,引入了多维复杂关联规则概念,提出了通过人工免疫循环控制的基因表达式编程挖掘方法。构造了有特色的抗体和免疫细胞结构,能有效减少计算量;设计了特有的否定选择策略,可以消除无用的和冗余的免疫细胞;引出了逆否规则与原规则同为强规则的启发式过滤准则,可有效约简规则数目。实验表明,新方法能够高效、准确地挖掘多维复杂关联规则;在一定条件下,新方法的否定选择策略可将挖掘效率提高达1-3个数量级。
### 基于人工免疫和基因表达式编程的多维复杂关联规则挖掘方法
#### 摘要
本文介绍了一种新型的数据挖掘方法——基于人工免疫循环控制的基因表达式编程挖掘方法,该方法旨在满足复杂数据挖掘应用对处理丰富语义的要求。作者引入了多维复杂关联规则的概念,并提出了通过人工免疫循环控制的基因表达式编程进行挖掘的方法。这种方法不仅构造了具有特色的抗体和免疫细胞结构来有效地减少计算量,还设计了特有的否定选择策略以消除无用和冗余的免疫细胞。此外,文章还提出了一种逆否规则与原规则同为强规则的启发式过滤准则,这有助于进一步精简规则的数量。实验结果表明,该方法能够高效且准确地挖掘出多维复杂关联规则,在特定条件下,其否定选择策略可将挖掘效率提高1到3个数量级。
#### 关键技术点解析
##### 多维复杂关联规则(MDCAR)
- **定义**:多维复杂关联规则是指在一个或多个维度上,通过对数据项集的分析而发现的具有高支持度和置信度的规则。
- **特点**:
- 能够处理更复杂的语义关系。
- 可以在多个维度上进行挖掘,从而获得更加全面的信息。
##### 基因表达式编程(GEP)
- **定义**:一种用于模拟生物进化过程中的基因表达机制的编程技术,用于解决优化问题。
- **优势**:
- 可以表达更为复杂的遗传信息。
- 更容易实现变异操作。
- 在搜索空间中具有更好的探索能力。
##### 人工免疫系统(AIS)
- **定义**:模拟人体免疫系统的机制来解决问题的一种计算模型。
- **关键组成部分**:
- 抗体:对应于问题解决方案。
- 免疫细胞:包括B细胞、T细胞等,负责执行免疫系统的功能。
- **应用**:
- 通过对抗体进行选择、复制、变异等操作,不断改进解决方案。
- 使用否定选择策略来排除无效或冗余的解决方案。
##### 否定选择策略
- **目的**:避免搜索过程中重复计算以及去除不必要或低质量的候选解。
- **具体操作**:
- 通过检测抗体与其他已知非匹配模式的相似性,判断其是否为无效或冗余。
- 如果抗体与某一已知非匹配模式过于相似,则认为它是无效或冗余的,并从搜索空间中删除。
##### 逆否规则与启发式过滤准则
- **逆否规则**:如果一条规则R是强规则,则其逆否规则也是强规则。
- **启发式过滤准则**:利用逆否规则来减少需要评估的规则数量,从而提高挖掘效率。
#### 实验验证与结论
- **实验设计**:通过一系列的实验来验证所提出方法的有效性和效率。
- **实验结果**:
- 在多种数据集上测试,均显示出该方法能够高效、准确地挖掘出多维复杂关联规则。
- 特别是在否定选择策略的应用下,挖掘效率得到了显著提升,最高可达1至3个数量级的提升。
- **结论**:该方法为处理复杂数据挖掘任务提供了一个新的视角,尤其适合处理涉及丰富语义和多维度数据的问题。
本文提出的基于人工免疫和基因表达式编程的多维复杂关联规则挖掘方法为数据挖掘领域提供了一种新的思路和技术手段,对于处理复杂数据集和挖掘深层次语义信息具有重要意义。