20151910042-刘鹏-DM实验01-对机器生产数据进行特征选择1
需积分: 0 114 浏览量
更新于2022-08-08
收藏 49KB DOCX 举报
在数据挖掘与决策支持的实践中,特征选择是数据分析的核心环节,它直接影响到数据模型的构建和预测性能。本文档“20151910042-刘鹏-DM实验01-对机器生产数据进行特征选择1”详细记录了一次具体的上机实践过程,旨在学习如何使用R语言来执行特征选择,进而完成数据的维度归约。
实验的主要内容是处理一个涉及产品加工时间与良率的数据集。该数据集包含了产品编号、两个不同机台的加工时间,以及产品的最终良率。数据预处理阶段,首先对加工时间和机台类型进行了初步分析。加工时间作为有序数值型数据,机台类型作为分类型数据。分析的目的在于确定数据的类型,以便后续采用恰当的特征选择方法。
在数据规约的过程中,常见的操作包括删除列、删除行以及减少列中值的数量,这些操作共同的目标是删除不必要的数据,同时尽可能保留原始数据的特征和关键信息。理想的维度归约算法需要具备一系列的特性:可测性、可辨识性、单一性、一致性和收益递减性。同时,算法还应具备可中断性和优先权,使得即便在有限的计算资源下也能找到一个接近最优的解决方案。
实验报告中提到了变量选择的策略,即向后选择策略,这是一种常用的特征选择方法。该方法从包含所有变量开始,通过迭代地剔除对模型贡献较小的变量,直到达到一个满意的模型效能。此外,互信息的概念在实验中被用来评估不同特征之间的相关性。具有高互信息的特征可能包含相似的信息,因此可以根据需要删除其中一个,以减少数据冗余。
实验的另一个重点是应用阈值来检测特征的重要性。采用了一个特定的阈值(0.80),通过比较不同样本的标准化均值差异来衡量特征的重要性。如果一个特征的标准化均值差异较大,说明该特征在区分不同样本方面具有显著作用,被认为是重要的。
实验中涉及的R语言代码部分,展示了如何将数据转换为适当格式、如何应用阈值进行二值化处理,以及如何计算特征间的相关矩阵等关键步骤。尽管代码未完整展示所有特征选择算法的具体实现,但从提供的代码片段中可以窥见R语言在数据处理中的便捷性和高效性。
总结而言,本次实验涉及了数据预处理、特征选择以及数据归约的一系列基本概念,并演示了使用R语言作为工具的实现过程。通过无监督的特征选择方法,基于熵度量来评估特征对目标变量(良率)的影响,成功地减少了无关或冗余的特征。这不仅提高了数据分析的效率,也优化了模型的准确性。特征选择的重要性不言而喻,它直接关系到最终模型是否能有效地揭示数据中的模式和关联,对于机器学习和数据挖掘领域的研究和应用具有极其重要的意义。
阿玫小酱当当囧
- 粉丝: 19
- 资源: 324
最新资源
- 5G SRM815模组原理框图.jpg
- T型3电平逆变器,lcl滤波器滤波器参数计算,半导体损耗计算,逆变电感参数设计损耗计算 mathcad格式输出,方便修改 同时支持plecs损耗仿真,基于plecs的闭环仿真,电压外环,电流内环
- 毒舌(解锁版).apk
- 显示HEX、S19、Bin、VBF等其他汽车制造商特定的文件格式
- 8bit逐次逼近型SAR ADC电路设计成品 入门时期的第三款sarADC,适合新手学习等 包括电路文件和详细设计文档 smic0.18工艺,单端结构,3.3V供电 整体采样率500k,可实现基
- 操作系统实验 ucorelab4内核线程管理
- 脉冲注入法,持续注入,启动低速运行过程中注入,电感法,ipd,力矩保持,无霍尔无感方案,媲美有霍尔效果 bldc控制器方案,无刷电机 提供源码,原理图
- Matlab Simulink#直驱永磁风电机组并网仿真模型 基于永磁直驱式风机并网仿真模型 采用背靠背双PWM变流器,先整流,再逆变 不仅实现电机侧的有功、无功功率的解耦控制和转速调节,而且能实
- 157389节奏盒子地狱模式第三阶段7.apk
- 操作系统实验ucore lab3