【免费】20151910042-刘鹏-DM实验01-对机器生产数据进行特征选择1资源-CSDN文库

需积分: 0 114 浏览量更新于2022-08-08 收藏 49KB DOCX 举报

在数据挖掘与决策支持的实践中，特征选择是数据分析的核心环节，它直接影响到数据模型的构建和预测性能。本文档“20151910042-刘鹏-DM实验01-对机器生产数据进行特征选择1”详细记录了一次具体的上机实践过程，旨在学习如何使用R语言来执行特征选择，进而完成数据的维度归约。实验的主要内容是处理一个涉及产品加工时间与良率的数据集。该数据集包含了产品编号、两个不同机台的加工时间，以及产品的最终良率。数据预处理阶段，首先对加工时间和机台类型进行了初步分析。加工时间作为有序数值型数据，机台类型作为分类型数据。分析的目的在于确定数据的类型，以便后续采用恰当的特征选择方法。在数据规约的过程中，常见的操作包括删除列、删除行以及减少列中值的数量，这些操作共同的目标是删除不必要的数据，同时尽可能保留原始数据的特征和关键信息。理想的维度归约算法需要具备一系列的特性：可测性、可辨识性、单一性、一致性和收益递减性。同时，算法还应具备可中断性和优先权，使得即便在有限的计算资源下也能找到一个接近最优的解决方案。实验报告中提到了变量选择的策略，即向后选择策略，这是一种常用的特征选择方法。该方法从包含所有变量开始，通过迭代地剔除对模型贡献较小的变量，直到达到一个满意的模型效能。此外，互信息的概念在实验中被用来评估不同特征之间的相关性。具有高互信息的特征可能包含相似的信息，因此可以根据需要删除其中一个，以减少数据冗余。实验的另一个重点是应用阈值来检测特征的重要性。采用了一个特定的阈值（0.80），通过比较不同样本的标准化均值差异来衡量特征的重要性。如果一个特征的标准化均值差异较大，说明该特征在区分不同样本方面具有显著作用，被认为是重要的。实验中涉及的R语言代码部分，展示了如何将数据转换为适当格式、如何应用阈值进行二值化处理，以及如何计算特征间的相关矩阵等关键步骤。尽管代码未完整展示所有特征选择算法的具体实现，但从提供的代码片段中可以窥见R语言在数据处理中的便捷性和高效性。总结而言，本次实验涉及了数据预处理、特征选择以及数据归约的一系列基本概念，并演示了使用R语言作为工具的实现过程。通过无监督的特征选择方法，基于熵度量来评估特征对目标变量（良率）的影响，成功地减少了无关或冗余的特征。这不仅提高了数据分析的效率，也优化了模型的准确性。特征选择的重要性不言而喻，它直接关系到最终模型是否能有效地揭示数据中的模式和关联，对于机器学习和数据挖掘领域的研究和应用具有极其重要的意义。

云南大学数学与统计学院

《数据挖掘与决策支持实验》上机实践报告

课程名称：运筹学数据挖掘与决策支持实验

年级：2015 级

上机实践成绩：

指导教师：彭程

姓名：刘鹏

专业：信息与计算科学

上机实践名称：对机器生产数据进行特征选择

学号：20151910042

上机实践日期：2018-07-04

上机实践编号：01

组号：

一、实验目的

学习使用 R 语言进行变量选择。

二、实验内容

如下表：

表格 1 产品加工与产品良率

产品编号

加工时间/h

机台类型

加工时间/h

机台类型

良率

A01

B03

0.53

A01

B03

0.62

A03

B21

0.84

A02

B02

0.91

A02

B03

0.85

A01

B03

0.68

A02

B01

0.83

A03

B02

0.69

A02

B01

0.88

A03

B03

0.92

请将给定数据进行变量选择，从而实现维归约。要求使用一种基于熵度量的无监督特征选择方法减少

数据集的维度。

三、实验平台

Windows 10 Pro 1803；

Microsoft

Visual Studio 2017 Enterprise。

四、算法设计

数据预分析：如表格 1 产品加工与产品良率所示，表格中有四列自变量，一列因变量。其中，因为

每种产品都需要进行两个阶段的加工，所以有加工时间与对应的机台类型。可以观察到，加工时间是属于

有顺序关系的数值型数据，而机台类型是属于分类型数据。

下载后可阅读完整内容，剩余3页未读，立即下载

资源推荐

资源评论

阿玫小酱当当囧

粉丝: 19
资源: 324

20151910042-刘鹏-DM实验01-对机器生产数据进行特征选择1

20151910042-刘鹏-DM实验05-对乳腺癌数据进行决策树分析1

20151910042-刘鹏-AG实验01-图搜索算法1

20151910042-刘鹏-MC实验03-离散对数问题实验1

20151910042-刘鹏-CN实验02-候选平台预备实验1

20151910042-刘鹏-DSA实验03-算法分析1

20151910042-刘鹏-DM实验02-用Relief算法对iris数据进行特征选择1

20151910042-刘鹏-AG实验07-中国邮递员问题1

20151910042-刘鹏-DM实验04-对iris数据进行贝叶斯分类1

20151910042-刘鹏-DM实验06-对心脏病数据进行决策树分析1

20151910042-刘鹏-AG实验06-有向图的弧连通度1

20151910042-刘鹏-DSA思考题-041

20151910042-刘鹏-DSA思考题-021

20151910042-刘鹏-DM实验03-实现基于主成分分析的特征提取1

20151910042-刘鹏-DSA思考题-05 - Stack and Queue1

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

BurpLoaderKeygen.jar.zip

Chrome Header Editor 插件

Goby红队版-win-x64-2.4.7版本

软件工程导论(第六版)课后习题答案1

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

OpenVAS离线资源

现代永磁同步电机控制原理及MATLAB仿真__袁雷编著1

2023年最全最精简wifi密码字典(2.6G)

hackbar2.1.3-master安装包

小迪安全笔记，详细版本

最新资源