2016211504-2016212011-田宇-数据挖掘实验报告1
数据挖掘是一种从海量数据中提取有价值知识的过程,广泛应用于各个领域。在这个实验报告中,田宇同学通过使用SPSS和EXCEL软件进行了数据预处理和分析,主要涉及到以下几个知识点: 1. **数据预处理**: - **离散化**:在数据挖掘中,连续属性的离散化是将连续数值转化为离散类别,以便更好地处理和理解数据。例如,针对手机电池容量这个连续变量,田宇同学进行了分箱操作,将其转换为“电池容量分类”,使得分析更加直观。 2. **数据描述**: - **数据理解**:通过对2018年至2012年各品牌手机上市情况的分析,田宇同学发现低端机在市场中占据主导地位,高主频的高端机通常更薄,意味着价格更高的手机在外观和手感上有优势。 3. **聚类分析**: - **K均值算法**:K均值是一种常见的无监督学习算法,用于将数据集划分成K个不同的群组。在实验中,田宇同学尝试了K值分别为2和3的情况,通过迭代找到最佳的聚类中心。当K=2时,实验结果显示两个聚类,而K=3时,产生了三个聚类。每次迭代都检查了中心的变动,以确定是否达到收敛条件。 4. **聚类效果评估**: - **聚类影响因素**:田宇同学探讨了K值和初始簇心选择对聚类结果的影响。K值的改变会直接影响聚类的数量和结构,而簇心的选择则影响聚类的形成和稳定性。 - **算法比较**:除了K均值,还提到了DBSCAN算法,这是一种基于密度的聚类方法,可以发现任意形状的聚类。田宇同学对比了K均值和DBSCAN的聚类效果,以确定哪种算法更适合给定的数据集。 5. **SPSS和Weka工具的使用**: - **软件应用**:实验中提到了SPSS和Weka两个数据挖掘工具,它们都提供了K均值算法的实现。通过对比,田宇同学可能对这两个工具的优劣有了更深入的理解。 这个实验报告展示了数据挖掘的基本流程,包括数据探索、预处理、模型构建以及结果评估,是理解和实践数据挖掘知识的一个典型实例。同时,它也强调了在实际应用中,根据问题选择合适的算法和工具的重要性。
剩余19页未读,继续阅读
- 粉丝: 889
- 资源: 325
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
评论0