【免费】本科数据挖掘-作业11资源-CSDN文库

需积分: 0 115 浏览量 2022-08-08 17:54:26 上传评论收藏 48KB DOCX 举报

数据挖掘是信息技术领域的一个关键分支，它涉及到从大型数据集中提取有用信息的过程。在这个本科数据挖掘的作业11中，我们将探讨三个主要知识点：百分位数的计算、箱线图的绘制及其参数调整，以及分布式计算标准差的算法。百分位数是一种衡量数据分布的统计量，它表示在数据集中的位置。例如，K百分位数表示有K%的数据值位于该百分位数之下。在提供的示例中，给定一个由逗号分隔的输入文件，我们首先需要对数据进行排序，然后根据K值找到相应的百分位数。计算方法包括线性插值、下界、上界、中点和最近邻。例如，当K=20时，排序后的列表[-100, -35, 7, 14, 20, 32, 32, 69, 100]，可以通过这些方法得出不同的百分位数估计。线性插值法可以得到-26.620，下界是-35，上界是7，中点是-14.0，而最近邻结果是7。这些方法的选择取决于数据特性和应用需求。箱线图（Boxplot）是一种可视化数据分布的常用工具，用于展示数据的五数概括（最小值、下四分位数、中位数、上四分位数、最大值）。在例子程序中，箱线图的flierprops参数用于定义离群值的样式。原设置为flierprops={'marker': 'x', 'markerfacecolor': 'red', 'color': 'black'}，我们可以看到其中的标记为'x'，颜色为红色，边框颜色为黑色。通过修改这些参数，如将'marker'更改为'o'，'markerfacecolor'更改为'yellow'，我们改变离群值的形状和填充色，从而创建不同的箱线图效果。例如，当data数组从[-35, 10, 21, 30, 40, 50, 60, 71, 126]更改为[-35, 10, 21, 30, 40, 50, 60, 122, 300]时，箱线图会反映出数据分布的变化。我们讨论分布式计算标准差的算法。在大数据处理中，计算整个数据集的标准差可能非常耗时，因此分布式计算方法成为必需。该方法涉及以下步骤：(1) 分割数据成多个局部总体Pi；(2) 计算每个局部总体的均值μi、标准差STD.Pi和数据个数ni；(3) 汇总所有局部总体的均值以计算全局均值；(4) 使用特定公式计算总体标准差。这种方法的优势在于，只需要局部总体的统计信息，即可避免遍历所有数据，极大地减少了计算量和查询时间，提高了计算效率。总结来说，这个数据挖掘作业涵盖了数据统计分析的重要概念，包括百分位数的计算，箱线图的可视化和参数调整，以及分布式计算中计算标准差的策略。这些技能对于理解和处理大规模数据集至关重要，也是数据挖掘项目中常见的任务。

资源详情

资源评论

资源推荐