数据挖掘是信息技术领域的一个关键分支,它涉及到从大型数据集中提取有用信息的过程。在这个本科数据挖掘的作业11中,我们将探讨三个主要知识点:百分位数的计算、箱线图的绘制及其参数调整,以及分布式计算标准差的算法。 百分位数是一种衡量数据分布的统计量,它表示在数据集中的位置。例如,K百分位数表示有K%的数据值位于该百分位数之下。在提供的示例中,给定一个由逗号分隔的输入文件,我们首先需要对数据进行排序,然后根据K值找到相应的百分位数。计算方法包括线性插值、下界、上界、中点和最近邻。例如,当K=20时,排序后的列表[-100, -35, 7, 14, 20, 32, 32, 69, 100],可以通过这些方法得出不同的百分位数估计。线性插值法可以得到-26.620,下界是-35,上界是7,中点是-14.0,而最近邻结果是7。这些方法的选择取决于数据特性和应用需求。 箱线图(Boxplot)是一种可视化数据分布的常用工具,用于展示数据的五数概括(最小值、下四分位数、中位数、上四分位数、最大值)。在例子程序中,箱线图的flierprops参数用于定义离群值的样式。原设置为flierprops={'marker': 'x', 'markerfacecolor': 'red', 'color': 'black'},我们可以看到其中的标记为'x',颜色为红色,边框颜色为黑色。通过修改这些参数,如将'marker'更改为'o','markerfacecolor'更改为'yellow',我们改变离群值的形状和填充色,从而创建不同的箱线图效果。例如,当data数组从[-35, 10, 21, 30, 40, 50, 60, 71, 126]更改为[-35, 10, 21, 30, 40, 50, 60, 122, 300]时,箱线图会反映出数据分布的变化。 我们讨论分布式计算标准差的算法。在大数据处理中,计算整个数据集的标准差可能非常耗时,因此分布式计算方法成为必需。该方法涉及以下步骤:(1) 分割数据成多个局部总体Pi;(2) 计算每个局部总体的均值μi、标准差STD.Pi和数据个数ni;(3) 汇总所有局部总体的均值以计算全局均值;(4) 使用特定公式计算总体标准差。这种方法的优势在于,只需要局部总体的统计信息,即可避免遍历所有数据,极大地减少了计算量和查询时间,提高了计算效率。 总结来说,这个数据挖掘作业涵盖了数据统计分析的重要概念,包括百分位数的计算,箱线图的可视化和参数调整,以及分布式计算中计算标准差的策略。这些技能对于理解和处理大规模数据集至关重要,也是数据挖掘项目中常见的任务。
- 粉丝: 34
- 资源: 311
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
评论0