### 数据的概括性度量——统计学知识点详解 #### 一、引言 在数据分析领域,数据的概括性度量是统计学中的基础概念之一,它帮助我们理解数据集的基本特征,包括数据的集中趋势、离散程度以及分布形状等。这些度量不仅能够帮助我们快速了解数据的主要特点,还能为进一步的统计分析和建模提供重要的参考。 #### 二、集中趋势的度量 集中趋势的度量是指用来描述数据集中位置的统计量,主要包括众数、中位数和平均数。 **1. 众数** - **定义**: 众数是一组数据中出现次数最多的数值。 - **表示**: 通常用M表示。 - **适用场景**: 适合数据量较多时使用,特别适用于分类数据,也可以用于顺序数据和数值型数据。 - **特点**: - 不受极端值的影响。 - 一组数据可能没有众数或者存在多个众数。 **2.1.1 众数的类型** - 单峰众数:只有一个最高频率的值。 - 多峰众数:存在两个或两个以上的最高频率值。 - 无众数:所有数值出现的次数相同。 **2.1.2 分类数据的众数(例题分析)** 示例:在某项调查中,收集了人们对颜色偏好的数据。假设结果如下:红、蓝、绿、蓝、蓝、红、绿、红、蓝、绿。其中,“蓝”出现了3次,为最多,故“蓝”为该数据集的众数。 **2.2 顺序数据:中位数和分位数** - **中位数** - 定义:将数据按大小顺序排列后位于中间位置的数值。 - 特点: - 不受极端值的影响。 - 适用于顺序数据,也可用于数值型数据,但不适合用于分类数据。 - 各变量值与中位数的离差绝对值之和最小。 - **位置确定**:当数据量为奇数时,中位数位于正中间;数据量为偶数时,中位数为中间两个数的平均值。 - **数值确定**:如数据量为9,则中位数为第5个数;若数据量为10,则中位数为第5个数和第6个数的平均值。 - **例题分析**:对于数据集{1, 3, 5, 7, 9},中位数为5;对于数据集{1, 3, 5, 7, 9, 11},中位数为(5+7)/2 = 6。 - **分位数** - 定义:将所有数值从小到大排列并分成等份,处于各个分割点位置的数值即为分位数。 - **四分位数**: - 下四分位数(QL):第25百分位数,即n/4处的位置。 - 上四分位数(QU):第75百分位数,即3n/4处的位置。 - **例题分析**:对于数据集{1, 2, 3, 4, 5, 6, 7, 8, 9},下四分位数为第3个数,即3;上四分位数为第7个数,即7。 **2.3 数值型数据:平均数** - **算术平均数** - 定义:所有数值的总和除以数值个数。 - 特点: - 集中趋势的最常用测度值。 - 易受极端值影响。 - 包括简单平均数和加权平均数。 - **例题分析**:对于数据集{1, 2, 3, 4, 5},算术平均数为(1+2+3+4+5)/5 = 3。 **2.4 众数、中位数和平均数的比较** - **适用数据类型**: - 众数:适用于分类数据、顺序数据、数值型数据。 - 中位数:适用于顺序数据、数值型数据。 - 平均数:适用于数值型数据。 - **特点和应用**: - 众数不受极端值影响,具有非唯一性,在数据分布偏斜程度较大且有明显峰值时使用。 - 中位数不受极端值影响,在数据分布偏斜程度较大时使用。 - 平均数易受极端值影响,数学性质优良,在数据对称分布或接近对称分布时使用。 #### 三、离散程度的度量 离散程度的度量是用来描述数据分散情况的统计量,主要包括异众比率、四分位差、方差和标准差等。 **3.1 分类数据:异众比率** - **定义**:非众数组的频数占总频数的比例。 - **计算公式**:\[ \text{异众比率} = 1 - \frac{\text{众数频数}}{\text{总频数}} \] - **适用场景**:用于衡量众数的代表性。 **3.2 顺序数据:四分位差** - **定义**:上四分位数与下四分位数之差。 - **特点**: - 反映了中间50%数据的离散程度。 - 不受极端值的影响。 - **计算公式**:\[ \text{四分位差} = \text{上四分位数} - \text{下四分位数} \] **3.3 数值型数据:方差和标准差** - **极差**:数据的最大值与最小值之差,是最简单的离散程度度量,但容易受到极端值的影响。 - **平均差**:各变量值与其平均数离差绝对值的平均数,能全面反映一组数据的离散程度,但数学性质较差。 - **方差和标准差** - **定义**:数据离散程度的最常用测度值,反映了各变量值与均值的平均差异。 - **总体方差和标准差**: - 方差:\[ \sigma^2 = \frac{\sum (x_i - \mu)^2}{N} \] - 标准差:\[ \sigma = \sqrt{\sigma^2} \] - **样本方差和标准差**: - 方差:\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} \] - 标准差:\[ s = \sqrt{s^2} \] - **自由度**:在计算样本方差时,由于样本均值的计算已经使用了一个数据点的信息,因此在计算方差时,有效数据点的数量减少了1,即自由度为n-1。 通过以上对集中趋势度量和离散程度度量的详细介绍,我们可以更深入地理解如何运用这些基本统计量来描述和分析数据。这些度量方法不仅是统计学的基础,也是进行高级统计分析和机器学习的前提。
剩余19页未读,继续阅读
- 粉丝: 224
- 资源: 386
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 100_Numpy_exercises.ipynb
- 2023-04-06-项目笔记 - 第三百二十六阶段 - 4.4.2.324全局变量的作用域-324 -2025.11.23
- 一个简单的模板,开始用 Python 编写你自己的个性化 Discord 机器人.zip
- TP-Link 智能家居产品的 Python API.zip
- 一个需要十一个字才能i激活的神奇代码-OLP
- 如果你喜欢 Python,请使用此模板.zip
- 带有 python 3 和 opencv 4.1 的 Docker 映像.zip
- 知识领域,内容概要,使用场景及目标
- 《基于MATLAB的三段式距离保护建模与仿真》
- 基于Keras的LSTM多变量时间序列预测.zip