### 数据分析方法(数据挖掘与统计学结合)
#### 内容概要
本书旨在为读者提供一个全面的数据分析视角,不仅覆盖了统计学的基础理论,还深入探讨了现代机器学习技术的应用。全书分为三个主要部分:概率论回顾、数理统计简介以及机器学习方法。
#### 第一部分 概率论回顾
##### 随机变量的分布及数字特征
- **几种常见的分布**:
- **二项分布**:适用于只有两种可能结果的试验,例如抛硬币。
- **泊松分布**:用于描述单位时间内事件发生的次数,如顾客到达服务台的次数。
- **分布函数**与**概率密度函数**:前者给出随机变量小于等于某值的概率;后者用于连续型随机变量,表示随机变量落在某一小区间内的概率密度。
- **指数分布**:常用于描述等待时间的分布,如顾客在银行等待服务的时间。
- **正态分布(高斯分布)**及其**标准正态分布**:正态分布在统计学中极其重要,标准正态分布是均值为0、标准差为1的正态分布。
- **随机变量的数字特征**:
- **数学期望**:反映随机变量取值的平均趋势。
- **方差**:衡量随机变量与其数学期望之间的偏差程度。
- **协方差**与**相关系数**:分别用于度量两个随机变量的线性相关性和相关强度。
- **随机向量**:
- **联合分布**:描述多个随机变量同时出现的概率分布。
- **均值向量**与**协方差矩阵**:用于描述多维随机向量的集中趋势和分散程度。
- **均值向量和协方差矩阵的性质**:包括但不限于矩阵的可加性、乘积性质等。
##### 中心极限定理与大数律
- **中心极限定理**:当独立同分布的随机变量个数足够大时,这些随机变量的和的标准化版本趋于正态分布。
- **大数律**:描述了随着试验次数的增加,样本均值趋于总体均值的趋势。
#### 第二部分 数理统计简介
##### 描述统计简介
- **描述统计**:利用图表或数学方法对数据进行整理、分析和描述的一种方法。
- **描述统计量**:
- **样本均值**、**中位数**、**众数**:分别表示数据集中的平均水平、中间位置和最频繁出现的值。
- **标准差**、**变异系数**、**标准误**:用于衡量数据的离散程度。
- **偏度**与**峰度**:描述数据分布形状的指标。
- **极差**与**四分位差**:用于衡量数据的波动范围。
- **图表**:
- **直方图**:展示数据分布情况的有效工具。
- **盒形图**:用于直观地显示一组数据的五数概括。
##### 参数估计
- **最大似然估计**:一种常用的参数估计方法,通过最大化似然函数来估计未知参数。
- **似然函数**:根据观察到的数据计算出的参数可能性大小的函数。
- **似然函数的最大化**:寻找使似然函数达到最大值的参数值。
- **正态分布的参数估计**:介绍如何基于数据估计正态分布的均值和方差。
- **区间估计**:
- **置信区间与置信水平**:置信区间用来估计参数的真实值所在的范围,而置信水平表示该区间包含真实值的可能性大小。
- **正态分布均值的区间估计**:根据样本均值和标准误计算置信区间的上下限。
#### 第三部分 机器学习方法
本书接下来的部分将详细介绍各种机器学习算法和技术,包括EM算法、监督学习、kNN算法、决策树学习、人工神经网络、支持向量机等,并介绍模型评估方法如交叉验证和AdaBoost算法。这些内容将在后续章节中逐一展开。