没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
数据分析题总结(阿里)
、 异常值是指什么?请列举一种识别连续型变量异常值的方法?
异常值()是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指
一组观测值中与平均值的偏差超过两倍标准差的测定值。
常见的异常值检验方法:
基于统计的方法;
基于距离的方法;
基于密度的方法;
基于聚类的方法;
基于偏差的方法;
基于深度的方法;
检验:按照 分布的实际误差分布范围来判别异常值。首先剔除一个可疑值,然后按照 分布来检验剔除
的值是否为异常值。
狄克逊检验法:假设一组数据有序 ,且服从正态分布,则异常值最有可能出现在两端 和
。
表 狄克松检验统计量计算公式为
数据个数
统计量
为可疑值 为可疑值
≤ n ≤
(x
2
−x
1
)
(x
n
−x
1
)
(x
n
−x
n−1
)
(x
n
−x
1
)
≤ n ≤
(x
2
−x
1
)
(x
n−1
−x
1
)
(x
n
−x
n−1
)
(x
n
−x
2
)
≤ n ≤
(x
3
−x
1
)
(x
n−1
−x
1
)
(x
n
−x
n−2
)
(x
n
−x
2
)
≤ n ≤
(x
3
−x
1
)
(x
n−2
−x
1
)
(x
n
−x
n−2
)
(x
n
−x
3
)
格拉布斯检验法:与狄克松检验法思想一样,其检验公式为:
若最小值 是可以的 ,则检验统计量
x
, 为标准差,即
指数分布检验:
设一组测量数据 为 指 数分布,为了检验 数 据 中是 否存在异常值,将 其 按 大小顺序排列,即 :
,检验最小值或最大值是否为异常值的检验方法如下:
当样本量 时,计算统计量
对于给定的显著水平 (通常去 )和样本数量 ,通过查表得到 ()及 分别对应的临界值
()()及 。若 ()!()()时,认为 为异常值;若 时,认为
为异常值。
"#"" 和 $ 语言中通过绘制箱图可以找到异常值,分布在箱边框外部。
、 什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。
聚类分析(%&)是一组将研究对象分为相对同质的群组(%)的统计分析技术。聚类分
析也叫分类分析(%'%()&)或数值分类(*%))*&)。聚类与分类的不同在于,聚
类所要求划分的类是未知的。
聚类分析计算方法主要有:层次的方法、划分方法、基于密度的方法、基于网格的方法、基于模型
的方法等。其中,前两种算法是利用统计学定义的距离进行度量。 常见的聚类方法有:+,))&, 算法,
+- 算法 , ./0$01" 算 法 ( 划 分方 法 ) , 23$.4 算法( 层 次 方 法 ), .5$6 算 法( 层 次 方 法 ) ,
2".01 算法(基于密度的方法),./3756 算法(综合了基于密度和基于网格的算法);
8* 算法的工作过程说明如下:首先从 个数据对象任意选择 8 个对象作为初始聚类中心;而对
于所剩下的其它对象,则根据它们与这些聚类中心的相似度(距离),分别把它们分配给与其最相似的
(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断
重复这一过程知道标准测度函数开始收敛为止。一般都采用方差作为标准测度函数。 + 个聚类具有以下特
点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
其流程如下:
() 从 个数据对象中任意选择 8 个对象作为出是聚类中心;
() 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离
重新对相应对象进行划分;
() 重新计算每个(有变化的)聚类的均值(中心对象);
() 循环()()直到每个聚类不在发生变化为止(标准测度函数收敛)。
优点:本算法圈定的 + 个划分到达平均误差最小。当聚类是紧密的,且类与类之间区别明显时,效果较好 。
对于处理大数据及,这个算法是相对可伸缩和高效的,计算的复杂度为 +1,其中 1 是数据对象的数目,
+ 是聚类中心, 是迭代的次数。
缺点:、+ 是事先给定的,但非常难以选定;、初始聚类中心的选择对聚类结果又较大的影响。
、 数据标准化技术
是将数据按比例缩放,使之落入一个小的特定区间。去除数据的单位限制,将其转化为无量纲的纯数值 ,
便于不同单位或量级的指标能够进行比较和加权。常用的方法有:
() 总和标准化。分别要求各要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,
即:
() 标准差标准化,即:
由这种标准化方法所得到的新数据,各要素的平均值为 ,标准差为 ,即有:
() 极大值标准化,即
经过这种标准化所得的新数据,各要素的极大值为 ,其余各数值小于 。
() 极差的标准化,即:
经过这种标准化所得的新数据,各要素的极大值为 ,极小值为 ,其余的数值均在 与 之间。
、 缺失值处理方法
) 直接丢弃含缺失数据的数据
如:个案剔除法,这种方法有很大的局限性。它是以减少样本量来换取信息的完备,会造成资源的大量
浪费,丢弃了大量隐藏在这些对象中的信息。当缺失数据所占比例较大,,特别是当缺失数据费随机分布
时,这种方法可能导致数据发生偏离,从而得出错误的结论。
) 补缺
0. 用平均值来代替所有缺失数据:均值替换法,均值替换法也是一种简便、快速的缺失数据处理方法。
使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺
失(-.0$)的假设之上的,而且会造成变量的方差和标准差变小。
2. +最近距离邻居法:先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的 + 个样本,将这
+ 个值加权平均来估计该样本的缺失数据。
剩余14页未读,继续阅读
资源评论
胖铎不怕风大
- 粉丝: 10
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功