没有合适的资源?快使用搜索试试~ 我知道了~
数据挖掘学习之路四:Python去极值方法
5星 · 超过95%的资源 5 下载量 175 浏览量
2020-12-23
01:48:58
上传
评论 1
收藏 36KB PDF 举报
温馨提示
试读
1页
1. MAD #MAD(mean absolute deviation)又称为绝对值差中位数法,是一种先需计算所有因子与平均值之间的距离总和来检测离群值的方法. #处理的逻辑: #第一步,找出所有因子的中位数 Xmedian #第二步:得到每个因子与中位数的绝对偏差值 Xi?Xmedian #第三步:得到绝对偏差值的中位数 MAD #第四步:确定参数 n,从而确定合理的范围为 [Xmedian?nMAD,Xmedian+nMAD],并针对超出合理范围的因子值做如下的调整 #超出最大值的用最大值代替,小于最小值的用最小值代替。 def filter_extreme_MAD(series,n):
资源详情
资源评论
资源推荐
数据挖掘学习之路四:数据挖掘学习之路四:Python去极值方法去极值方法
1. MAD
#MAD(mean absolute deviation)又称为绝对值差中位数法,是一种先需计算所有因子与平均值之间的距离总和来检测离群
值的方法.
#处理的逻辑:
#第一步,找出所有因子的中位数 Xmedian
#第二步:得到每个因子与中位数的绝对偏差值 Xi?Xmedian
#第三步:得到绝对偏差值的中位数 MAD
#第四步:确定参数 n,从而确定合理的范围为 [Xmedian?nMAD,Xmedian+nMAD],并针对超出合理范围的因子值做如下的
调整
#超出最大值的用最大值代替,小于最小值的用最小值代替。
def filter_extreme_MAD(series,n): #MAD:中位数去极值
median = series.quantile(0.5)
new_median = ((series - median).abs()).quantile(0.50)
max_range = median + n*new_median
min_range = median - n*new_median
return np.clip(series,min_range,max_range)
data6=Series([18,18,19,19,20,20,100])
data7 = filter_extreme_MAD(data6,7)
print(data7)
2. 3σ法法
#3σ法又称为标准差法。标准差本身可以体现因子的离散程度,是基于因子的平均值 Xmean而定的。
#在离群值处理过程中,可通过用 Xmean±nσ来衡量因子与平均值的距离。
#标准差法处理的逻辑与MAD法类似:
#第一步:计算出因子的平均值与标准差
#第二步:确认参数 n(这里选定 n = 3)
#第三步:确认因子值的合理范围为 [Xmean?nσ,Xmean nσ],并对因子值作如下的调整:
#超出最大值的用最大值代替,小于最小值的用最小值代替。
def filter_extreme_3sigma(series,n=3): #3 sigma
mean = series.mean()
std = series.std()
max_range = mean + n*std
min_range = mean - n*std
print(max_range)
print(min_range)
return np.clip(series,min_range,max_range)
data8 = filter_extreme_3sigma(data6)
print(data8)
3. 百分位法百分位法
#将因子值进行升序的排序,对排位百分位高于97.5%或排位百分位低于2.5%的因子值,进行类似于 MAD 、 3σ 的方法进行
调整。
def filter_extreme_percentile(series,min = 0.10,max = 0.90): #百分位法
series = series.sort_values()
q = series.quantile([min,max])
return np.clip(series,q.iloc[0],q.iloc[1])
data9 = filter_extreme_percentile(data6)
print(data9)
作者:安然烟火
weixin_38600460
- 粉丝: 5
- 资源: 955
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论5