没有合适的资源?快使用搜索试试~ 我知道了~
pandas数据的异常值判断、可视化以及异常值的处理
38 下载量 8 浏览量
2021-01-06
19:30:24
上传
评论 4
收藏 112KB PDF 举报
温馨提示
试读
3页
pandas数据的异常值判断、可视化、处理方式 回想一下我们小时候参加唱歌比赛,最后算分的时候总会去掉一个最高分,去掉一个最低分,将剩下的分数进行去平均。这里面就有筛选异常值的思想。一个非常夸张的异常值可能会造成对最后统计结果产生比较大的影响。所以,在这里,我们介绍两种办法来判断异常值,并使用箱线图进行显示。 异常值的判断 1、使用均值和标准差进行判断 mean 为数据的均值 std 为数据的标准差 数据的正常范围为 【mean-2 × std,mean+2 × std】 接下来我们使用代码来看看 import pandas as pd import numpy as np tips = pd
资源推荐
资源详情
资源评论
pandas数据的异常值判断、可视化以及异常值的处理数据的异常值判断、可视化以及异常值的处理
pandas数据的异常值判断、可视化、处理方式数据的异常值判断、可视化、处理方式
回想一下我们小时候参加唱歌比赛,最后算分的时候总会去掉一个最高分,去掉一个最低分,将剩下的分数进行去平均。这里
面就有筛选异常值的思想。一个非常夸张的异常值可能会造成对最后统计结果产生比较大的影响。所以,在这里,我们介绍两
种办法来判断异常值,并使用箱线图进行显示。
异常值的判断异常值的判断
1、使用均值和标准差进行判断、使用均值和标准差进行判断
mean 为数据的均值
std 为数据的标准差
数据的正常范围为 【mean-2 × std,mean+2 × std】
接下来我们使用代码来看看
import pandas as pd
import numpy as np
tips = pd.read_csv('tips.csv')
tipmean=tips['tip'].mean()
tipstd = tips['tip'].std()
topnum1 =tipmean+2*tipstd
bottomnum1 = tipmean-2*tipstd
print(tips.head(10))
print("正常值的范围:",topnum1,bottomnum1)
print("是否存在超出正常范围的值:",any(tips['tip']>topnum1))
print("是否存在小于正常范围的值:",any(tips['tip']<bottomnum1))
咱们先看输出结果吧:
首先咱们读入了tips.csv文件,将前十条数据输出到控制台中
我们这次主要使用的是文件中的tip这一列数据,通过mean()、std()两种方法分别计算出了这一列数据的均值和标准差。
通过any()函数分别判断数据中是否存在异常值
结果显示,存在超出正常范围的异常值,不存在小于正常范围的异常值。
使用上四中位数和下四中位数进行异常值判定使用上四中位数和下四中位数进行异常值判定
mean1 为上四中位数(就是将数据按从小到大排列,取3/4这个位置的数)
mean2 为下四中位数(同上,取1/4位置的数)
mean3 为中位差 mean3 = mean1-mean2
正常值的范围应在【mean2-1.5×mean3,mean1+1.5×mean2】
下面看代码:
import pandas as pd
import numpy as np
tips = pd.read_csv('tips.csv')
mean1 = tips['tip'].quantile(q=0.25)#下四分位差
mean2 = tips['tip'].quantile(q=0.75)#上四分位差
mean3 = mean2-mean1#中位差
topnum2 = mean2+1.5*mean3
资源评论
weixin_38714370
- 粉丝: 2
- 资源: 905
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 实验项目一:线性表(模板 ).docx
- 基于LM317A设计交流220V输入可调5V-12V直流输出稳压电源电路multisim10仿真源文件.zip
- Screenshot_2024-04-25-17-04-18-55_2332cb9b27b851b548ba47a91682926c.jpg
- -基于AVR单片机的LNG加液机控制器设计.pdf
- ThePowerOfNow-EckhartTolle.mobi
- BLOCK_TYPE_HEARTBEAT_D70A3465D4EE4E9_046141_dump_1st.dmp
- 项目方法测试调用接口工具
- studyupdate
- 基于西瓜数据集的决策树实现.zip
- 60套HTML网站源码-响应式-涵盖(简历&作品展示&商业&科技&培训&商城&课设等)-适配移动设备-解压即用.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功