狭义数据分析1 抽样理论 集中趋势:均值、中位数、分位数、众数 离中趋势:标准差、⽅差 数据分布:偏态、峰态、正态分布 抽样理论:抽样误差、抽样精度 均值 df.mean() 计算:数字加起来除以总量 作⽤:经常⽤来衡量⼀些连续值,尤其是分布⽐较规律、均匀的连续值的集中趋势。 中位数 df.median() 作⽤:衡量异常值,有⼀些特别⼤或者特别⼩,⽤中位数衡量异常值的集中趋势。 众数 df.mode() 作⽤:⽤在离散值的集中趋势衡量。 分位数 df.quantile() 概述:就是把数据从⼩到⼤排列,然后切分成等份的数据点,最常⽤是四分位数。 计算:总数n,Q1位置=(n+1)*0.25,Q2位置=(n+1)*0.5,Q3位置=(n+1)*0.75 作⽤:配合其他⼀起使⽤ 离中趋势:df.std() df.var() 是数据离散程度的衡量,衡量的量有标准差和⽅差 ⽅差或标准差越⼤就表⽰数据越离散,越⼩就表⽰数据越聚拢 偏态系数: df.skew() 数据平均值偏离状态的⼀种衡量,要注意的是这⾥偏态的偏指的是偏离平均值,通常⼀个对称性的数据来讲,他的中位数和平均值是⾮常接 近的。但有的时候数据并⾮是对称分布的,这样中位数和均值就会差得⽐较多,这样的分布就是有偏态的分布。均值⽐中位数⼤就是正偏。 如果算出来的偏态系数是负的,就是负偏,那就是处于⼀个⽐较好的状态,⼤多数⼈⽐较满意的状态。 峰态系数: 数据集中程度的衡量,这个值越⼤,顶就会越尖,这个值越⼩,分布就会更平缓⼀些。正太分布的峰态系数是3,所以经常有算法将这个值 减去3,将正太分布的系数定为0也是可以的。如果有⼀个分布的峰态系数 1<K<5 也就是说他和正态分布的峰态系数相差⼤于了2,那么基 本可以断定这个分布不是正太分布了。所以峰态系数主要的作⽤就是可以直接否定⼀个分布不是正态分布。 三⼤分布: 卡⽅分布,t分布,f分布 卡⽅分布: ⼏个变量都是标准正态分布(均值为0,⽅差为1),如果⼏个标准正态分布,它的平⽅和满⾜⼀个分布,那么这个分布就是卡⽅分布。 t分布: 正态分布的⼀个随机变量除以⼀个服从卡⽅分布的变量就是t分布。 作⽤:t分布经常⽤来根据⼩样本,来估计成正态分布且⽅差未知的总体的均值 f分布: 是由构成两个服从卡⽅分布的随机变量的⽐构成的,就是两个卡⽅分布的商。 正态分布的定义 有⼏种不同的⽅法⽤来说明⼀个随机变量。最直观的⽅法是概率密度函数,这种⽅法能够表⽰随机变量每个取值有多⼤的可能性。累积分布 函数是⼀种概率上更加清楚的⽅法 抽样理论 抽样分为重复抽样和⾮重复抽样(抽完以后不放回) 抽样⽅式:完全随机抽样,等差距抽样(根据某个属性,从低到⾼进⾏排列,等差距的进⾏抽样),分类分层抽样(根据各个类别的⽐例进 ⾏抽样,保证样本在这个类别下的抽样与总体是⼀致的) 重复抽样的误差、⾮重复抽样的误差都有对应的计算公式 应⽤实例1----根据平均误差和平均值估计准确的平均值: 因为是放回的抽样,根据公式算出了误差 μ 因为有95%的概率保证,根据正太分布即为-2μ ~ +2μ之间,所以估计平均每条草鱼的质量在 平均值-2μ 到平均值+2μ之内 (1.86~2.14公⽄) 实例2---------计算要抽样的数量: 理论部分的代码实现 各个数值 import pandas as pd df = pd.read_csv(path) df.mean() df.median() df.var() 利⽤分布函数给出x值求出y值 import scipy.stats as ss ss.norm # ⽣成⼀个正太分布对象 ss.norm.stats(moments='mvsk')# 查看默认的正态分布的参数 mean var skew kurt # Out[13]: (array(0.), array(1.), array(0.), array(0.)) 利⽤公式 ss.norm.pdf(0.0)# 带⼊具体的x值 # Out[14]: 0.3989422804014327 ss.norm.pdf(0.0) Out[14]: 0.3989422804014327 ss.norm.ppf(0.9)# 概率密度函数从-⽆穷到+⽆穷的积分是1,ppf是指从-⽆穷到啥的积分是参数 Out[15]: 1.2815515655446004 ss.norm.cdf(2)# 从-⽆穷到给定参数的积分是多少 Out[16]: 0.9772498680518208 ss.norm.cdf(2) - ss.norm.cdf(-2)# Out[17]: 0.9544997361036416 ss.norm.rvs(size=10)# ⽣成10个符合正态分布的数 Out[18]: array([ 0.40
- 粉丝: 168
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助