# encoding: utf-8
__author__ = 'mtianyan'
__date__ = '2018/3/21 0021 15:57'
import pandas as pd
df = pd.read_csv('./data/HR.csv')
# 其他可选参数: sep="\t" 不止可以读csv,可以指定其他分隔符
print(type(df))
# 组成df里的每一列数据又是一个Series
print(type(df['satisfaction_level']))
print('*****************************')
# 平均数
print(df.mean())
# 返回的是一个series类型的
print(type(df.mean()))
# 使用series直接求均值,得到一个值
print(df['satisfaction_level'].mean())
print('*****************************')
# 中位数
print(df.median())
# series的中位数
print (df['satisfaction_level'].median())
print('*****************************')
# 分位数
# 四分位数填入0.25
print(df.quantile(q=0.25))
print(df['satisfaction_level'].quantile(q=0.25))
print('*****************************')
# 众数:返回可能有点不同,因为众数有可能不是唯一的.出现几个就会返回几个。
# 对于返回的这个dataframe,它的行数取决于众数最多的那一列
print(df.mode())
print('*****************************')
# 对于series求众数,返回的也是一个series
print(df['satisfaction_level'].mode())
print('*****************************')
# 离中趋势
# 标准差std
print(df.std())
print('*****************************')
print(df['satisfaction_level'].std())
print('*****************************')
# 方差
print(df.var())
print('*****************************')
print(df['satisfaction_level'].var())
print('*****************************')
# 求和:离散数据求和变成了字符串相连
print(df.sum())
print('*****************************')
print(df['satisfaction_level'].sum())
print('*****************************')
# 偏态系数
print(df.skew())
print('*****************************')
# 满意度级别的偏态系数为负的,说明它的平均值偏小,也就是它的大部分值是大于平均值,它是负偏。所以它的satisfaction_level是处于大多数人比较好的状态
print(df['satisfaction_level'].skew())
print('*****************************')
# 峰态系数(针尖还是山丘)
# 这里的峰态系数以正态分布为0作为标准的。也就是减过3了。
print(df.kurt())
print('*****************************')
print(df['satisfaction_level'].kurt())
# -0.67 ,与正态0相比差值不到2,相对平缓的
print('*****************************')
# 分布函数
import scipy.stats as ss
# 生成一个正态分布的对象
ss.norm
# 查看这个正态分布对象的性质
# 'm' = mean, 均值
# 'v' = variance, 方差
# 's' = (Fisher's) skew, 偏态系数
# 'k' = (Fisher's) kurtosis. 峰态系数
print(ss.norm.stats(moments="mvsk"))
# (array(0.0), array(1.0), array(0.0), array(0.0))
# 正态分布均值0,方差1,偏态系数和峰态系数都是0
print('*****************************')
# 指定横坐标,返回纵坐标的值
print(ss.norm.pdf(0.0))
# 0.398942280401这就是这个分布函数在0这一点的值
# 标准正态分布,它的标准差方差是1,均值是0.此时输入0就会得到0.398
print('*****************************')
# 输入值必须在0到1之间,表示一个累积值
print(ss.norm.ppf(0.9))
# 1.28155156554
# 表示从负无穷一直累积到1.28得到的值是0.9
# 从负无穷大到正无穷大积分是1:积分是0.9的时候,积分区间是从负无穷到1.28
print('*****************************')
# 从负无穷积到给定数字的积分大小,累积概率大小
print(ss.norm.cdf(2))
# 0.977249868052
print('*****************************')
# cdf(2)到cdf(-2)之间的积分概率为0.9544
# 两倍的标准差 - 负两倍的标准差。这中间的累积概率
print(ss.norm.cdf(2)-ss.norm.cdf(-2))
print('*****************************')
# 产生正态分布的数字
print(ss.norm.rvs(size=10))
# 卡方分布
ss.chi2
# T分布
ss.t
# f分布
ss.f
# pdf(指定横坐标,返回纵坐标的值)
# ppf(输入值必须在0到1之间,表示一个累积值) :也就是从负无穷到所求未知数字的为输入参数:区间累积概率。
# cdf 给定一个数字,求从负无穷到这个数字区间的累积概率。
# rvs 给出符合某一分布的数字
print('*****************************')
# 抽样
# 按个数
print(df.sample(n=5))
# 按百分比,150 * 0.001 * 100 取15个
print(df.sample(frac=0.001))
print('*****************************')
print(df['satisfaction_level'].sample(5))
# 学习方法,打开官网随用随查
# https://www.scipy.org/
# https://pandas.pydata.org/
# 十分钟接触pandas
# 进阶: http://pandas.pydata.org/pandas-docs/stable/api.html
没有合适的资源?快使用搜索试试~ 我知道了~
Python3数据分析与挖掘建模实战 学习代码开发
共36个文件
ipynb:22个
py:7个
xml:4个
需积分: 5 1 下载量 201 浏览量
2024-09-03
22:34:46
上传
评论
收藏 414KB ZIP 举报
温馨提示
【项目资源】:包含前端、后端、移动开发、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源,毕业设计等各种技术项目的源码。包括C++、Java、python、web、C#、EDA等项目的源码。 【适用人群】:适用于希望学习不同技术领域的初学者或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】:项目具有较高的学习借鉴价值,也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。鼓励下载和使用,并欢迎大家互相学习,共同进步。
资源推荐
资源详情
资源评论
收起资源包目录
Python3数据分析与挖掘建模实战 学习代码开发.zip (36个子文件)
py3DataMining-new33
3-20 department的分析.ipynb 6KB
3-11 SatisfactionLevelAnalysis.py 2KB
3-19 Salary的分析.ipynb 5KB
3-16 Work_accident.ipynb 785B
3-24 可视化-箱线图.ipynb 7KB
data
HR.csv 539KB
3-25 可视化-折线图.ipynb 43KB
3-18 promotion_last_5years 分析.ipynb 3KB
3-14 average_monthly_hours.py 2KB
3-15 time_spend_company.py 298B
3-12 简单对比分析操作.ipynb 90KB
3-1 pandas_read_csv.py 2KB
3-13 number_project.py 864B
.idea
vcs.xml 180B
misc.xml 288B
modules.xml 278B
deployment.xml 359B
py3DataMining.iml 455B
3-12 last_evaluation.py 1KB
3-5 statistics_num.py 4KB
a.csv 4KB
3-17 Left的分析.ipynb 2KB
3-23 可视化-直方图.ipynb 31KB
.ipynb_checkpoints
3-12 简单对比分析操作-checkpoint.ipynb 90KB
3-16 Work_accident-checkpoint.ipynb 3KB
3-22 可视化-柱状图-checkpoint.ipynb 35KB
3-24 可视化-箱线图-checkpoint.ipynb 7KB
3-19 Salary的分析-checkpoint.ipynb 5KB
3-23 可视化-直方图-checkpoint.ipynb 31KB
3-20 department的分析-checkpoint.ipynb 6KB
3-18 promotion_last_5years 分析-checkpoint.ipynb 3KB
3-26 可视化-饼图-checkpoint.ipynb 79KB
3-17 Left的分析-checkpoint.ipynb 2KB
3-25 可视化-折线图-checkpoint.ipynb 43KB
3-22 可视化-柱状图.ipynb 35KB
3-26 可视化-饼图.ipynb 79KB
共 36 条
- 1
资源评论
白话Learning
- 粉丝: 4632
- 资源: 3009
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功