没有合适的资源?快使用搜索试试~ 我知道了~
Python数据挖掘基础(四):Pandas高级处理
1 下载量 127 浏览量
2021-01-20
02:07:44
上传
评论
收藏 83KB PDF 举报
温馨提示
试读
2页
目录1. 缺失值处理2. 数据离散化2.1 为什么要离散化?2.2 什么是数据的离散化?2.3 股票涨跌幅分组数据变成one-hot编码3. 合并4. 交叉表与透视表5. 分组与聚合 1. 缺失值处理 本文所使用到的所有数据在此处下载: 链接:https://pan.baidu.com/s/16ayvfRw95K0xma9o3YPN3Q 密码:qgt3 判断缺失值是否存在,示例代码如下: import numpy as np import pandas as pd type(np.NAN) # float # 读取电影数据 movie_data = pd.read_csv(./data
资源详情
资源评论
资源推荐
Python数据挖掘基础数据挖掘基础(四四)::Pandas高级处理高级处理
目录目录1. 缺失值处理2. 数据离散化2.1 为什么要离散化?2.2 什么是数据的离散化?2.3 股票涨跌幅分组数据变成one-hot编码3. 合
并4. 交叉表与透视表5. 分组与聚合
1. 缺失值处理缺失值处理
本文所使用到的所有数据在此处下载:
链接:https://pan.baidu.com/s/16ayvfRw95K0xma9o3YPN3Q 密码:qgt3
判断缺失值是否存在,示例代码如下:
import numpy as np
import pandas as pd
type(np.NAN) # float
# 读取电影数据
movie_data = pd.read_csv("./data/IMDB-Movie-Data.csv")
# 1.判断是否存在缺失值
np.any(pd.isnull(movie_data)) # 里面如果有一个缺失值,就返回True
# 2.判断缺失值是否存在
np.all(pd.notnull(movie_data)) # 里面如果有一个缺失值,就返回False
处理缺失值,示例代码如下:
# 处理缺失值
# 1.删除缺失值 pandas删除缺失值,使用dropna的前提是,缺失值的类型必须是np.nan
movie_data.dropna() # 不修改原数据
np.any(pd.isnull(movie_data)) # True
data = movie_data.dropna() # 可以使用一个新的变量接收它
np.any(pd.isnull(data)) # False
# 2.替换缺失值
# 不修改原有的数据 用平均值来进行代替
data2 = movie_data["Revenue (Millions)"].fillna(value=movie_data["Revenue (Millions)"].mean())
# 直接将原有的数据进行修改
# movie_data["Revenue (Millions)"].fillna(value=movie_data["Revenue (Millions)"].mean(), inplace=True)
data2
# 3.替换所有缺失值
for i in movie_data.columns:
# print(i)
if np.all(pd.notnull(movie_data[i])) == False:
# print(i)
# 替换
movie_data[i].fillna(value=movie_data[i].mean(), inplace=True)
np.any(pd.isnull(data))
不是缺失值 nan 的,而是有 ? 等默认标记的处理,示例代码如下:
# 有默认标记的处理
# 数据准备
wis = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data")
# 1.先替换"?"为np.nan to_replace: 替换前的值 value: 替换后的值
wis = wis.replace(to_replace="?", value=np.nan)
# 2.在进行缺失值的处理
wis.dropna()
2. 数据离散化数据离散化
2.1 为什么要离散化为什么要离散化?
连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据
挖掘的工具。
2.2 什么是数据的离散化什么是数据的离散化?
连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子
区间中的属性值。离散化有很多种方法,这里使用一种最简单的方式去操作,如下:
原始人的身高数据:165,174,160,180,159,163,192,184
假设按照身高分几个区间段:150~165, 165~180,180~195
weixin_38605144
- 粉丝: 6
- 资源: 945
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0