import numpy as np
import pandas as pd
#1.基本信息
def basic_information(detail):
print("1.属性列表为:",detail.columns)
print("2.数据的维度为:",detail.ndim)
print("3.数据矩阵的格式",detail.shape)
print("4.数据的具体信息")
detail.info()
print("\n")
#2.剔除整列为空或者取值相同的列
#-----------------------------------方法1---------------------------------------------------------------
def dropNullStd(data):
beforelen=data.shape[1]
colisNull=data.describe().loc["count"] #每一列值不为空的总数
for i in range(len(colisNull)): #遍历所有的列的count
if colisNull[i]==0 : #筛选出计数为0,表示为空,将其删除
data.drop(colisNull.index[i],axis=1,inplace=True)
stdisZero=data.describe().loc["std"] #std表示每一列的标准差
for i in range(len(stdisZero)):
if stdisZero[i]==0:
data.drop(stdisZero.index[i],axis=1,inplace=True)
afterlen=data.shape[1] # shape[0]表示行 shape[1]表示列
print('\n剔除的列的数目为',beforelen-afterlen)
print("剔除数据的形状为",data.shape) #剔除后的列表
#对drop参数的理解
#1.colisNull.index[i]表示删除表的行号或列好
#2.axis=0表示操作对象是行,axis=1表示操作对象是列
#3.inplace=True表示直接在原表上操作,False表示重新创建一个新表进行操作
#--------------------------方法2--------------------------------------------------------
def dropNullStd2(master):
xlist=[]
#找出不符合要求的项,将它们装入列表xlist
for i in master.columns: #遍历每一列
try:
if master[i].describe()["std"]==0: #标准差为0时,表示所有的值相同
xlist.append(i)
except TypeError as e:
if master[i].destribe()["unique"]==0: #去除为空的列
xlist.append(i)
except TypeError as e:
pass
except KeyError as e2:
pass
print("要删除的列为:",xlist)
#将他们遍历,逐一删除
try:
for i in xlist:
master.drop(i,axis=1,inplace=True)
except ValueError as e:
pass
print("剔除数据的形状为",master.shape)
#----------------------------------------------------------------------
filepath1="Training_Master.csv"
data=pd.read_csv(filepath1,sep=",",encoding="GBK")
basic_information(data)
print("5.数据idx和UserInfo_1两列的描述性统计:\n",data[["Idx","UserInfo_1"]].describe())
#dropNullStd(data)
dropNullStd2(data)
没有合适的资源?快使用搜索试试~ 我知道了~
data_大数据实验四1_源码
共7个文件
py:4个
csv:3个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 40 浏览量
2021-10-02
01:45:12
上传
评论
收藏 7.21MB RAR 举报
温馨提示
大数据分析课本中的实验四,四个实训全都在,仅供参考
资源推荐
资源详情
资源评论
收起资源包目录
data.rar (7个子文件)
data
实验四3.py 1KB
实验四1.py 3KB
Training_Master.csv 19.38MB
实验四4.py 895B
Training_LogInfo.csv 18.08MB
实验四2.py 2KB
Training_Userupdate.csv 14.61MB
共 7 条
- 1
资源评论
心若悬河
- 粉丝: 51
- 资源: 3956
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功