没有合适的资源?快使用搜索试试~ 我知道了~
DataWhale——Task01:Pandas基础
3 下载量 118 浏览量
2020-12-21
09:00:18
上传
评论
收藏 566KB PDF 举报
温馨提示
试读
12页
DataWhale:Task01 Pandas基础 学习内容分为以下两个部分: 理论部分 掌握常见文件格式的读写操作 理解并熟悉 Series 和 DataFrame 的重要属性和重要方法 掌握各类排序(索引排序和值排序、单级排序和多级排序) 练习部分 《权利的游戏》剧本数据集分析 科比投篮数据集分析 —————————————–进入正题—————————————– (一)两个库 NumPy NumPy是一个科学计算基础库其中提供了许多向量和矩阵操作,能让用户轻松完成最优化、线性代数、积分、插值、特殊函数、傅里叶变换、信号处理和图像处理、常微分方程求解以及其他科学与工程中常用的计算,不仅方便易
资源详情
资源评论
资源推荐
DataWhale——Task01::Pandas基础基础
DataWhale::Task01 Pandas基础基础
学习内容分为以下两个部分:
理论部分
掌握常见文件格式的读写操作
理解并熟悉 Series 和 DataFrame 的重要属性和重要方法
掌握各类排序(索引排序和值排序、单级排序和多级排序)
练习部分
《权利的游戏》剧本数据集分析
科比投篮数据集分析
—————————————–进入正题—————————————–
(一)两个库(一)两个库
NumPy
NumPy是一个科学计算基础库其中提供了许多向量和矩阵操作,能让用户轻松完成最优化、线性代数、积分、插值、特殊函数、傅里叶变换、信号处理和图像处理、常微分方程求解
以及其他科学与工程中常用的计算,不仅方便易用而且效率更高。
pandas
它是基于 Numpy 库的,主要包含两种数据结构:Series和DataFrame。
导入库的指令:
import pandas as pd
import numpy as np
(二)文件读取和写入(二)文件读取和写入
1. 读取读取
((a))csv格式格式
调用Pandas库的read_csv()函数读取csv文件:
df = pd.read_csv('data/table.csv')
df.head()
((b))txt格式格式
调用pandas库的read_table()函数读取txt文件:
df_txt = pd.read_table('data/table.txt') #可设置sep分隔符参数
df_txt
((c))xls或或xlsx格式格式
调用pandas库的read_excel()函数(如果没有安装xlrd包需要先安装包):
df_excel = pd.read_excel('data/table.xlsx')
df_excel.head()
2. 写入写入
((a))csv格式格式
将一个DataFrame的数据写入csv文件:
df.to_csv('meal_order.csv',encoding='utf_8')
#df.to_csv('meal_order.csv', index=False) #保存时除去行索引
((b))xls或或xlsx格式格式
#需要安装openpyxl
df.to_excel('data/new_table2.xlsx', sheet_name='Sheet1')
(三)基本数据结构(三)基本数据结构
这里主要介绍Series和DataFrame。Series是一维的数据结构,而DataFrame是二维的、表格型的数据结构,下面详细介绍以下这两种数据结构。
1. Series
((a)创建一个)创建一个Series
对于一个Series,其中最常用的属性为值(values),索引(index),名字(name),类型(dtype)。
s = pd.Series(np.random.randn(5),index=['a','b','c','d','e'],name='这是一个Series',dtype='float64')
s
这样就建立了一个下图样式Series:
((b)访问)访问Series属性属性
访问s的数据:
s.values
array([ 0.30299458, 0.57343774, 0.53608608, 0.5132085 , -1.26357851])
访问s的name:
s.name
'这是一个Series'
访问s的索引:
s.index
'这是一个Series'
访问s的数据类型:
s.dtype
dtype('float64')
((c)取出某个元素)取出某个元素
通过索引访问元素:
s['a'] 0.30299457920628364
((d)调用方法)调用方法
s.mean()
0.1324296778903958
当然,Series还有相当多的方法可以调用,如sum()、max()、min()…这里不一一举例。
2. DataFrame
(a) 创建一个创建一个DataFrame
df = pd.DataFrame({'col1':list('abcde'),'col2':range(5,10),'col3':[1.3,2.5,3.6,4.6,5.8]},
index=list('一二三四五'))
df
上述代码建立了如下数据结构:
其中col1、col2、col3都是数据,index为行索引。
((b)从)从DataFrame取出一列为取出一列为Series
df['col1']
上面的方式是通过列索引获取数据,结果如下:
一 a
二 b
三 c
四 d
五 e
Name: col1, dtype: object
取出的数据类型为Series:
type(df)
pandas.core.frame.DataFrame
type(df['col1'])
pandas.core.series.Series
((c)修改行或列名)修改行或列名
示例:修改行索引’一’为’one’,修改列索引’col1’为’new_col1’:
df.rename(index={'一':'one'},columns={'col1':'new_col1'})
修改后的数据结构:
(d)调用属性和方法调用属性和方法
访问DataFrame的行索引:
df.index
Index(['一', '二', '三', '四', '五'], dtype='object')
访问DataFrame的列索引:
df.columns
Index(['col1', 'col2', 'col3'], dtype='object')
访问DataFrame的数据:
array([['a', 5, 1.3],
['b', 6, 2.5],
['c', 7, 3.6],
['d', 8, 4.6],
['e', 9, 5.8]], dtype=object)
获取DataFrame二维数据形状:
df.shape
(5, 3)
df.mean()
col2 7.00
col3 3.56
dtype: float64
((e)索引对齐特性)索引对齐特性
这是Pandas中非常强大的特性,不理解这一特性有时就会造成一些麻烦!
df1 = pd.DataFrame({'A':[1,2,3]},index=[1,2,3])
df2 = pd.DataFrame({'A':[1,2,3]},index=[3,1,2])
df1-df2 #由于索引对齐,因此结果不是0
((f)列的删除与添加)列的删除与添加
删除:可以使用drop函数 / del / pop。
df.drop(index='五',columns='col1')
df['col1']=[1,2,3,4,5] del df['col1'] df
pop方法直接在原来的DataFrame上操作,且返回被删除的列:
df['col1']=[1,2,3,4,5] df.pop('col1')
一 1
二 2
三 3
四 4
五 5
Name: col1, dtype: int64
df
剩余11页未读,继续阅读
weixin_38566180
- 粉丝: 2
- 资源: 967
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0