Pandas 模块速查表
数据输入 / 输出
数据操作
melt()
将数据从宽表转换为长表
pivot()
根据
DataFrame
数据中的
3
列生成透视表
pivot_table()
数据透视表
crosstab()
交叉表是用于统计分组频率的特殊透视表
cut()
数据面元化(即将数据按照一定的区间进行分割)
qcut()
把一组数字按大小区间进行分割
merge()
按列名相同的列合并
DataFrame
数据
concat()
根据不同方式合并
DataFrame
数据
get_dummies()
实现
one-hot
编码(例如,性别男、女转换为
0
、
1
)
factorize()
当有多个变量出现时,将输入值编码为枚举类型或分类变量
缺失数据
isnull()
检测缺失数据(数据是否为空)
notnull()
检测缺失数据(数据是否不为空)
移动窗口功能
处理日期时间
to_datetime()
将数据转换为日期时间格式
to_timedelta()
计算两个日期数据之间的时间差
date_range()
生成指定频率的日期时间索引,默认是
day
(日历)
bdate_range
生成一个固定频率的日期时间索引
period_range()
根据指定频率创建日期时间范围
read_pickle()
读取
pickle
文件
read_table()
将带分隔符的常规文件读入
DataFrame
对象
read_csv()
将
CSV(
逗号分隔
)
文件读入
DataFrame
对象
read_fwf()
将固定宽度的格式化行表读入
DataFrame
对象
read_clipboard()
从剪贴板读取文本并传递到
read_table
read_excel()
将一个
Excel
表读入
DataFrame
ExcelFile.parse()
将
Excel
表读入
DataFrame
read_
json()
将
JSON
字符串转换为
Pandas
对象
read_html()
将
HTML
表读入
DataFrame
对象
read_hdf()
读取
HDF5
文件
HDFStore.put()
将对象存储在
HDFStore
中
HDFStore.append()
附加到文件中的表。节点必须是已经存在的表
HDFStore.get()
检索存储在文件中的
Pandas
对象
HDFStore.select()
检索存储在文件中的
Pandas
对象,并根据位置进行选择
read_sql_table()
将
SQL
数据库中的表读入
DataFrame
对象
read_sql_query()
将
SQL
查询读入
DataFrame
对象
read_sql()
将
SQL
查询或数据库中的表读入
DataFrame
对象
read_gbq()
从谷歌
BigQuery
表(
Google
推出的一项
We
b
服务)加载数据
to_gbq()
向谷歌
BigQuery
表写入
DataFrame
对象
read_stata()
将
Stata
( 统计学软件)文件读入
DataFrame
对象
StataReader.data()
从
Stata
文件中读取观察结果,并将其转换为数据流
StataReader
.data_label()
返回
Stata
文件的数据标签
StataReader.value_labels()
返回一个关联每个变量名的字典
StataReader.variable_labels()
以字典形式返回变量标签
StataWriter
.write_file()
写入
Stata
文件
rolling_count()
在提供的窗口内对非
NaN
观测值进行移动计数
rolling_sum()
移动窗口数据的和
rolling_mean()
移动窗口数据的均值
rolling_median()
移动窗口数据的中位数
rolling_var()
移动窗口数据的方差
rolling_std()
移动窗口数据的标准差
rolling_min()
移动窗口数据的最小值
rolling_max()
移动窗口数据的最大值
rolling_corr()
移动窗口数据的相关系数
rolling_corr_pairwise()
配对数据的相关系数
rolling_cov()
移动窗口数据的协方差
rolling_skew()
移动窗口数据的偏度
rolling_kurt()
移动窗口数据的峰度
rolling_apply()
对移动窗口数据应用数组函数
rolling_quantile()
移动窗口数据的分位数
rolling_window()
移动窗口