【免费】高阶Pandas1资源-CSDN文库

需积分: 0 17 浏览量 2022-08-03 15:50:06 上传评论收藏 95KB PDF 举报

在Python的Pandas库中，高阶Pandas操作主要涉及高效的数据处理和分析，特别是针对大规模数据集。这里我们将深入探讨Categorical类型、GroupBy应用、分类数据处理以及时间序列的重新采样。 **Categorical类型** Categorical类型是Pandas提供的一种用于处理分类数据的数据结构。它允许我们将数据表示为有限的、有序或无序的类别集合，而不是作为连续的数值。Categorical数据可以有效地节省内存，因为它们仅存储类别，而不是每个值的独立副本。可以通过以下方式创建Categorical对象： ```python cat = pd.Categorical(['food', 'drink']) ``` Categorical对象有两个关键属性：`categories`和`codes`。`categories`存储所有可能的类别，而`codes`则表示每个观测值在类别列表中的位置。 **astype方法与Categorical类型** 可以使用`astype`方法将其他数据类型（如字符串或整数）转换为Categorical类型： ```python df['column'] = df['column'].astype('category') ``` **Categorical方法** Categorical对象提供了一系列方法来操作和管理类别，如`set_categories`用于更改类别，`remove_unused_categories`移除未出现的类别，`add_categories`添加新类别，`as_ordered`和`as_unordered`分别用于设置类别是否有序，`remove_categories`则删除指定的类别。此外，`rename_categories`和`reorder_categories`允许更改和排序类别。 **one-hot编码** 对于分类数据，可以使用`pandas.get_dummies()`进行one-hot编码，将分类特征转换为多个二进制特征，便于机器学习模型处理。例如： ```python dummies = pd.get_dummies(df['category_column']) ``` **GroupBy应用** GroupBy是Pandas的一个核心功能，它允许用户根据一种或多种列对DataFrame进行分组，并对每组执行聚合操作。`transform`方法特别有用，因为它可以在保持原数据尺寸的同时对分组应用函数，如计算百分比或标准化值。此外，`GroupBy`支持管道操作，可以链式调用多个方法，如`mean().sort_values()`。 **时间序列的重新采样** Pandas的`resample`方法用于对时间序列数据进行重新采样，调整数据的频率。例如，可以将日频数据重采样为月频： ```python df.resample('M').mean() ``` `pandas.TimeGrouper`对象可以帮助定义更复杂的重采样规则。 **方法链技术** Pandas提供`assign`和`pipe`方法来简化数据操作。`assign`可以方便地向DataFrame添加新列，而`pipe`允许我们像链式调用函数一样操作DataFrame，这对于使用自定义函数或第三方库函数非常有用。总结来说，高阶Pandas操作，尤其是Categorical类型和GroupBy，极大地提升了数据处理的效率和灵活性。通过熟练掌握这些工具，我们可以更有效地管理和分析大量分类和时间序列数据。

资源详情

资源评论

资源推荐

高阶Pandas

分类数据

高阶GroupBy应用

背景和目标

pandas中的Categorical类型

使用Cateforical对象进行计算

分类方法

分类或字典编码展现

按照整数展现类别

不同的数组可以被称为数据的类别、字典或层级

Categorical类型

用于承载基于整数的类别展示或编码的数据

astype方法将其他类型转化为Categorical类型

Categorical对象

categories属性

codes属性

类别

编码

pd.Categorical(['food'])

直接生成Categorical

from_codes构造函数

利用已知的分类编码数据

参数

ordered boolen

quct

直接返回pandas.Categorical

DataFrame中一列的分类版本通常会明显减少内存使用

memory_usage()方法

cat属性

提供了对分类方法的访问

set_categories方法

改变类别

remove_unused_categories方法

去除未观察到的类别

add_categories方法

将新的类别添加到已有类别的尾部

as_ordered方法

对类别排序

as_unordered方法

使类别无序

remove_categories

去除类别，将被一处的值置为null

rename_categories

使用新的类别名称代替现有的类别，但结果使经过排序的类别

reorder_categories

与rename方法相似，但是结果是经过排序的

one-hot编码

将分类数据转化为虚拟变量

pandas.get_dummies()

将一维的分类数据转换为一个包含虚拟变量的DateFrame

分组转换和“展开”GroupBy

transform

可以产生一个标量值，并广播到各分组的尺寸数据中

可以产生一个与输入分组尺寸相同的对象

不可改变它的输入

可以像GroupBy的agg方法一样传递一个字符串别名，执行内建的聚合函数

分组的时间重新采样

resample方法

频率转换实际上是一个分组过程

pandas.TimeGrouper对象

对某一列的值进行重新采样

限制是时间必须是Series或DataFrame的索引

方法链技术

assign

pipe方法

使用自定义的函数或来自第三方库的函数

可以便捷的实现复制方法

assign和很多其他pandas函数接受函数型的参数，这种参数也称为可调用参数

df/series.pipe(函数名，参数1，参数2...)

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

评论收藏

内容反馈

郑瑜伊

粉丝: 23
资源: 317

高阶Pandas1

评论0

最新资源

高阶Pandas1

评论0

Python之Pandas知识点

Python的高阶函数用法实例分析

Python股票量化投资课程——章节04【2019新版】第3课：Pandas高阶.rar

数据清洗之 高阶函数处理

【爬虫高阶】豆瓣读书数据存入Mysql数据库

动手学习 Python，涵盖基础，高级，面向对象，多线程，数据库，数据科学，Flask，爬虫

python 工程师技能图谱

《爱上潘大师》系列-与Series的初次相见

curriculum:我 2015 年 1 月在 TIY 的 Python 课程的课程和作业

sparsewl:“ Weisfeiler和Leman稀疏的代码

RePO：增强网络入侵检测系统中对抗示例的鲁棒性

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

《点燃我温暖你》中李峋的同款爱心代码

Python金融量化的高级库：TA-Lib-0.4.24（包含python3.7、3.8、3.9、3.10的32位和64位版本）

大麦网抢票脚本【Python脚本】

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计 项目源码 毕业设计

Python教程2020版 完全入门 达到Python工程师水平 笔记+代码+课件+资料

Python学习笔记(干货) 中文PDF完整版.pdf

人体姿态检测

抢购haiwei.rar

Python 八股文.pdf

Python基于机器学习实现的股票价格预测、股票预测源码+数据集，机器学习大作业

shape_predictor_68_face_landmarks.zip

这是一款用于破解wifi密码的软件

计算机二级python真题题库（题目+答案）电子版笔记2

爱心代码 李峋同款爱心等免费下载 exe、py、html格式

Tensorflow-gpu版本缺少的dll文件

python-3.8.20-amd64.exe

最新资源

数据清洗之高阶函数处理

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计项目源码毕业设计

Python教程2020版完全入门达到Python工程师水平笔记+代码+课件+资料

爱心代码李峋同款爱心等免费下载 exe、py、html格式