Pandas性能优化:基础篇_BigData-CSDN专栏

Pandas性能优化:基础篇

Pandas 号称“数据挖掘瑞士军刀”，是数据处理最常用的库。在数据挖掘或者kaggle比赛中，我们经常使用pandas进行数据提取、分析、构造特征。而如果数据量很大，操作算法复杂，那么pandas的运行速度可能非常慢。本文根据实际工作中的经验，总结了一些pandas的使用技巧，帮助提高运行速度或减少内存占用。

1 按行迭代优化

很多时候，我们会按行对dataframe进行迭代，一般我们会用iterrows这个函数。在新版的pandas中，提供了一个更快的itertuples函数。

我们测试一下速度:

import pandas as pd
import numpy as np
import time
df = pd.DataFrame({'a': np.random.randn(1000),
                     'b': np.random.randn(1000),
                    'N': np.random.randint(100, 1000, (1000)),
                   'x':  np.random.randint(1, 10, (1000))})

%%timeit
a2=[]
for index,row in df.iterrows():
    temp=row['a']
    a2.append(temp*temp)
df['a2']=a2

67.6 ms ± 3.69 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

%%timeit
a2=[]
for row in df.ite

Pandas性能优化:基础篇

1 按行迭代优化

相关推荐

YOLOv8有效涨点专栏

华为OD机试+OJ权限（Java/JS/Py/C/C++）

YOLOv5改进有效专栏

YOLOv8改进实战

YOLOv9有效涨点专栏

芒果YOLOv7原创改进

智能家居与物联网项目实战

debezium

YOLOv8原创自研

Python.

【付费专栏】CANoe从入门到精通

【付费专栏】TC8一致性测试

★教程2:fpga入门100例

★教程1:matlab入门100例

RT-DETR有效改进专栏

芒果YOLOv8原创改进

Educoder实训

OD机试 Py/Java/JS合集（A卷+B卷+C+D卷）

华为OD机试题库2024年

倍福

华为OD面试手撕真题题库

# 第2章·通信—低阶调制解调

2024年机器学习&深度学习千例

PyTorch深度学习项目实战100例

AutoSAR入门与实战系列「持续更新ing。。。」

RK3568 Android11从开发入门到能独立开发教程

黑猫带你学：eMMC协议详解

深耕爬虫领域

刷机维修进阶教程