0

0

优化Pandas DataFrame apply 函数的性能:利用向量化操作

碧海醫心

碧海醫心

发布时间:2025-11-05 14:28:01

|

335人浏览过

|

来源于php中文网

原创

优化pandas dataframe apply 函数的性能:利用向量化操作

在处理大型Pandas DataFrame时,`apply` 函数尤其是在结合自定义Python函数使用时,可能成为性能瓶颈。本文将深入探讨 `apply` 函数效率低下的原因,并提供一种更高效的替代方案:利用Pandas和NumPy的向量化(或广播)能力,显著提升数据处理速度,从而避免耗时的逐行操作,实现更快的计算。

理解 apply 函数的性能瓶颈

Pandas的 DataFrame.apply() 方法在处理自定义函数时,通常会逐行或逐列迭代数据。当您将一个Python对象的方法或一个普通的Python函数应用到DataFrame的某个Series上时,Pandas需要执行以下操作:

  1. 数据类型转换: 将底层的NumPy数组值转换为标准的Python对象,以便Python函数可以处理。
  2. 函数调用开销: 对Series中的每个元素独立调用Python函数。每次函数调用都伴随着一定的开销。
  3. 结果转换: 将Python函数返回的结果再次转换回Pandas/NumPy兼容的类型。

这些重复的类型转换和函数调用,对于拥有数百万行的大型DataFrame而言,会积累成巨大的性能开销,导致脚本执行时间过长。Pandas的设计哲学之一是利用底层的C/Fortran优化代码(通过NumPy),以实现对整个数据集的批量操作,而 apply 在这种情况下打破了这一优势。

向量化操作:Pandas的加速秘诀

Pandas和NumPy的核心优势在于其向量化(vectorization)能力。这意味着许多操作(如加、减、乘、除、比较等)可以直接应用于整个Series或DataFrame,而无需显式地循环遍历每个元素。这些向量化操作在底层由高度优化的C或Fortran代码执行,因此比纯Python循环快得多。

当一个自定义函数可以被重写为接受整个Series作为输入,并返回一个Series作为输出时,我们就可以利用这种向量化能力。

示例:加速自定义函数应用

让我们通过一个具体的例子来演示 apply 和向量化操作之间的性能差异。假设我们有一个包含整数的DataFrame,并且有一个自定义类 MyObj,其 move 方法根据一个值和一个偏移量进行计算。

GentleAI
GentleAI

GentleAI是一个高效的AI工作平台,为普通人提供智能计算、简单易用的界面和专业技术支持。让人工智能服务每一个人。

下载
import pandas as pd
import numpy as np
from timeit import timeit

# 创建一个大型DataFrame
df = pd.DataFrame({"col": np.arange(1000000)}) # 增加到100万行以更明显地展示性能差异

class MyObj:

    def __init__(self, position):
        self.pos = position

    def move(self, value, offset):
        """
        一个简单的数值计算方法
        这个方法既可以接受单个数值,也可以接受一个NumPy数组/Pandas Series
        """
        return value * self.pos + offset

# 实例化MyObj
my_obj = MyObj(1)

print("--- 性能对比(1000次迭代)---")

# 方法1: 使用 apply 函数
apply_time = timeit('df["col"].apply(my_obj.move, args=(1,))', 
                    globals=globals(), number=10) # 减少迭代次数,因为apply可能非常慢
print(f"apply 方法耗时: {apply_time:.4f} 秒")

# 方法2: 使用向量化(广播)操作
broadcast_time = timeit('my_obj.move(df["col"], 1)', 
                        globals=globals(), number=1000)
print(f"向量化方法耗时: {broadcast_time:.4f} 秒")

# 验证结果是否一致
result_apply = df["col"].apply(my_obj.move, args=(1,))
result_broadcast = my_obj.move(df["col"], 1)
print(f"结果是否一致: {np.all(result_apply == result_broadcast)}")

示例输出(具体数值可能因机器性能而异):

--- 性能对比(1000次迭代)---
apply 方法耗时: 4.5678 秒
向量化方法耗时: 0.0123 秒
结果是否一致: True

从输出中可以清楚地看到,向量化(广播)方法的执行速度比 apply 方法快了几个数量级。这是因为 my_obj.move 方法内部的数学运算 (* 和 +) 能够直接作用于整个Pandas Series (df["col"]),而无需Python的逐元素循环。

为什么向量化如此高效?

当 my_obj.move(df["col"], 1) 被调用时:

  1. df["col"] 是一个Pandas Series,其底层是一个NumPy数组。
  2. value * self.pos 操作实际上是NumPy数组与标量 self.pos 的乘法,这是一个高度优化的NumPy广播操作。
  3. + offset 也是NumPy数组与标量 offset 的加法,同样是高效的广播操作。

整个过程在底层以C语言速度执行,避免了Python解释器的开销。

注意事项与最佳实践

  1. 优先考虑向量化: 在处理Pandas DataFrame时,始终首先尝试将操作表达为向量化形式。这通常意味着使用Pandas和NumPy提供的内置函数或运算符。
  2. 重构自定义函数: 如果您的自定义函数可以接受整个Series或数组作为输入,并执行元素级操作,那么请重构它以支持这种模式。例如,如果函数只包含基本的数学运算,它很可能已经是向量化友好的。
  3. 复杂逻辑的替代方案:
    • numexpr: 对于复杂的字符串表达式,numexpr 库可以提供比Pandas更快的性能。
    • Numba: 对于无法直接向量化的复杂Python函数,Numba 可以通过JIT(即时编译)将Python代码编译成优化的机器码,从而显著加速执行。
    • Cython: 如果需要极致的性能且愿意编写C扩展,Cython 是一个强大的工具
    • iterrows() / itertuples(): 在极少数情况下,如果操作确实无法向量化,且需要访问行索引或多列数据,itertuples() 通常比 iterrows() 更快,因为它返回命名元组而不是Series对象,减少了开销。但这些迭代器应作为最后的手段。
  4. 避免在 apply 中使用复杂的Python对象方法: 如果方法内部执行了大量非数值或无法广播的Python逻辑,apply 的性能问题会更加突出。

总结

DataFrame.apply() 函数在处理大型数据集时,特别是结合自定义Python函数时,由于其逐元素迭代和类型转换的特性,效率低下。为了显著提升性能,我们应优先利用Pandas和NumPy的向量化(广播)能力,将操作重构为直接作用于整个Series或DataFrame。通过这种方式,我们可以充分发挥这些库底层优化代码的优势,实现更快速、更高效的数据处理。在无法直接向量化的情况下,可以考虑使用 Numba 等工具进行性能优化。

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C语言变量命名
C语言变量命名

c语言变量名规则是:1、变量名以英文字母开头;2、变量名中的字母是区分大小写的;3、变量名不能是关键字;4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容,供大家免费下载使用。

410

2023.06.20

c语言入门自学零基础
c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识,应用十分广泛,本专题为大家c语言入门自学零基础的相关文章,以及相关课程,感兴趣的朋友千万不要错过了。

638

2023.07.25

c语言运算符的优先级顺序
c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

362

2023.08.02

c语言数据结构
c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念,用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等,而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

263

2023.08.09

c语言random函数用法
c语言random函数用法

c语言random函数用法:1、random.random,随机生成(0,1)之间的浮点数;2、random.randint,随机生成在范围之内的整数,两个参数分别表示上限和下限;3、random.randrange,在指定范围内,按指定基数递增的集合中获得一个随机数;4、random.choice,从序列中随机抽选一个数;5、random.shuffle,随机排序。

631

2023.09.05

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

564

2023.09.20

c语言get函数的用法
c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符,并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数 。

671

2023.09.20

c数组初始化的方法
c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍:1、直接赋值法,这种方法可以直接将数组的值进行初始化;2、不完全初始化法,。这种方法可以在一定程度上节省内存空间;3、省略数组长度法,这种方法可以让编译器自动计算数组的长度;4、二维数组初始化法等等。

618

2023.09.22

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号