0

0

如何在 Python 多进程环境中安全使用 NumPy 向量化函数

花韻仙語

花韻仙語

发布时间:2026-01-17 10:14:23

|

459人浏览过

|

来源于php中文网

原创

如何在 Python 多进程环境中安全使用 NumPy 向量化函数

本文详解为何 `np.vectorize()` 创建的函数无法被 `multiprocessing` 或 `pathos.multiprocess` 正确序列化,并提供可落地的解决方案:延迟初始化向量化函数,确保其在子进程中构建而非跨进程传递。

在使用 multiprocessing.Process 或 pathos.multiprocess 进行并行计算时,Python 依赖 pickle(或 dill)对函数、对象及其状态进行序列化与反序列化,以在子进程中重建执行环境。然而,np.vectorize() 返回的对象是一个特殊的 numpy.vectorize 实例,其底层封装了原始函数(如 _wind_dfn)并生成一个不可直接 pickle 的 ufunc-类对象。当该对象作为类属性在主进程初始化(如 __init__ 中赋值),再随实例传入子进程时,pickle 会尝试序列化该向量化函数——但因其动态生成、无全局可导入路径(不在 __main__ 或模块顶层命名空间中),最终抛出类似以下错误:

_pickle.PicklingError: Can't pickle : attribute lookup _wind_dfn (vectorized) on __main__ failed

根本原因:np.vectorize 不是“纯函数构造器”,它返回的实例绑定着闭包和内部状态,且 pickle 无法可靠还原其来源;而 multiprocessing 要求所有跨进程传递的对象必须可被 pickle 完整序列化。

推荐解决方案:惰性初始化(Lazy Initialization)
避免在 __init__ 中预先创建 np.vectorize 对象,改为在首次调用时按需构建,并缓存于实例属性中。这样,向量化函数总是在当前进程内创建,完全绕过序列化瓶颈。

以下是修正后的代码结构(基于原示例优化):

import abc
import numpy as np
from multiprocessing import Process

class ProblemClassBase(metaclass=abc.ABCMeta):
    def __init__(self):
        # ✅ 不在此处创建 vectorize 对象
        self._problem_function_vectorized = None

    @abc.abstractmethod
    def problem_function(self, arg):
        pass

    def use(self, arg):
        # ✅ 惰性构建:仅在第一次 use() 调用时初始化
        if self._problem_function_vectorized is None:
            self._problem_function_vectorized = np.vectorize(
                self.problem_function,
                otypes=[np.float64]
            )
        return self._problem_function_vectorized(arg)

class ProblemClass(ProblemClassBase):
    def problem_function(self, arg):
        if arg > 2:
            return arg + 1
        else:
            return arg - 1

class NestingClass:
    def __init__(self, problem_object):
        self.po = problem_object

    def make_problem(self, arg):
        return self.po.use(arg)

class MainClass:
    def __init__(self):
        self.problem_obj = ProblemClass()
        self.nesting_obj = NestingClass(self.problem_obj)

    def run(self, arg):
        return self.nesting_obj.make_problem(arg)

    @classmethod
    def run_multiproc(cls, arg):
        obj = cls()
        result = obj.run(arg)
        print(f"Process result for {arg}: {result}")
        return result  # 可通过 Queue / Pipe 返回

def run_parallel():
    proc = Process(target=MainClass.run_multiproc, args=(5,))
    proc.start()
    proc.join()

if __name__ == "__main__":
    run_parallel()

? 关键改进点说明

白瓜AI
白瓜AI

白瓜AI,一个免费图文AI创作工具,支持 AI 仿写,图文生成,敏感词检测,图片去水印等等。

下载

立即学习Python免费学习笔记(深入)”;

  • self._problem_function_vectorized 初始化为 None,不触发 np.vectorize;
  • use() 方法中检查缓存,未初始化则当场构建并保存,后续调用直接复用;
  • 所有 np.vectorize 调用均发生在子进程内部(run_multiproc → cls() → use()),彻底规避跨进程传递问题。

⚠️ 注意事项

  • 若需支持高并发多调用(如每次 use() 输入不同 dtype),建议显式指定 otypes 并确保 problem_function 返回类型稳定;
  • np.vectorize 本身不提升性能(仅为语法糖),真实加速应依赖 numba.jit、numpy.ufunc 原生操作或 dask 等;此处仅解决可序列化问题;
  • 使用 pathos.multiprocess(基于 dill)虽能序列化更多对象,但 np.vectorize 实例仍属高危项,惰性初始化仍是更健壮、可移植的设计。

? 总结:多进程场景下,切勿将 np.vectorize、lambda、嵌套函数、闭包或任何非模块级可导入对象作为类/实例属性提前初始化。坚持“进程内构建、按需缓存”原则,即可兼顾简洁性与并行鲁棒性。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

758

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

639

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

761

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

618

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1264

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

548

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

708

2023.08.11

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

27

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 2.6万人学习

Django 教程
Django 教程

共28课时 | 3.2万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号