NumPy矢量化：高效查找子数组的最大值

霞舞

发布时间：2025-11-30 12:22:18

597人浏览过

来源于php中文网

原创

NumPy矢量化：高效查找子数组的最大值

本教程详细阐述如何利用numpy库的`np.maximum.reduceat`函数，以纯矢量化方式高效地计算一维数组按指定索引“分割”后各子数组的最大值。通过巧妙地构造索引数组，该方法避免了显式数组分割和python循环，显著提升了处理效率和代码的简洁性，是处理此类问题的numpy风格最佳实践。

在数据处理中，我们经常需要对一个一维NumPy数组进行逻辑上的“分割”，并对每个分割后的子数组执行聚合操作，例如查找最大值。传统的做法是先使用numpy.split将原始数组分割成子数组列表，然后遍历这个列表，对每个子数组调用其.max()方法。

考虑以下示例，我们有一个数组arr和一组分割点ind：

import numpy as np

arr = np.arange(12) # arr 为 array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])
ind = np.array([3, 5, 9]) # 在索引3, 5, 9处进行分割

# 传统方法：先分割，再遍历查找最大值
sub_arrays = np.split(arr, ind)
# sub_arrays 结果: [array([0, 1, 2]), array([3, 4]), array([5, 6, 7, 8]), array([ 9, 10, 11])]
max_values_traditional = [sub_array.max() for sub_array in sub_arrays]
# max_values_traditional 结果: [2, 4, 8, 11]
print(f"传统方法得到的最大值: {max_values_traditional}")

尽管上述方法直观易懂，但它涉及了显式的数组分割操作和Python级别的循环。在大规模数据处理时，这种方法可能导致性能瓶颈，并且不符合NumPy倡导的矢量化计算哲学。

矢量化解决方案：使用 np.maximum.reduceat

NumPy提供了一个更高效、更符合矢量化思想的解决方案：np.maximum.reduceat。这个函数是通用函数（ufunc）reduceat方法的一个特例，专门用于查找指定索引区间内的最大值。

易通cmseasy免费的企业建站程序2.0 UTF-8 build 201000510 中文版

易通(企业网站管理系统)是一款小巧,高效,人性化的企业建站程序.易通企业网站程序是国内首款免费提供模板的企业网站系统.§ 简约的界面及小巧的体积：后台菜单完全可以修改成自己最需要最高效的形式；大部分操作都集中在下拉列表框中，以节省更多版面来显示更有价值的数据；数据的显示以Javascript数组类型来输出，减少数据的传输量，加快传输速度。 § 灵活的模板标签及模

下载

np.ufunc.reduceat(array, indices) 的核心思想是，它会在indices数组中指定的每个起始索引处“重置”累积操作。对于np.maximum.reduceat，这意味着它会从每个指定索引开始，计算直到下一个指定索引（或数组末尾）的最大值。

关键步骤：为了获得与np.split后.max()完全一致的结果，传递给reduceat的索引数组必须包含原始数组的起始索引 0。

import numpy as np

arr = np.arange(12) # 原始数组
ind = np.array([3, 5, 9]) # 分割点索引

# 构造包含起始索引0的完整索引数组
# np.concatenate(([0], ind)) 会得到 [0, 3, 5, 9]
# 这表示我们希望计算从索引0开始到索引2的最大值，从索引3开始到索引4的最大值，
# 从索引5开始到索引8的最大值，以及从索引9开始到数组末尾的最大值。
full_indices = np.concatenate(([0], ind))

# 使用 np.maximum.reduceat 进行矢量化计算
max_values_vectorized = np.maximum.reduceat(arr, full_indices)

print(f"矢量化方法得到的最大值: {max_values_vectorized}")
# 预期输出: [ 2  4  8 11]

代码解释：

arr = np.arange(12): 创建一个包含0到11的NumPy数组。
ind = np.array([3, 5, 9]): 定义分割点。这些索引是每个子数组的起始索引（除了第一个子数组的起始索引0）。
full_indices = np.concatenate(([0], ind)): 这是最关键的一步。np.maximum.reduceat需要所有子数组的起始索引。由于ind只包含了后续子数组的起始索引，我们需要手动添加第一个子数组的起始索引 0。
- [0]：代表第一个子数组的起始索引。
- ind：代表后续子数组的起始索引。
- np.concatenate将它们合并成 [0, 3, 5, 9]。
max_values_vectorized = np.maximum.reduceat(arr, full_indices):
- reduceat会从 full_indices 中的每个索引开始，应用 maximum 操作。
- 从索引 0 开始，计算 arr[0:3] (即 [0, 1, 2]) 的最大值，结果是 2。
- 从索引 3 开始，计算 arr[3:5] (即 [3, 4]) 的最大值，结果是 4。
- 从索引 5 开始，计算 arr[5:9] (即 [5, 6, 7, 8]) 的最大值，结果是 8。
- 从索引 9 开始，计算 arr[9:] (即 [9, 10, 11]) 的最大值，结果是 11。
- 最终结果 [2, 4, 8, 11] 正是所有子数组的最大值。

优势与注意事项

性能提升: np.maximum.reduceat 是在C语言层面实现的，避免了Python循环的开销，对于大型数组而言，其性能远超np.split结合列表推导式的方法。
内存效率: 这种方法不需要创建中间的子数组列表，从而减少了内存开销。
通用性: reduceat不仅限于maximum，还可以与NumPy的许多其他通用函数（如np.add.reduceat、np.sum.reduceat、np.amin.reduceat等）结合使用，实现各种分段聚合操作。
索引数组要求: 传递给reduceat的indices数组必须是升序的。如果索引不按升序排列，结果将是未定义的。
边界条件: 确保full_indices中的最后一个索引小于arr的长度。如果最后一个索引等于或大于arr的长度，reduceat会正确处理，但可能导致空切片或不符合预期的结果。

总结

当需要对NumPy数组进行逻辑分割并对每个分段执行聚合操作（如查找最大值、求和等）时，np.ufunc.reduceat 提供了一种强大且高效的矢量化解决方案。通过正确构造包含起始索引0的索引数组，我们可以避免显式分割和Python循环，从而编写出更简洁、性能更优的NumPy代码。掌握reduceat的使用，是提升NumPy编程效率和解决复杂数据处理问题的关键技能之一。

Python贝叶斯怎么分类_朴素贝叶斯条件概率公式在垃圾邮件分类的应用

Python Web安全怎么做_HTTPS/HSTS与Security Headers配置

Python怎么读二进制文件_rb模式与struct模块拆解解包字节流

Python怎么解决过拟合_L1/L2正则化惩罚项配置与早停法应用策略

Python怎么获取请求头_Request Headers解析与自定义

相关专题

C语言变量命名

c语言变量名规则是：1、变量名以英文字母开头；2、变量名中的字母是区分大小写的；3、变量名不能是关键字；4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容，供大家免费下载使用。

410

2023.06.20

c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识，应用十分广泛，本专题为大家c语言入门自学零基础的相关文章，以及相关课程，感兴趣的朋友千万不要错过了。

637

2023.07.25

c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

362

2023.08.02

c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念，用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等，而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

263

2023.08.09

c语言random函数用法

c语言random函数用法：1、random.random，随机生成（0,1）之间的浮点数；2、random.randint，随机生成在范围之内的整数，两个参数分别表示上限和下限；3、random.randrange，在指定范围内，按指定基数递增的集合中获得一个随机数；4、random.choice，从序列中随机抽选一个数；5、random.shuffle，随机排序。

629

2023.09.05

c语言const用法

const是关键字，可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍：1、声明常量，const关键字可用于声明常量，常量的值在程序运行期间不可修改，常量可以是基本数据类型，如整数、浮点数、字符等，也可是自定义的数据类型；2、函数参数中的const修饰符，const关键字可用于函数的参数中，表示该参数在函数内部不可修改等等。

562

2023.09.20

c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符，并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数。

669

2023.09.20

c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍：1、直接赋值法，这种方法可以直接将数组的值进行初始化；2、不完全初始化法，。这种方法可以在一定程度上节省内存空间；3、省略数组长度法，这种方法可以让编译器自动计算数组的长度；4、二维数组初始化法等等。

618

2023.09.22

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板