0

0

NumPy矢量化:高效查找子数组的最大值

霞舞

霞舞

发布时间:2025-11-30 12:22:18

|

597人浏览过

|

来源于php中文网

原创

NumPy矢量化:高效查找子数组的最大值

本教程详细阐述如何利用numpy库的`np.maximum.reduceat`函数,以纯矢量化方式高效地计算一维数组按指定索引“分割”后各子数组的最大值。通过巧妙地构造索引数组,该方法避免了显式数组分割和python循环,显著提升了处理效率和代码的简洁性,是处理此类问题的numpy风格最佳实践。

在数据处理中,我们经常需要对一个一维NumPy数组进行逻辑上的“分割”,并对每个分割后的子数组执行聚合操作,例如查找最大值。传统的做法是先使用numpy.split将原始数组分割成子数组列表,然后遍历这个列表,对每个子数组调用其.max()方法。

考虑以下示例,我们有一个数组arr和一组分割点ind:

import numpy as np

arr = np.arange(12) # arr 为 array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])
ind = np.array([3, 5, 9]) # 在索引3, 5, 9处进行分割

# 传统方法:先分割,再遍历查找最大值
sub_arrays = np.split(arr, ind)
# sub_arrays 结果: [array([0, 1, 2]), array([3, 4]), array([5, 6, 7, 8]), array([ 9, 10, 11])]
max_values_traditional = [sub_array.max() for sub_array in sub_arrays]
# max_values_traditional 结果: [2, 4, 8, 11]
print(f"传统方法得到的最大值: {max_values_traditional}")

尽管上述方法直观易懂,但它涉及了显式的数组分割操作和Python级别的循环。在大规模数据处理时,这种方法可能导致性能瓶颈,并且不符合NumPy倡导的矢量化计算哲学。

矢量化解决方案:使用 np.maximum.reduceat

NumPy提供了一个更高效、更符合矢量化思想的解决方案:np.maximum.reduceat。这个函数是通用函数(ufunc)reduceat方法的一个特例,专门用于查找指定索引区间内的最大值。

易通cmseasy免费的企业建站程序2.0 UTF-8 build 201000510 中文版
易通cmseasy免费的企业建站程序2.0 UTF-8 build 201000510 中文版

易通(企业网站管理系统)是一款小巧,高效,人性化的企业建站程序.易通企业网站程序是国内首款免费提供模板的企业网站系统.§ 简约的界面及小巧的体积:后台菜单完全可以修改成自己最需要最高效的形式;大部分操作都集中在下拉列表框中,以节省更多版面来显示更有价值的数据;数据的显示以Javascript数组类型来输出,减少数据的传输量,加快传输速度。 § 灵活的模板标签及模

下载

np.ufunc.reduceat(array, indices) 的核心思想是,它会在indices数组中指定的每个起始索引处“重置”累积操作。对于np.maximum.reduceat,这意味着它会从每个指定索引开始,计算直到下一个指定索引(或数组末尾)的最大值。

关键步骤:为了获得与np.split后.max()完全一致的结果,传递给reduceat的索引数组必须包含原始数组的起始索引 0。

import numpy as np

arr = np.arange(12) # 原始数组
ind = np.array([3, 5, 9]) # 分割点索引

# 构造包含起始索引0的完整索引数组
# np.concatenate(([0], ind)) 会得到 [0, 3, 5, 9]
# 这表示我们希望计算从索引0开始到索引2的最大值,从索引3开始到索引4的最大值,
# 从索引5开始到索引8的最大值,以及从索引9开始到数组末尾的最大值。
full_indices = np.concatenate(([0], ind))

# 使用 np.maximum.reduceat 进行矢量化计算
max_values_vectorized = np.maximum.reduceat(arr, full_indices)

print(f"矢量化方法得到的最大值: {max_values_vectorized}")
# 预期输出: [ 2  4  8 11]

代码解释:

  1. arr = np.arange(12): 创建一个包含0到11的NumPy数组。
  2. ind = np.array([3, 5, 9]): 定义分割点。这些索引是每个子数组的起始索引(除了第一个子数组的起始索引0)。
  3. full_indices = np.concatenate(([0], ind)): 这是最关键的一步。np.maximum.reduceat需要所有子数组的起始索引。由于ind只包含了后续子数组的起始索引,我们需要手动添加第一个子数组的起始索引 0。
    • [0]:代表第一个子数组的起始索引。
    • ind:代表后续子数组的起始索引。
    • np.concatenate将它们合并成 [0, 3, 5, 9]。
  4. max_values_vectorized = np.maximum.reduceat(arr, full_indices):
    • reduceat会从 full_indices 中的每个索引开始,应用 maximum 操作。
    • 从索引 0 开始,计算 arr[0:3] (即 [0, 1, 2]) 的最大值,结果是 2。
    • 从索引 3 开始,计算 arr[3:5] (即 [3, 4]) 的最大值,结果是 4。
    • 从索引 5 开始,计算 arr[5:9] (即 [5, 6, 7, 8]) 的最大值,结果是 8。
    • 从索引 9 开始,计算 arr[9:] (即 [9, 10, 11]) 的最大值,结果是 11。
    • 最终结果 [2, 4, 8, 11] 正是所有子数组的最大值。

优势与注意事项

  • 性能提升: np.maximum.reduceat 是在C语言层面实现的,避免了Python循环的开销,对于大型数组而言,其性能远超np.split结合列表推导式的方法。
  • 内存效率: 这种方法不需要创建中间的子数组列表,从而减少了内存开销。
  • 通用性: reduceat不仅限于maximum,还可以与NumPy的许多其他通用函数(如np.add.reduceat、np.sum.reduceat、np.amin.reduceat等)结合使用,实现各种分段聚合操作。
  • 索引数组要求: 传递给reduceat的indices数组必须是升序的。如果索引不按升序排列,结果将是未定义的。
  • 边界条件: 确保full_indices中的最后一个索引小于arr的长度。如果最后一个索引等于或大于arr的长度,reduceat会正确处理,但可能导致空切片或不符合预期的结果。

总结

当需要对NumPy数组进行逻辑分割并对每个分段执行聚合操作(如查找最大值、求和等)时,np.ufunc.reduceat 提供了一种强大且高效的矢量化解决方案。通过正确构造包含起始索引0的索引数组,我们可以避免显式分割和Python循环,从而编写出更简洁、性能更优的NumPy代码。掌握reduceat的使用,是提升NumPy编程效率和解决复杂数据处理问题的关键技能之一。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C语言变量命名
C语言变量命名

c语言变量名规则是:1、变量名以英文字母开头;2、变量名中的字母是区分大小写的;3、变量名不能是关键字;4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容,供大家免费下载使用。

410

2023.06.20

c语言入门自学零基础
c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识,应用十分广泛,本专题为大家c语言入门自学零基础的相关文章,以及相关课程,感兴趣的朋友千万不要错过了。

637

2023.07.25

c语言运算符的优先级顺序
c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

362

2023.08.02

c语言数据结构
c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念,用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等,而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

263

2023.08.09

c语言random函数用法
c语言random函数用法

c语言random函数用法:1、random.random,随机生成(0,1)之间的浮点数;2、random.randint,随机生成在范围之内的整数,两个参数分别表示上限和下限;3、random.randrange,在指定范围内,按指定基数递增的集合中获得一个随机数;4、random.choice,从序列中随机抽选一个数;5、random.shuffle,随机排序。

629

2023.09.05

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

562

2023.09.20

c语言get函数的用法
c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符,并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数 。

669

2023.09.20

c数组初始化的方法
c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍:1、直接赋值法,这种方法可以直接将数组的值进行初始化;2、不完全初始化法,。这种方法可以在一定程度上节省内存空间;3、省略数组长度法,这种方法可以让编译器自动计算数组的长度;4、二维数组初始化法等等。

618

2023.09.22

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号