使用坐标列表高效更新NumPy数组：高级索引技巧解析

碧海醫心

发布时间：2025-10-14 12:34:43

178人浏览过

来源于php中文网

原创

使用坐标列表高效更新NumPy数组：高级索引技巧解析

本文旨在探讨如何使用坐标列表高效地更新numpy二维数组。我们将分析常见的错误尝试，例如不正确的`dtype`定义和顺序索引，并重点介绍两种正确的numpy高级索引方法：利用二维整数数组和结构化数组。通过代码示例，文章将详细阐述如何利用这些技术实现数组的批量更新，同时强调避免python循环以优化性能。

在数据科学和数值计算中，NumPy数组因其高效的向量化操作而广泛应用。当需要根据一系列坐标来更新NumPy数组中的特定元素时，理解并正确使用NumPy的高级索引机制至关重要。本教程将深入探讨如何以专业且高效的方式实现这一目标。

理解常见的索引误区

假设我们有一个初始化为零的NumPy二维数组，并希望根据一组坐标将其所有元素加一。一个常见的错误尝试是使用Python循环或不当的索引方式。

考虑以下初始代码：

import numpy as np

def update(coords):
    # 这里的coords预期是单个(x, y)元组，但实际传入的是一个坐标数组
    # 这种索引方式对于数组索引是错误的
    return np_arr[coords[0]][coords[1]] + 1

size = 3
np_arr = np.zeros((size, size))
# 尝试定义一个包含两个整数的dtype，但这不是创建元组数组的方式
dt = np.dtype('int', 'int') 
np_indices = np.array([(x, y) for y in range(size) for x in range(size)], dtype=dt)

# 尝试用整个坐标数组进行更新
np_arr = update(np_indices)
print(np_arr)

这段代码的预期输出是一个所有元素都为1的 3x3 矩阵，但实际输出的形状不符，且结果不正确。这背后存在几个关键问题：

np.dtype('int', 'int') 的误解：当使用 np.dtype('int', 'int') 定义 dtype 时，NumPy并不会创建一个包含元组的数组，而是创建一个二维的整数数组。例如，对于 size=3，np_indices 的实际结构是：
```
array([[0, 0],
       [1, 0],
       [2, 0],
       [0, 1],
       [1, 1],
       [2, 1],
       [0, 2],
       [1, 2],
       [2, 2]])
```
这是一个 (9, 2) 形状的二维整数数组，而不是一个包含9个 (x, y) 元组的一维数组。
顺序索引的局限性：表达式 np_arr[coords[0]][coords[1]] 适用于标量索引（如 np_arr[2][3] 等同于 np_arr[2,3]）。但当 coords[0] 和 coords[1] 都是数组时，这种写法会导致问题。np_arr[coords[0]] 会首先执行一次索引操作，返回一个子数组，然后 [coords[1]] 会尝试对这个子数组进行第二次索引。这种顺序索引不适用于同时使用多个数组作为索引来定位二维数组中的多个点。

正确的NumPy高级索引方法

要高效且正确地使用坐标列表更新NumPy数组，我们需要利用NumPy的高级索引（Advanced Indexing）特性。高级索引允许我们使用整数数组或布尔数组来同时索引多个不连续的元素。

方法一：使用二维整数数组进行高级索引

如果我们的坐标列表是一个 (N, 2) 形状的二维整数数组（其中N是坐标点的数量，2代表x和y坐标），我们可以通过将其拆分为两个一维数组来执行高级索引。

import numpy as np

size = 3
np_arr = np.zeros((size, size))

# 创建一个 (N, 2) 形状的整数数组作为坐标列表
# 这里的 dtype='int' 是默认行为，不需要特殊指定
np_indices = np.array([(x, y) for y in range(size) for x in range(size)], dtype=int)

print("原始 np_arr:\n", np_arr)
print("坐标数组 np_indices:\n", np_indices)

# 使用高级索引：将第一列作为行索引，第二列作为列索引
# np_indices[:, 0] 获取所有行的第一列 (x坐标)
# np_indices[:, 1] 获取所有行的第二列 (y坐标)
np_arr[np_indices[:, 0], np_indices[:, 1]] += 1

print("\n更新后的 np_arr:\n", np_arr)

输出：

原始 np_arr:
 [[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
坐标数组 np_indices:
 [[0 0]
 [1 0]
 [2 0]
 [0 1]
 [1 1]
 [2 1]
 [0 2]
 [1 2]
 [2 2]]

更新后的 np_arr:
 [[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]

解释：np_arr[np_indices[:, 0], np_indices[:, 1]] 是一种高效的向量化操作。它将 np_indices[:, 0] 中的每个元素作为行索引，并将其对应的 np_indices[:, 1] 中的元素作为列索引，从而同时访问并更新所有指定的 (row, col) 对。

WPS AI

金山办公发布的AI办公应用，提供智能文档写作、阅读理解和问答、智能人机交互的能力。

下载

方法二：使用结构化数组进行高级索引

如果我们确实需要一个包含元组（或具有命名字段的记录）的数组，NumPy的结构化数组（Structured Arrays）是正确的选择。

import numpy as np

size = 3
np_arr = np.zeros((size, size))

# 定义一个包含 'x' 和 'y' 字段的结构化 dtype
dt = np.dtype([('x', 'int'), ('y', 'int')])

# 创建结构化数组
np_indices_structured = np.array([(x, y) for y in range(size) for x in range(size)], dtype=dt)

print("原始 np_arr:\n", np_arr)
print("结构化坐标数组 np_indices_structured:\n", np_indices_structured)
print("访问 x 坐标: ", np_indices_structured['x'])
print("访问 y 坐标: ", np_indices_structured['y'])

# 使用结构化数组的字段进行高级索引
np_arr[np_indices_structured['x'], np_indices_structured['y']] += 1

print("\n更新后的 np_arr:\n", np_arr)

输出：

原始 np_arr:
 [[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
结构化坐标数组 np_indices_structured:
 [(0, 0) (1, 0) (2, 0) (0, 1) (1, 1) (2, 1) (0, 2) (1, 2) (2, 2)]
访问 x 坐标:  [0 1 2 0 1 2 0 1 2]
访问 y 坐标:  [0 0 0 1 1 1 2 2 2]

更新后的 np_arr:
 [[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]

解释： 通过 dt = np.dtype([('x', 'int'), ('y', 'int')])，我们创建了一个一维的结构化数组，其中每个元素都是一个记录，包含名为 x 和 y 的字段。我们可以通过字段名（如 np_indices_structured['x']）来访问所有 x 坐标，这同样返回一个一维整数数组，然后可以像方法一那样进行高级索引。

性能考量：避免Python循环

虽然可以通过遍历结构化数组来更新元素，例如：

# 这种方式虽然可行，但效率低下，不推荐用于大型数组
# for x, y in np_indices_structured:
#     np_arr[x, y] += 1

但这种方法在Python层面上进行迭代，对于大型数组而言效率远低于NumPy的向量化高级索引操作。NumPy的设计哲学是尽可能将操作推送到底层的C语言实现，以获得最佳性能。因此，始终优先考虑使用上述两种高级索引方法进行批量更新。

总结

正确地使用NumPy高级索引是进行高效数组操作的关键。在根据坐标列表更新NumPy数组时，应避免以下误区：

误用 np.dtype('int', 'int') 期望得到元组数组。
对数组索引使用顺序索引 arr[idx1][idx2]。

相反，请采用以下推荐方法：

对于 (N, 2) 形状的整数坐标数组：使用 arr[coords[:, 0], coords[:, 1]] 进行同时索引。
对于结构化坐标数组：使用 arr[coords['x'], coords['y']] （假设字段名为 'x' 和 'y'）进行索引。

始终优先选择向量化的NumPy操作，以确保代码的性能和可扩展性。掌握这些高级索引技巧将使您能够更有效地处理复杂的数组操作任务。

Python 程序中时间漂移的应对方案

Python 调试代码的系统化方法

如何让异常在捕获后转换为另一种异常类型（raise from None）

计算当月已过去的交易日数量

Python 中对象的浅拷贝与深拷贝差异

相关专题

C语言变量命名

c语言变量名规则是：1、变量名以英文字母开头；2、变量名中的字母是区分大小写的；3、变量名不能是关键字；4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容，供大家免费下载使用。

401

2023.06.20

c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识，应用十分广泛，本专题为大家c语言入门自学零基础的相关文章，以及相关课程，感兴趣的朋友千万不要错过了。

620

2023.07.25

c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

354

2023.08.02

c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念，用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等，而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

259

2023.08.09

c语言random函数用法

c语言random函数用法：1、random.random，随机生成（0,1）之间的浮点数；2、random.randint，随机生成在范围之内的整数，两个参数分别表示上限和下限；3、random.randrange，在指定范围内，按指定基数递增的集合中获得一个随机数；4、random.choice，从序列中随机抽选一个数；5、random.shuffle，随机排序。

606

2023.09.05

c语言const用法

const是关键字，可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍：1、声明常量，const关键字可用于声明常量，常量的值在程序运行期间不可修改，常量可以是基本数据类型，如整数、浮点数、字符等，也可是自定义的数据类型；2、函数参数中的const修饰符，const关键字可用于函数的参数中，表示该参数在函数内部不可修改等等。

531

2023.09.20