使用 NumPy 在 3D 边界框内高效采样点并关联标签

DDD

发布时间：2025-11-24 12:26:48

889人浏览过

来源于php中文网

原创

使用 NumPy 在 3D 边界框内高效采样点并关联标签

本教程详细介绍了如何利用 numpy 的 `np.mgrid` 函数，在给定的 3d 边界框内以指定步长高效地采样一系列空间点，并为每个采样点自动关联其所属边界框的标签。通过直接在 `np.mgrid` 中构造标签维度，避免了额外的数据处理步骤，从而简化了代码并提升了效率。

理解 3D 边界框数据结构

在处理 3D 空间数据时，我们经常会遇到以边界框形式表示的对象。每个边界框通常由其最小和最大坐标定义，并且可能带有一个或多个属性，例如标签。本教程中，我们假设每个边界框由 8 个 4D 坐标点描述，格式为 (x, y, z, l)，其中 (x, y, z) 是空间坐标，l 是一个整数标签。一个 boxes 数组可能包含 n 个这样的边界框，其形状可能为 (n, 8, 4)。

例如，一个边界框的数据结构可能如下所示：

boxes[0] = [
    [0.0, 0.0, 0.0, 1],
    [2.0, 0.0, 0.0, 1],
    [2.0, 3.0, 0.0, 1],
    [0.0, 3.0, 0.0, 1],
    [0.0, 0.0, 1.0, 1],
    [2.0, 0.0, 1.0, 1],
    [2.0, 3.0, 1.0, 1],
    [0.0, 3.0, 1.0, 1]
]

这里，每个点的第四个维度（索引为 3）代表其所属边界框的标签。

目标：在边界框内进行点采样

我们的目标是在每个给定的 3D 边界框内部，以一个固定的 step_size（例如 0.01 米）生成一系列均匀分布的 (x, y, z) 坐标点，并将每个采样点与其所属边界框的标签 l 关联起来。最终输出应是一个包含所有采样点及其对应标签的列表或数组。

核心工具：np.mgrid 函数

NumPy 库提供了 np.mgrid 函数，它是一个非常强大的工具，用于在指定范围内生成多维网格坐标。它的语法类似于 Python 的切片操作，格式为 start:stop:step。

start 和 stop 定义了维度的起始和结束值。
step 可以是浮点数或复数：
- 当 step 是浮点数时（例如 0.01），它表示步长。在这种情况下，生成的序列将从 start 开始，以 step 为间隔递增，直到但不包括 stop。
- 当 step 是复数时（例如 10j），它表示在 start 和 stop 之间（包含 start 和 stop）生成 N 个点。例如，start:stop:N*1j 将生成 N 个均匀间隔的点。

在本教程中，我们将主要利用浮点数 step_size 的用法，并结合巧妙的维度构造来实现标签的自动关联。

高效采样与标签关联的实现

为了高效地在 3D 边界框内采样点并关联标签，我们可以将 np.mgrid 的功能扩展到第四个维度，专门用于存储标签信息。

1. 确定边界框的范围和标签

对于一个给定的边界框 box（形状为 (8, 4)），我们需要提取其 x, y, z 坐标的最小值和最大值，以及其标签。由于所有 8 个点的标签都是相同的，我们可以从任意一个点获取标签。

import numpy as np

# 假设这是一个单独的边界框数据
box = np.array([
    [0.0, 0.0, 0.0, 1],
    [2.0, 0.0, 0.0, 1],
    [2.0, 3.0, 0.0, 1],
    [0.0, 3.0, 0.0, 1],
    [0.0, 0.0, 1.0, 1],
    [2.0, 0.0, 1.0, 1],
    [2.0, 3.0, 1.0, 1],
    [0.0, 3.0, 1.0, 1]
])
step_size = 0.6 # 采样步长

# 提取x, y, z维度的最小值和最大值
min_x, max_x = np.min(box[:, 0]), np.max(box[:, 0])
min_y, max_y = np.min(box[:, 1]), np.max(box[:, 1])
min_z, max_z = np.min(box[:, 2]), np.max(box[:, 2])

# 提取边界框的标签
label = int(box[0, 3]) # 假设所有点的标签相同

2. 使用 np.mgrid 生成点和标签

现在，我们将 np.mgrid 应用于四个维度：x, y, z 和 label。

points_with_labels = np.mgrid[
    min_x:max_x:step_size,
    min_y:max_y:step_size,
    min_z:max_z:step_size,
    label:label + 1 # 关键：生成一个只包含标签值的维度
]

这里 label:label + 1 是一个巧妙的用法。它会生成一个从 label 开始，步长为 1，到 label + 1 结束（不包含 label + 1）的序列。这意味着这个维度将只包含 label 这一个值，从而将标签广播到所有生成的 (x, y, z) 点上。

Glimmer Ai

基于GPT-3和DALL·E2的PPT制作工具

下载

3. 重塑数据

np.mgrid 的输出是一个多维数组，其每个维度对应于输入切片。我们需要将其重塑为 (N, 4) 的二维数组，其中 N 是采样点的总数，每行代表一个 (x, y, z, label) 点。

points_final = points_with_labels.reshape(4, -1).T

reshape(4, -1) 会将数组重塑为 4 行，列数自动计算。.T 进行转置操作，将形状变为 (-1, 4)，即 N 行 4 列，这正是我们期望的 (x, y, z, label) 格式。

示例代码：单个边界框的采样

让我们结合上述步骤，为一个示例边界框生成采样点。

import numpy as np
from itertools import product, repeat

# 示例边界框数据
# 这是一个从 (0,0,0) 到 (1,1,1) 的立方体，标签为 7
label = 7
box = np.hstack([np.array(list(product(*repeat(range(2), 3)))), np.ones((8,1)) * label])
print("原始边界框数据:\n", box)

step_size = 0.6 # 采样步长

# 提取x, y, z维度的最小值和最大值
min_x, max_x = np.min(box[:, 0]), np.max(box[:, 0])
min_y, max_y = np.min(box[:, 1]), np.max(box[:, 1])
min_z, max_z = np.min(box[:, 2]), np.max(box[:, 2])

# 使用 np.mgrid 生成点和标签
points_with_labels = np.mgrid[
    min_x:max_x:step_size,
    min_y:max_y:step_size,
    min_z:max_z:step_size,
    label:label + 1
]

# 重塑数据为 (N, 4) 格式
sampled_points = points_with_labels.reshape(4, -1).T

print("\n采样步长:", step_size)
print("生成的采样点及其标签:\n", sampled_points)

输出示例:

原始边界框数据:
 [[0. 0. 0. 7.]
 [0. 0. 1. 7.]
 [0. 1. 0. 7.]
 [0. 1. 1. 7.]
 [1. 0. 0. 7.]
 [1. 0. 1. 7.]
 [1. 1. 0. 7.]
 [1. 1. 1. 7.]]

采样步长: 0.6
生成的采样点及其标签:
 [[0.  0.  0.  7. ]
 [0.  0.  0.6 7. ]
 [0.  0.6 0.  7. ]
 [0.  0.6 0.6 7. ]
 [0.6 0.  0.  7. ]
 [0.6 0.  0.6 7. ]
 [0.6 0.6 0.  7. ]
 [0.6 0.6 0.6 7. ]]

处理多个边界框

当需要处理多个边界框时，我们可以遍历 boxes 数组，对每个边界框应用上述逻辑，并将结果收集起来。

import numpy as np

# 模拟多个边界框数据
# boxes.shape = (num_boxes, 8, 4)
boxes = np.array([
    [
        [0.0, 0.0, 0.0, 1], [2.0, 0.0, 0.0, 1], [2.0, 3.0, 0.0, 1], [0.0, 3.0, 0.0, 1],
        [0.0, 0.0, 1.0, 1], [2.0, 0.0, 1.0, 1], [2.0, 3.0, 1.0, 1], [0.0, 3.0, 1.0, 1]
    ],
    [
        [10.0, 10.0, 10.0, 2], [11.0, 10.0, 10.0, 2], [11.0, 12.0, 10.0, 2], [10.0, 12.0, 10.0, 2],
        [10.0, 10.0, 11.0, 2], [11.0, 10.0, 11.0, 2], [11.0, 12.0, 11.0, 2], [10.0, 12.0, 11.0, 2]
    ]
])

step_size = 0.5 # 采样步长

all_sampled_points = []

for i in range(boxes.shape[0]):
    current_box = boxes[i]

    # 提取x, y, z维度的最小值和最大值
    min_x, max_x = np.min(current_box[:, 0]), np.max(current_box[:, 0])
    min_y, max_y = np.min(current_box[:, 1]), np.max(current_box[:, 1])
    min_z, max_z = np.min(current_box[:, 2]), np.max(current_box[:, 2])

    # 提取边界框的标签
    label = int(current_box[0, 3])

    # 使用 np.mgrid 生成点和标签
    points_with_labels = np.mgrid[
        min_x:max_x:step_size,
        min_y:max_y:step_size,
        min_z:max_z:step_size,
        label:label + 1
    ]

    # 重塑数据为 (N, 4) 格式
    sampled_points_for_box = points_with_labels.reshape(4, -1).T
    all_sampled_points.append(sampled_points_for_box)

# 将所有边界框的采样点合并为一个 NumPy 数组
final_sampled_data = np.vstack(all_sampled_points)

print("所有边界框的采样点及其标签的前10行:\n", final_sampled_data[:10])
print("\n所有边界框的采样点总数:", final_sampled_data.shape[0])

注意事项

端点包含性： 使用 np.mgrid 配合浮点数 step_size 时，生成的序列默认不包含 stop 值。这意味着 max_x, max_y, max_z 这些边界值本身可能不会被采样到，除非它们恰好是 start + k * step_size 的精确结果。如果需要严格包含端点，可以考虑以下方法：
- 将 stop 值略微增大一个很小的量（例如 max_x + epsilon）。
- 使用复数步长语法 N*1j，它会包含 start 和 stop，但需要预先计算每个维度所需的点数。例如 np.mgrid[min_x:max_x:(num_points_x)*1j]。
- 结合 np.linspace 和 np.meshgrid。选择哪种方法取决于对端点包含性的具体要求。本教程中的方法遵循了答案给出的简洁 step_size 方式。
浮点数精度： 在涉及浮点数计算时，尤其是在比较边界或计算步长时，可能会遇到浮点数精度问题。在实际应用中，如果对边界的精确性有极高要求，需要谨慎处理。
性能考量： 对于少量边界框，上述循环方法效率足够。但如果 boxes 数组非常大，且每个边界框的采样点数量也很多，循环可能不是最高效的方式。在这种极端情况下，可以考虑更高级的矢量化技术或并行计算，但这会使代码复杂性显著增加。对于大多数常见的 3D 场景，当前方法已提供良好的性能和可读性。

总结

通过巧妙地利用 NumPy np.mgrid 函数的切片语法，

GitHub Actions 中同时捕获多行脚本输出与保留退出码的完整方案

如何在 Linux/macOS 系统中全面查找所有 Python 解释器安装

Python asyncio.sleep怎么用_模拟异步非阻塞耗时操作切出控制权替代time.sleep()

Python多数元素怎么找_摩尔投票法O(1)空间寻找众数

Python爬虫重试机制怎么写_Tenacity库装饰器实现网络异常自动重试与退避策略

相关专题

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

549

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06

go语言数组和切片

本专题整合了go语言数组和切片的区别与含义，阅读专题下面的文章了解更多详细内容。

2025.09.03

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板