NumPy多维数组按维度聚合：以年龄分组求均值为例

聖光之護

发布时间：2025-11-01 12:39:05

157人浏览过

来源于php中文网

原创

NumPy多维数组按维度聚合：以年龄分组求均值为例

本教程将详细介绍如何使用numpy高效地对多维数组进行特定维度的聚合操作。以将年龄数据按5年为单位进行分组并计算每个分组内不同性别的均值为例，文章将重点讲解`reshape`和`mean`函数在实现这一复杂聚合中的应用，包括参数设置、维度理解以及常见注意事项，旨在提供一种简洁且高性能的解决方案。

在数据分析和科学计算中，我们经常会遇到需要对多维数组进行特定维度聚合的场景。例如，在一个包含年龄和性别信息的多维数据集中，我们可能需要将年龄数据按特定的时间段（如5年）进行分组，并计算每个年龄段内不同性别的平均值。手动进行此类操作不仅效率低下，且容易出错，尤其当数据量庞大时。NumPy库提供了强大的数组操作功能，能够以简洁高效的方式解决这类问题。

问题场景与手动计算示例

假设我们有一个NumPy数组，其中第一维代表年龄（按年递增），第二维代表性别（例如，0代表女性，1代表男性），数组中的值是与该年龄和性别相关的数据。我们的目标是将年龄维度按5年一个增量进行聚合，并分别计算每个5年增量内两个性别的平均值。

以下是一个原始数组及其手动计算聚合均值的示例，以帮助理解我们希望达到的目标：

import numpy as np

# 原始数组，第一维代表年龄，第二维代表性别
# 例如：[[0岁女性数据, 0岁男性数据], [1岁女性数据, 1岁男性数据], ...]
arr = np.array([
    [0, 1], [2, 3], [3, 4], [4, 5], [5, 6],
    [7, 8], [8, 9], [9, 10], [10, 11], [11, 12]
])

print("原始数组形状:", arr.shape) # (10, 2)

# 手动计算前5年（0-4岁）的均值
mean_1st_5_yrs_female = np.mean([0, 2, 3, 4, 5])
mean_1st_5_yrs_male = np.mean([1, 3, 4, 5, 6])

# 手动计算后5年（5-9岁）的均值
# 注意：原始数据索引0-4对应0-4岁，索引5-9对应5-9岁
# 示例中为了匹配问题描述，将arr[5]的数据也纳入了第一组，这里修正为逻辑上的第二组
mean_2nd_5_yrs_female = np.mean([7, 8, 9, 10, 11])
mean_2nd_5_yrs_male = np.mean([8, 9, 10, 11, 12])

print(f"手动计算结果：")
print(f"第一组5年女性均值: {mean_1st_5_yrs_female:.1f}")
print(f"第一组5年男性均值: {mean_1st_5_yrs_male:.1f}")
print(f"第二组5年女性均值: {mean_2nd_5_yrs_female:.1f}")
print(f"第二组5年男性均值: {mean_2nd_5_yrs_male:.1f}")

# 期望的最终聚合数组形式
expected_arr = np.array([
    [mean_1st_5_yrs_female, mean_1st_5_yrs_male],
    [mean_2nd_5_yrs_female, mean_2nd_5_yrs_male]
])
print("\n期望的聚合数组:")
print(expected_arr)

显然，对于大型数据集，这种手动切片和计算的方法是不可行的。我们需要一种自动化的、基于NumPy数组操作的解决方案。

NumPy的高效解决方案：reshape与mean

NumPy提供了一个优雅且高效的方法来解决这个问题，即结合使用reshape函数改变数组的维度结构，然后利用mean函数沿着正确的轴进行平均。

核心代码如下：

import numpy as np

arr = np.array([
    [0, 1], [2, 3], [3, 4], [4, 5], [5, 6],
    [7, 8], [8, 9], [9, 10], [10, 11], [11, 12]
])

# 核心聚合操作
aggregated_arr = arr.reshape(-1, 5, 2).mean(axis=1)

print("NumPy自动聚合结果:")
print(aggregated_arr)

输出结果：

AI Web Designer

AI网页设计师，快速生成个性化的网站设计

下载

NumPy自动聚合结果:
[[ 2.8  3.8]
 [ 9.  10. ]]

这个结果与我们手动计算的期望值完全一致。

详细解析

arr.reshape(-1, 5, 2)
- reshape函数的作用：该函数用于改变数组的形状（维度），但不改变其数据。它按照新指定的维度顺序重新组织数组中的元素。
- -1参数：这是一个非常实用的占位符。它告诉NumPy根据数组的总元素数量和我们指定的其他维度大小，自动计算该维度的大小。在本例中，原始数组有10行2列，共20个元素。我们指定了中间维度为5，最后一个维度为2。因此，NumPy会自动计算第一个维度的大小为 20 / (5 * 2) = 2。
- 5参数：这指定了我们希望聚合的组大小。由于原始的第一维是年龄，我们希望每5年聚合一次，所以这里设置为5。这意味着每个“块”将包含5个年龄点的数据。
- 2参数：这指定了原始数组的第二个维度（性别维度）的大小。这个维度我们不希望聚合，而是希望它保持独立，因此将其原样保留。
- 重塑后的数组形状：经过reshape(-1, 5, 2)操作后，原始的 (10, 2) 数组被重塑为 (2, 5, 2)。
  - 第一个维度（大小为2）现在代表两个5年期的年龄组（例如，0-4岁组和5-9岁组）。
  - 第二个维度（大小为5）代表每个5年期内的具体年龄点（例如，0, 1, 2, 3, 4岁）。
  - 第三个维度（大小为2）仍然代表两个性别。
.mean(axis=1)
- mean函数的作用：计算数组元素的算术平均值。
- axis参数：这是mean函数的核心。它指定了沿着哪个轴进行平均。
  - 在重塑后的 (2, 5, 2) 数组中：
    - axis=0 对应于不同的年龄组（两个5年期）。
    - axis=1 对应于每个年龄组内的5个年龄点。
    - axis=2 对应于不同的性别。
  - 我们的目标是计算每个5年期内，每个性别独立地对5个年龄点进行平均。因此，我们需要沿着代表年龄点（即第二个维度，索引为1）的轴进行平均。
- 聚合过程：mean(axis=1)操作会沿着第二个轴（大小为5的那个轴）计算平均值。这意味着对于每个年龄组和每个性别，它会将其对应的5个数据点进行平均。
- 最终结果形状：经过mean(axis=1)操作后，axis=1被“压缩”掉，最终数组的形状变为 (2, 2)，完美地表示了两个年龄组、每个组内两个性别的平均值。

关键注意事项

维度兼容性：
- 使用reshape进行聚合时，原始数组被聚合的维度（本例中是第一个维度）的大小必须是聚合组大小（本例中是5）的整数倍。如果不是，reshape操作将失败，或者会产生不完整的数据分组。
- 例如，如果原始数组有11个年龄点，而你试图按5个一组进行聚合，NumPy将无法正确重塑。你需要确保数据在聚合前是可整除的，或者处理剩余部分。
reshape的维度顺序：
- reshape的参数顺序至关重要。在本例中，(-1, 5, 2)是正确的，因为它将原始的10个年龄点拆分为2组，每组包含5个年龄点，并且每个年龄点保留了2个性别的数据。
- 如果错误地使用 arr.reshape(-1, 2, 5)，虽然它也能重塑数组，但其内部数据排列方式将完全不同。例如，重塑后的形状可能是 (2, 2, 5)。此时，axis=1将代表性别，axis=2将代表年龄点。如果你仍然使用mean(axis=1)，你将得到不同年龄点之间性别的平均值，这显然不是我们想要的结果。始终要清晰地理解reshape后每个新维度代表的含义，才能正确选择mean的axis参数。

总结

通过巧妙地结合NumPy的reshape和mean函数，我们可以高效且简洁地完成多维数组的特定维度聚合任务。关键在于理解reshape如何重新组织数据，以及axis参数在聚合操作中的作用。掌握这些技巧将极大地提升你在Python中处理大型数值数据集的效率和代码可读性。

如何在Python中正确加载并显示Kaggle图像数据集中的图片

SHA1 实现与标准库结果不一致的常见原因及修复方案

如何在Python中正确加载并显示Kaggle数据集中的图像

Python 的 copyreg 模块完全适用于自定义类的序列化定制

Python 的 copyreg 模块完全适用于用户自定义类的序列化定制

相关专题

go语言数组和切片

本专题整合了go语言数组和切片的区别与含义，阅读专题下面的文章了解更多详细内容。

2025.09.03

PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境（CLI）下的开发与应用，内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理，以及与 Linux 定时任务（Cron）的结合使用。通过实战示例，帮助开发者掌握使用 PHP 构建自动化脚本、批处理工具与后台任务程序的能力。

2025.12.13

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板