0

0

PHP:高效处理多数组列式数据分组聚合的教程

碧海醫心

碧海醫心

发布时间:2025-10-06 11:29:01

|

409人浏览过

|

来源于php中文网

原创

PHP:高效处理多数组列式数据分组聚合的教程

本文探讨了在PHP中如何根据一个关键数组,对多个并行数组中的列式数据进行分组并求和。文章提供了三种不同的实现策略,包括原地修改、构建新索引数组以及利用引用进行聚合,旨在帮助开发者高效处理类似的数据聚合需求,确保数据处理的准确性和代码的可维护性。

php开发中,我们经常会遇到需要处理多组相关联的列式数据的情况。例如,有多个数组分别存储了状态、交易数量、收入和毛利润,并且这些数组的索引是对应的。我们的目标是根据其中一个数组(例如状态数组)进行分组,并将其他相关联的数值型数组的数据进行求和聚合。

考虑以下场景中的数据结构:

$statuses = ['PROSPECT', 'BACKLOG', 'PROSPECT'];
$of_tranxs = [2, 1, 2];
$revs = [3, 1, 3];
$mgps = [4, 1, 4];

我们期望的输出是一个新的结构,其中每个状态只出现一次,并且对应的交易数量、收入和毛利润都已按状态聚合求和:

array(
  'status' => ['PROSPECT', 'BACKLOG'],
  'of_tranx' => [4, 1], // 2 + 2 = 4
  'rev' => [6, 1],     // 3 + 3 = 6
  'mgp' => [8, 1]      // 4 + 4 = 8
)

下面将介绍几种在PHP中实现这种分组求和的有效方法。

方法一:原地修改并重新索引

这种方法的核心思想是在遍历过程中,识别重复的状态。当发现重复状态时,将其对应的数值累加到第一次出现该状态的原始位置上,然后将重复项从所有原始数组中移除。最后,对所有数组进行重新索引以去除空洞。

立即学习PHP免费学习笔记(深入)”;

实现步骤:

PathFinder
PathFinder

AI驱动的销售漏斗分析工具

下载
  1. 初始化一个辅助数组 $found 来记录每个状态第一次出现的索引。
  2. 遍历 $statuses 数组。
  3. 如果当前状态是第一次遇到,将其索引记录到 $found 中。
  4. 如果当前状态是重复的,将其对应的 $of_tranxs、$revs 和 $mgps 值累加到 $found 中记录的第一次出现的索引位置。
  5. 累加完成后,从所有原始数组中移除当前重复项。
  6. 循环结束后,使用 array_values() 对所有数组进行重新索引。

示例代码:

$statuses = ['PROSPECT', 'BACKLOG', 'PROSPECT'];
$of_tranxs = [2, 1, 2];
$revs = [3, 1, 3];
$mgps = [4, 1, 4];

$found = [];
foreach ($statuses as $index => $status) {
    if (!isset($found[$status])) {
        // 第一次遇到该状态,记录其索引
        $found[$status] = $index;
        continue;
    }
    // 状态重复,累加到第一次出现的位置
    $of_tranxs[$found[$status]] += $of_tranxs[$index];
    $revs[$found[$status]] += $revs[$index];
    $mgps[$found[$status]] += $mgps[$index];
    // 移除当前重复项
    unset($statuses[$index], $of_tranxs[$index], $revs[$index], $mgps[$index]);
}

$result = [
    'status' => array_values($statuses),
    'of_tranx' => array_values($of_tranxs),
    'rev' => array_values($revs),
    'mgp' => array_values($mgps)
];

var_export($result);

优点:

  • 在原始数组上进行操作,可能在某些情况下节省内存(尽管 unset 和 array_values 会有开销)。
  • 逻辑相对直观。

缺点:

  • 会修改原始数组,如果原始数据还需要保留,则需要先进行复制。
  • unset 操作会打乱数组索引,最终需要 array_values() 进行重新索引,这会产生额外的遍历和内存开销。

方法二:构建新的结果数组并使用索引映射

这种方法通过构建一个新的结果数组来存储聚合后的数据,同时使用一个辅助数组来映射每个状态在新结果数组中的索引位置。这避免了对原始数组的修改和复杂的重新索引。

实现步骤:

  1. 初始化一个空的结果数组 $result 和一个用于新索引映射的数组 $newIndex。
  2. 初始化一个计数器 $i,用于为新结果数组分配索引。
  3. 遍历 $statuses 数组。
  4. 如果当前状态在 $newIndex 中不存在,说明是第一次遇到该状态:
    • 将当前状态及其对应的数值添加到 $result 数组中。
    • 将当前状态及其在新 $result 数组中的索引记录到 $newIndex 中,并递增 $i。
  5. 如果当前状态已在 $newIndex 中存在,说明是重复状态:
    • 根据 $newIndex 中记录的索引,将当前数值累加到 $result 数组的对应位置。

示例代码:

$statuses = ['PROSPECT', 'BACKLOG', 'PROSPECT'];
$of_tranxs = [2, 1, 2];
$revs = [3, 1, 3];
$mgps = [4, 1, 4];

$result = [];
$newIndex = []; // 存储状态到新结果数组索引的映射
$i = 0;         // 新结果数组的索引计数器

foreach ($statuses as $oldIndex => $status) {
    if (!isset($newIndex[$status])) {
        // 第一次遇到该状态,添加到结果数组并记录新索引
        $newIndex[$status] = $i++;
        $result['status'][] = $status;
        $result['of_tranx'][] = $of_tranxs[$oldIndex];
        $result['rev'][] = $revs[$oldIndex];
        $result['mgp'][] = $mgps[$oldIndex];
    } else {
        // 状态重复,累加到结果数组的对应位置
        $targetNewIndex = $newIndex[$status];
        $result['of_tranx'][$targetNewIndex] += $of_tranxs[$oldIndex];
        $result['rev'][$targetNewIndex] += $revs[$oldIndex];
        $result['mgp'][$targetNewIndex] += $mgps[$oldIndex];
    }
}

var_export($result);

优点:

  • 不修改原始数组,保持数据完整性。
  • 代码逻辑清晰,易于理解和维护。
  • 避免了 array_values() 的额外开销。

缺点:

  • 需要额外的内存来存储 $newIndex 映射数组。

方法三:使用引用构建结果数组

此方法结合了前两种方法的优点,它通过构建一个包含引用变量的中间数组来直接操作最终结果,从而避免了 array_values() 的调用,并且在语义上更清晰地表示了聚合过程。

实现步骤:

  1. 初始化一个空的结果数组 $result 和一个用于存储引用的辅助数组 $ref。
  2. 遍历 $statuses 数组。
  3. 如果当前状态在 $ref 中不存在,说明是第一次遇到该状态:
    • 在 $ref 数组中为该状态创建一个包含所有相关数据的关联数组。
    • 将 $ref 中新创建的这个关联数组的引用添加到 $result 数组中。
  4. 如果当前状态已在 $ref 中存在,说明是重复状态:
    • 直接通过 $ref 中的引用,累加对应状态的数值。由于 $result 中存储的是 $ref 中元素的引用,对 $ref 的修改会直接反映到 $result 中。

示例代码:

$statuses = ['PROSPECT', 'BACKLOG', 'PROSPECT'];
$of_tranxs = [2, 1, 2];
$revs = [3, 1, 3];
$mgps = [4, 1, 4];

$result = [];
$ref = []; // 存储状态到聚合数据块的引用

foreach ($statuses as $i => $status) {
    if (!isset($ref[$status])) {
        // 第一次遇到该状态,创建数据块并存储引用
        $ref[$status] = [
            'status' => $status,
            'of_tranx' => $of_tranxs[$i],
            'rev' => $revs[$i],
            'mgp' => $mgps[$i],
        ];
        $result[] = &$ref[$status]; // 将引用添加到结果数组
    } else {
        // 状态重复,通过引用直接累加
        $ref[$status]['of_tranx'] += $of_tranxs[$i];
        $ref[$status]['rev'] += $revs[$i];
        $ref[$status]['mgp'] += $mgps[$i];
    }
}

// 注意:此方法输出的 $result 结构与前两种略有不同,
// 它是一个索引数组,每个元素是一个包含 'status', 'of_tranx', 'rev', 'mgp' 的关联数组。
// 如果需要前两种方法的列式输出,需要再做一次转换。
// 例如:
$final_result = [
    'status' => array_column($result, 'status'),
    'of_tranx' => array_column($result, 'of_tranx'),
    'rev' => array_column($result, 'rev'),
    'mgp' => array_column($result, 'mgp'),
];

var_export($final_result);

优点:

  • 避免了 array_values() 的调用,减少了额外的遍历。
  • 通过引用直接操作数据,代码简洁高效。
  • 中间结果 $result 是一个包含关联数组的数组,结构化程度更高,便于后续处理。

缺点:

  • 如果最终需要列式输出(如示例期望),则需要额外的 array_column() 转换。
  • 对引用的理解和使用需要更谨慎,避免潜在的副作用。

总结与注意事项

以上三种方法都能有效解决根据一个数组对多个列式数据进行分组求和的问题。在选择具体方法时,可以根据以下因素进行考量:

  • 是否允许修改原始数据: 如果原始数据必须保持不变,应选择方法二或方法三。
  • 性能要求: 对于大数据集,避免不必要的 unset 和 array_values() 操作(如方法一)通常会带来更好的性能。方法二和方法三在单次遍历中完成聚合,通常效率较高。
  • 代码可读性与维护性: 方法二和方法三的逻辑相对清晰,易于理解。方法三通过引用操作,在某些场景下更为优雅。
  • 最终输出结构: 方法三的直接输出是包含关联数组的索引数组,如果需要列式输出,则需额外转换。方法一和方法二直接生成列式输出。

建议在实际开发中,根据项目的具体需求和团队的代码风格,选择最适合的实现方案。对于大多数情况,方法二(构建新结果数组与索引映射)或方法三(使用引用)都是既高效又易于维护的良好选择。

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

549

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

30

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

44

2026.01.06

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

37

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

136

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

47

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

90

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

226

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 13.4万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.3万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号