Python 中实现按累积和阈值动态分组数组的高效方法

聖光之護

发布时间：2026-03-05 09:08:03

955人浏览过

来源于php中文网

原创

Python 中实现按累积和阈值动态分组数组的高效方法

本文介绍如何将一维数值数组按元素累加值动态分段，确保每段子数组的元素和至少达到指定阈值，并返回各段原始子序列或其和；提供简洁可复用的循环实现及关键注意事项。

本文介绍如何将一维数值数组按元素累加值动态分段，确保每段子数组的元素和至少达到指定阈值，并返回各段原始子序列或其和；提供简洁可复用的循环实现及关键注意事项。

在数据预处理、信号分箱（binning）、时间序列聚合等场景中，常需将原始数组非均匀地重采样为若干连续子段，且每段满足一个累积约束条件（如“每段元素之和 ≥ N”），而非固定长度切分。这种需求无法通过 numpy.reshape 或 scipy.signal.resample 直接实现，需采用贪心式遍历策略。

核心思路是：从前向后扫描数组，维护当前段的起始索引与累积和；一旦累积和首次达到或超过阈值，立即切分并重置，继续处理剩余元素。该算法时间复杂度为 O(n)，空间复杂度为 O(n)（用于存储结果），高效且易于理解。

以下为完整实现代码（支持返回子数组列表或对应和）：

def rebin_by_threshold(arr, threshold, return_sums=False):
    """
    将数组按累积和 ≥ threshold 的条件动态分组。

    Parameters:
    -----------
    arr : list or np.ndarray
        输入的一维数值数组
    threshold : int or float
        每段累积和的最小阈值（含）
    return_sums : bool
        若为 True，返回各段的和；否则返回各段子列表

    Returns:
    --------
    list
        子数组列表（或对应的和列表）
    """
    if not arr:
        return []

    start = 0
    total = 0
    result = []

    for end, val in enumerate(arr, start=1):
        total += val
        if total >= threshold:
            segment = arr[start:end]
            result.append(sum(segment) if return_sums else segment)
            total = 0
            start = end

    # 可选：包含末尾未达阈值的剩余段（根据业务需求决定）
    if start < len(arr):
        remaining = arr[start:]
        result.append(sum(remaining) if return_sums else remaining)

    return result

# 示例使用
A = [1, 8, 2, 6, 4, 8, 1, 0, 1, 6, 7, 3, 1, 4, 9, 1, 2, 1, 2, 1, 1, 2]
threshold = 10

# 返回子数组列表
A_reb_segments = rebin_by_threshold(A, threshold, return_sums=False)
print("分段结果（子数组）：")
for i, seg in enumerate(A_reb_segments):
    print(f"  [{i+1}] {seg} → sum = {sum(seg)}")

# 返回各段和
A_reb_sums = rebin_by_threshold(A, threshold, return_sums=True)
print(f"\n分段结果（和）：{A_reb_sums}")

输出：

Axiom

Axiom是一个浏览器扩展，用于自动化重复任务和web抓取。

下载

立即学习“Python免费学习笔记（深入）”；

分段结果（子数组）：
  [1] [1, 8, 2] → sum = 11
  [2] [6, 4] → sum = 10
  [3] [8, 1, 0, 1] → sum = 10
  [4] [6, 7] → sum = 13
  [5] [3, 1, 4, 9] → sum = 17
  [6] [1, 2, 1, 2, 1, 1, 2] → sum = 10

分段结果（和）：[11, 10, 10, 13, 17, 10]

✅ 关键注意事项：

贪心性保证：算法严格从左到右切分，每段均为满足阈值的最短前缀，不回溯、不优化全局段数。
边界鲁棒性：空数组、全零数组、单元素超阈值等情况均能正确处理。
末段策略灵活：示例中保留了未达阈值的剩余段（如全部元素和所有段必须达标，可移除末尾 if start
数据类型兼容：支持 list 和 numpy.ndarray（推荐先转为 list 或使用 arr.tolist() 避免索引歧义）。
性能提示：对超长数组（百万级），可考虑使用 numba.jit 加速内层循环，但通常纯 Python 已足够高效。

此方法简洁、可控、无外部依赖，是解决“阈值驱动动态分箱”问题的标准实践方案。

Python字典排序怎么实现_按键值排序技巧

在 NumPy 中将一维列数组拼接为多列矩阵的完整教程

Python线程与进程怎么选_并发模型取舍

Python读取配置最佳实践_配置分层设计

Python输入边界检查_健壮性设计实践

相关标签:

python numpy scipy 数据类型 if 数值数组循环 signal len 算法

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：提取路径字符串中最后一个目录名的通用方法（兼容文件与目录结尾）下一篇：解决 urllib3 版本冲突导致的 DEFAULT_CIPHERS 导入错误

作者最新文章

如何在 SQL 查询与 PHP 后处理中合并同题多选项的 JSON 结构

2026-03-04 09:19

《文字游戏》衍生作《文字游戏世界》将于3月16日发售

2026-03-04 09:28

《Lost Eidolons: Veil of the Witch》开启超大力度促销

2026-03-04 09:47

高效实现带去重逻辑的滚动均值计算（面试题解析与优化方案）

2026-03-04 09:54

PHP 中的 self 返回类型详解：实现链式调用与类型安全

2026-03-04 10:14

在 .env 文件中何时需要使用引号？

2026-03-04 10:15

Laravel 中 MySQL Date 类型字段更新失败的排查与解决方案

2026-03-04 10:33

PHP 多维数组中访问嵌套键值的实用方法

2026-03-04 10:35

PHP 中安全地将时间戳转换为 TIME 类型并更新 MySQL 数据库

2026-03-04 10:50

如何在 Angular 中动态设置元素悬停时的背景色

2026-03-04 10:51

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

333

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

223

2025.10.31

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

138

2026.02.12

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

839

2023.08.22

if什么意思

839

2023.08.22

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

487

2023.08.14

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

2026.03.04