如何在 Pandas 中按组动态计算累计百分比并自动对齐至 100%

聖光之護

发布时间：2026-01-17 12:44:05

164人浏览过

来源于php中文网

原创

如何在 Pandas 中按组动态计算累计百分比并自动对齐至 100%

本文介绍一种高效方法：基于每组连续 `1` 的实际长度，动态分配等距递增的百分比值（如 4 个 `1` 则分配 `[50, 66, 83, 100]`），确保末位恒为 100%，并自动将 `target=0` 行置零。

在使用 Pandas 处理二值序列（如 TARGET 列）时，常需为连续的 1 段生成线性增长的百分比进度列（PERCENTAGE），且要求该序列严格以 100% 结尾——无论该段长度是否恰好为预设最大值（如 6）。常见误区是硬编码步长（如 100/6 ≈ 16.67），导致短序列无法抵达 100%；正确解法应根据每段实际长度动态缩放。

✅ 核心思路：按组截取、动态对齐

我们不预先固定步长，而是：

PaperAiBye

支持近30多种语言降ai降重，并且支持多种语言免费测句子的ai率，支持英文aigc报告等

下载

定义全局最大长度 MAX_ONES = 6，预计算完整序列 PCTS = [16, 33, 50, 66, 83, 100]（即 int(100 * n / MAX_ONES)，n 从 1 到 6）；
对每个 ID 分组内、TARGET==1 的连续块（注意：此处需先识别连续段，而非简单按 ID 和 TARGET 分组——原答案中 groupby(["ID", "TARGET"]) 仅适用于 TARGET 全局分段，但题目隐含“连续 1 序列”，故需更精确的连续段识别）；
关键技巧：对每个连续 1 段，取 PCTS 的后 k 个元素（k 为该段长度），实现“右对齐至 100%”。

? 正确实现（支持连续段识别）

import pandas as pd
import numpy as np

# 示例数据
df = pd.DataFrame({
    'ID': ['A', 'A', 'A', 'A', 'A', 'A', 'A', 'A'],
    'TARGET': [1, 1, 1, 1, 0, 0, 0, 0]
})

# 步骤1：识别连续的1段（关键！）
df['block_id'] = (df['TARGET'] == 0).cumsum()  # TARGET=0 时递增，形成连续1段的唯一标识
df['is_one'] = df['TARGET'] == 1
# 过滤出所有1的位置，并标记其所属连续段
ones_df = df[df['is_one']].copy()
ones_df['segment'] = (ones_df['block_id'] != ones_df['block_id'].shift()).cumsum()

# 步骤2：预定义完整百分比序列（MAX_ONES=6）
MAX_ONES = 6
PCTS = [int((100 / MAX_ONES) * n) for n in range(1, MAX_ONES + 1)]  # [16,33,50,66,83,100]

# 步骤3：按连续段分组，为每段分配后缀序列
def assign_percentage(group):
    k = len(group)
    # 取PCTS后k个值（保证末位为100）
    values = PCTS[-k:] if k <= MAX_ONES else PCTS
    return pd.Series(values, index=group.index)

# 应用到ones_df
ones_df['PERCENTAGE'] = ones_df.groupby('segment').apply(assign_percentage).explode().astype(int)

# 步骤4：合并回原df，缺失处填0
df = df.merge(ones_df[['PERCENTAGE']], left_index=True, right_index=True, how='left')
df['PERCENTAGE'] = df['PERCENTAGE'].fillna(0).astype(int)

print(df[['ID', 'TARGET', 'PERCENTAGE']])

⚠️ 注意事项

连续段识别是关键：直接 groupby(['ID','TARGET']) 会错误合并非连续的 1（如 1,0,1 被视为同一组），必须用 (TARGET==0).cumsum() 或 diff().ne(0).cumsum() 提取物理连续块。
整数精度处理：int() 截断可能导致小数点后误差（如 100/6*3=50.0→50 合理，但 100/7*5≈71.4→71），若需四舍五入可用 round()。
超长序列处理：若某段 1 数量 > MAX_ONES（如 8 个），当前逻辑截取全部 PCTS（6 个值），剩余位置可扩展为 100 或报错，需按业务补充逻辑。

✅ 总结

该方案摆脱了固定步长的限制，通过预计算+后缀截取策略，确保任意长度的连续 1 序列都能生成以 100% 结尾的等差百分比列。结合连续段识别与向量化操作，兼具可读性与执行效率，是处理此类“动态归一化进度条”场景的推荐实践。

Flask 实现实时摄像头视频流的正确方法

如何使用最近邻插补法处理缺失年龄值并解决残留NaN问题

Python 如何检测当前代码是否运行在 Jupyter Notebook 里

Python 如何让一个生成器在第一次迭代时做初始化

如何正确读取含逗号小数点的DSC文本数据并转换为浮点数进行绘图

相关标签:

编码 app pandas int

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：解析 Python 类型注解字符串以提取泛型参数（如 Tuple 中的子类型）下一篇：Python 如何安全地在多线程环境下累加计数器（不加锁）

作者最新文章

如何安全移除 Elementor 生成的 HTML 标签，仅保留内部文本内容

2026-01-16 22:04

如何在 Cypress 中正确处理外部文件下载而不导致测试卡死

2026-01-16 22:19

标题：将评分范围按不等长区间划分并映射到消息数组的高效算法实现

2026-01-16 22:19

如何实现 HTML 下拉菜单中的嵌套子菜单（二级下拉）

2026-01-16 22:29

Cypress 中正确处理文件下载的完整实践指南

2026-01-16 22:32

如何在 Go 程序中正确使用 os/exec 调用 go build 命令

2026-01-16 22:35

如何在 Go Web 应用中正确托管 CSS 文件并解决 404 错误

2026-01-16 22:40

如何在 Go Web 应用中正确托管 CSS 静态资源避免 404 错误

2026-01-16 22:40

标题：装饰器模式的适用边界与类型兼容性约束

2026-01-16 22:59

如何使用 cURL 正确发送 JSON 数据到 PHP 接口

2026-01-16 23:36

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

317

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

538

2024.08.29

c++怎么把double转成int

本专题整合了 c++ double相关教程，阅读专题下面的文章了解更多详细内容。

2025.08.29

C++中int的含义

本专题整合了C++中int相关内容，阅读专题下面的文章了解更多详细内容。

197

2025.08.29

高德地图升级方法汇总

本专题整合了高德地图升级相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.16

全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总，阅读专题下面的文章了解更多详细内容。

2026.01.16

C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法，包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程，以及常见代码质量问题的发现与修复。通过工程化示例，帮助开发者建立可测试、可维护、高质量的 C++ 项目体系。

2026.01.16