Pandas: 使用参考数据框的分位数区间对目标数据框进行分箱标注

花韻仙語

发布时间：2026-01-21 11:44:20

388人浏览过

来源于php中文网

原创

Pandas: 使用参考数据框的分位数区间对目标数据框进行分箱标注

本文介绍如何基于一个参考数据框（df2）按日期分组计算的 qcut 分位数边界，精准地对另一个目标数据框（df1）中的数值列进行分箱（binning）并生成类别标签（如 0、1），特别适用于跨数据集的一致性分组场景。

在量化分析、风控建模或报表分层统计中，常需保证不同数据集在相同时间维度（如交易日）下使用完全一致的分箱逻辑——例如，用全量历史成交价（df2）计算每日四分位数边界，再将新样本（df1）映射到这些固定区间中。直接对 df1 单独分箱会导致边界漂移，破坏可比性；而 pd.qcut 不支持外部 bin 输入，因此需手动构建分箱流程。

核心思路分为四步：

从参考数据（df2）提取分位数边界：按 PriceDate 分组，对 Price 列调用 pd.qcut(..., retbins=True) 获取各组的 bin 边界数组；
关联边界到目标数据（df1）：通过 merge 将边界列表（Bins）按日期左连接至 df1；
扩展边界以覆盖异常值：将原始 bin 的首尾替换为 -∞ 和 +∞，确保所有 Price 值均可被 pd.cut 安全归类；
按日期分组执行分箱：对合并后的 DataFrame 按 PriceDate 分组，对每组 Price 应用 pd.cut 并返回整数标签。

以下是完整可运行代码：

B12

B12是一个由AI驱动的一体化网站建设平台

下载

import pandas as pd
import numpy as np

# 示例数据（已修正 df1 首值为 -4.4 以验证边界外处理）
df1 = pd.DataFrame({
    'Price': [-4.4, 3.6, 9.2, 3.4],
    'PriceDate': ['2023-10-01', '2023-10-01', '2023-10-01', '2023-10-02']
})
df2 = pd.DataFrame({
    'Price': [0.0, 3.6, 9.3, 4.5, 2.9, 3.2, 1.0, 6.7, 8.7, 9.8, 3.4, 0.7, 2.2, 6.5, 3.4, 1.7, 9.4, 10.0],
    'PriceDate': ['2023-10-01']*7 + ['2023-10-02']*11
})

# Step 1: 从 df2 提取每日期的 qcut 边界（2 分位 → 3 个边界点）
ref = df2.groupby('PriceDate')['Price'].apply(
    lambda g: pd.qcut(g, q=2, retbins=True)[1]
).reset_index(name='Bins')

# Step 2: 合并边界到 df1
df_merged = pd.merge(df1, ref, on='PriceDate', how='left')

# Step 3 & 4: 定义安全分箱函数并应用
def assign_bin(group):
    bins = group['Bins'].iloc[0]  # 取当前日期的边界列表
    # 扩展边界：保留中间断点，首尾替换为 ±inf（关键！）
    extended_bins = [-np.inf] + bins[1:-1].tolist() + [np.inf]
    # 执行分箱，返回整数标签（0-based）
    return pd.cut(group['Price'], bins=extended_bins, labels=False).astype('Int64')

df_merged['Rank'] = df_merged.groupby('PriceDate', group_keys=False).apply(assign_bin)
print(df_merged[['Price', 'PriceDate', 'Rank']])

输出结果：

   Price   PriceDate  Rank
0 -4.4  2023-10-01     0
1  3.6  2023-10-01     1
2  9.2  2023-10-01     1
3  3.4  2023-10-02     0

✅ 关键注意事项：

bins[1:-1] 跳过首尾（因 qcut 返回的边界含最小/最大值，而 cut 需内部断点）；
使用 [-np.inf, ..., np.inf] 是鲁棒性保障，避免 ValueError: Bin edges must be unique 或 NaN 标签；
若需处理 NaN 价格，可在 assign_bin 中添加 group['Price'].dropna() 或设置 pd.cut(..., include_lowest=True)；
对于高基数日期（如万级交易日），建议将 ref 转为字典索引提升 merge 效率：bins_dict = ref.set_index('PriceDate')['Bins'].to_dict()，再用 map 替代 merge。

该方法确保了分箱逻辑完全复用参考分布，是实现跨数据集标准化分组的可靠范式。

Flask 命令行参数顺序详解：--app 与子命令选项的正确用法

Python API 网关的 rate limit

Kivy 中跨类传递 Spinner 选择值的正确实践

Kivy 中跨类传递 Spinner 选择值的完整实践指南

如何从网页中安全提取并解析嵌入的 JavaScript JSON 数据

相关标签:

edge pandas map

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：PySpark Java Gateway Exited 错误的根源与解决方案下一篇：如何安全地为可能被截断操作影响的SQL查询结果实现缓存

作者最新文章

怎么在vscode中画3d图

2026-03-09 16:53

如何实现滚动到指定区域时触发动画线条效果

2026-03-09 17:18

索尼PC游戏卖不动玩家吐槽其发售晚价格贵质量不行

2026-03-09 17:36

如何在单页中正确结合 AJAX 与 PHP 实现无刷新用户名验证

2026-03-09 17:38

抖音爆款视频怎么拍？抖音怎么拍视频好看

2026-03-09 17:42

Go 标准库中解析 HTML 表单嵌套数组的实践与替代方案

2026-03-09 17:52

HTML中动态插入变量值的正确写法与常见错误解析

2026-03-09 17:53

vscode怎么一键改变量名

2026-03-09 17:56

Go 语言中如何在 switch 分支中动态创建符合接口的接收者实例

2026-03-09 17:58

如何在 Go 语言测试中正确模拟表单 POST 请求

2026-03-09 17:59

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

golang map内存释放

本专题整合了golang map内存相关教程，阅读专题下面的文章了解更多相关内容。

2025.09.05

golang map相关教程

本专题整合了golang map相关教程，阅读专题下面的文章了解更多详细内容。

2025.11.16

golang map原理

本专题整合了golang map相关内容，阅读专题下面的文章了解更多详细内容。

2025.11.17

java判断map相关教程

本专题整合了java判断map相关教程，阅读专题下面的文章了解更多详细内容。

2025.11.27

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

158

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板