如何在 Pandas 中仅对完整月份进行重采样求和（跳过起始/结束不完整的月）

花韻仙語

发布时间：2026-01-19 13:06:28

312人浏览过

来源于php中文网

原创

如何在 Pandas 中仅对完整月份进行重采样求和（跳过起始/结束不完整的月）

本文介绍一种精准的 pandas 时间序列处理技巧：使用 `resample('ms')` 结合 `days_in_month` 属性过滤，确保仅对起止日期覆盖整月（即包含该月全部天数）的数据执行月度求和，自动排除首尾不完整的月份。

在实际时间序列分析中，常遇到每日数据跨越多个自然月但不严格对齐月边界的情况（例如从 2022-10-18 开始，到 2024-02-07 结束）。此时若直接使用 df.resample('MS').sum()（'MS' 表示 Month Start），Pandas 会将每个日历月的第一天作为分组锚点，并对当月所有可用数据求和——包括仅含部分天数的首月（如 2022-10）和末月（如 2024-02），导致结果不可比、不具统计代表性。

理想方案是：仅保留那些实际数据覆盖了整个月全部天数的月份。核心思路是：对每个重采样后的月份，检查其原始数据记录数是否等于该月应有的总天数（如 2023-02 对应 28 天，2024-02 对应 29 天）。Pandas 的 DatetimeIndex.days_in_month 可直接获取各月天数，而 resample(...).size() 可统计每组有效行数。

以下是完整实现步骤：

import pandas as pd
import numpy as np

# 示例数据：非整月起止的每日数据
df = pd.DataFrame(
    {'gas': np.random.uniform(1.5, 6.5, 60)},
    index=pd.date_range('2022-10-18', periods=60, freq='D')
)

# 步骤1：按月起始重采样，同时计算每月记录数（size）和求和（sum）
monthly_agg = df.resample('MS').agg({'gas': ['size', 'sum']})
monthly_agg.columns = ['count', 'gas_sum']

# 步骤2：生成对应月份的 DatetimeIndex，并提取各月天数
month_index = monthly_agg.index
days_in_month = month_index.days_in_month

# 步骤3：布尔筛选——仅保留 count 等于该月天数的行
complete_months = monthly_agg[monthly_agg['count'] == days_in_month]

# 步骤4：清理结果：丢弃计数列，保留纯月度求和
result = complete_months[['gas_sum']].rename(columns={'gas_sum': 'gas'})

print(result)

✅ 关键说明：

TalkMe

与AI语伴聊天，练习外语口语

下载

resample('MS') 确保按标准日历月分组（如 '2022-10-01', '2022-11-01'）；
agg({'gas': ['size', 'sum']}) 避免多级列名混乱，显式指定聚合操作；
month_index.days_in_month 是向量化属性，无需循环，高效可靠；
该方法天然兼容闰年、大小月，且不受缺失值影响（size 统计非空行数，若需严格要求每日非空，可改用 count() 并配合 dropna=False 控制）。

⚠️ 注意事项：

若原始数据存在某月中断（如缺某几天），即使起止为月初月末，count 也会小于 days_in_month，该月将被自动剔除——这恰是设计所需；
不建议使用 df.resample('M').sum()（Month End），因其锚点为月末，可能导致跨月对齐偏差；
如需保留原始索引格式（如 PeriodIndex），可在最后用 .set_index(month_index.to_period('M')) 转换。

通过这一模式，你可确保所有输出月度汇总值均基于完整、可比、无截断的数据窗口，显著提升时序聚合结果的严谨性与业务解释力。

相关标签:

pandas count 循环

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：numpy 如何只对非零元素执行运算而不创建掩码数组下一篇：暂无

作者最新文章

Python 列表为空？警惕循环中意外重置变量的常见陷阱

2026-01-17 12:29

RTX50系显卡出货大砍！今年一整年恐无新显卡

2026-01-17 12:31

解析 Python 类型注解字符串以提取泛型参数（如 Tuple 中的子类型）

2026-01-17 12:32

Go 中 map 迭代顺序的不确定性与格式化动词无关

2026-01-17 12:34

如何通过按钮点击复制并重命名文件（PHP 实现）

2026-01-17 13:05

《生化危机9：安魂曲》回归浣熊市原因曝光！让系列重回主线

2026-01-17 13:06

如何用Python优雅实现逗号分隔列表（含“and”连接）

2026-01-17 13:09

《勇者斗恶龙7 Reimagined》职业系统/强敌怪物等介绍

2026-01-17 13:15

Go语言解析SOAP响应XML的完整教程：解决命名空间导致的结构体字段为空问题

2026-01-17 13:15

《上古卷轴4：湮灭重制版》在PS5平台卖出110万份

2026-01-17 13:28

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

197

2023.11.20

PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践，涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例，帮助开发者掌握使用 PHP 构建实时通信与推送服务的完整开发流程，适用于即时消息与高互动性应用场景。

2026.01.19

微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全，阅读专题下面的文章了解更多详细内容。

2026.01.18

高德地图升级方法汇总

本专题整合了高德地图升级相关教程，阅读专题下面的文章了解更多详细内容。

101

2026.01.16

全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总，阅读专题下面的文章了解更多详细内容。

148

2026.01.16

C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法，包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程，以及常见代码质量问题的发现与修复。通过工程化示例，帮助开发者建立可测试、可维护、高质量的 C++ 项目体系。

2026.01.16