0

0

Pandas高效实现基于时间范围的DataFrame合并教程

花韻仙語

花韻仙語

发布时间:2025-12-08 15:24:55

|

687人浏览过

|

来源于php中文网

原创

Pandas高效实现基于时间范围的DataFrame合并教程

本教程深入探讨如何在pandas中高效合并两个dataframe,其中一个dataframe的某一时间列需落在另一个dataframe的两个时间列所定义的区间内。我们将摒弃低效的迭代方法,转而采用numpy广播机制,通过矢量化操作显著提升合并大型数据集的性能,并讨论相关的内存管理考量。

在数据分析和处理中,我们经常会遇到需要根据非精确条件(例如时间范围)合并两个DataFrame的情况。一个典型的场景是,我们有一个DataFrame df1,其中包含时间区间的起始 (time_1) 和结束 (time_2),以及另一个DataFrame df2,其中包含单个时间点 (time_3)。我们的目标是,将 df2 中 time_3 落在 df1 任意行的 [time_1, time_2] 区间内的记录与 df1 中对应的行进行合并,并且 df1 的行可能需要被复制多次。

传统方法的局限性

面对这类合并需求,许多开发者可能会自然而然地采用迭代方式。例如,通过嵌套循环遍历 df1 的每一行,然后对 df2 的所有行进行条件筛选,最后使用 pd.concat 或 df.append 将结果逐一拼接。

# 伪代码示例,展示传统方法的思路,实际执行会非常慢
# output_df = pd.DataFrame()
# for i in df1.index:
#     # 筛选 df2 中 time_3 落在 df1.loc[i] 区间内的行
#     matching_df2_rows = df2[(df2['time_3'] >= df1.loc[i]['time_1']) & \
#                             (df2['time_3'] < df1.loc[i]['time_2'])]
#     for _, row_df2 in matching_df2_rows.iterrows():
#         output_df = output_df.append(pd.concat([df1.loc[i], row_df2]), ignore_index=True)

这种方法虽然直观,但效率极低。Pandas的 loc 索引、循环迭代以及 append 操作(尤其是在循环内部)都会导致大量的性能开销,包括重复的数据复制、内存重新分配和索引重建。对于包含数千甚至数万行以上的数据集,这种方法很快就会变得不可接受。

基于VC与Matlab的混合编程实现图像的三维显示 WORD版
基于VC与Matlab的混合编程实现图像的三维显示 WORD版

本文档主要讲述的是基于VC与Matlab的混合编程实现图像的三维显示;介绍了VC++与Matlab混合编程的一般实现方法,并实现对二维影像图的三维效果显示。 MATLAB既是一种直观、高效的计算机语言,同时又是一个科学计算平台。它为数据分析和数据可视化、算法和应用程序开发提供了最核心的数学和高级图形工具。希望本文档会给有需要的朋友带来帮助;感兴趣的朋友可以过来看看

下载

基于NumPy广播的高效合并策略

为了克服传统方法的性能瓶颈,我们可以利用NumPy的广播(Broadcasting)机制进行矢量化操作。NumPy广播允许对形状不同的数组执行算术运算,其核心思想是自动扩展较小数组的维度,使其与较大数组的维度兼容,从而实现元素级的操作,而无需显式的Python循环。

实现步骤

  1. 准备数据: 确保参与合并的DataFrame的索引是唯一的。如果DataFrame原有索引不重要,建议在操作前使用 .reset_index(drop=True) 方法重置索引,以避免潜在的索引对齐问题,确保后续 iloc 索引的准确性。
  2. 转换为NumPy数组并重塑: 将用于比较的时间列转换为NumPy数组。特别是,df1 中的 time_1 和 time_2 列需要被重塑为二维数组(例如 (N, 1) 的形状),而 df2 中的 time_3 列则保持为一维数组((M,) 的形状)。这种形状差异是实现广播的关键。
  3. 执行广播比较: 利用NumPy的比较运算符(, >=)对重塑后的NumPy数组执行矢量化比较。这将生成一个布尔矩阵,其维度为 (N, M),其中 N 是 df1 的行数,M 是 df2 的行数。矩阵中的每个元素 [i, j] 表示 df1 的第 i 行的时间区间是否包含 df2 的第 j 行的时间点。
  4. 提取匹配索引: 使用布尔矩阵的 .nonzero() 方法。此方法会返回两个一维NumPy数组 x 和 y,分别包含所有 True 值元素的行索引和列索引。x 中的每个值对应 df1 中匹配的行位置,y 中的每个值对应 df2 中匹配的行位置。
  5. 合并结果: 最后,利用 iloc 根据 nonzero() 返回的 x 和 y 索引,从原始(或重置索引后)的 df1 和 df2 中选择相应的行。由于 x 和 y 数组的长度相同,我们可以直接将 df1.iloc[x] 和 df2.iloc[y] 通过 pd.concat 沿列方向合并,生成最终的合并结果DataFrame。

示例代码

import pandas as pd
import numpy as np

# 模拟数据
# DataFrame 1: 包含时间区间 time_1 和 time_2
data1 = {
    'time_1': pd.to_datetime(['2023-10-01 04:02:00', '2023-10-01 04:03:00', '2023-10-01 09:00:00']),
    'time_2': pd.to_datetime(['2023-10-01 08:29:00', '2023-10-01 08:49:00', '2023-10-01 10:00:00']),
    'dummy_data_1': [-245.67, -1772.95, 100.0]
}
df1 = pd.DataFrame(data1)

# DataFrame 2: 包含时间点 time_3
data2 = {
    'time_3': pd.to_datetime([
        '2023-10-01 06:21:13.238024',
        '2023-10-01 06:47:19.796628',
        '2023-10-01 07:37:06.438740',
        '2023-10-01 08:16:16.995256',
        '2023-10-01 08:33:53.081095',
        '2023-10-01 09:30:00.000000' # 此时间点落在df1的第三个区间
    ]),
    'dummy_data_2': [-131.37, -236.28, 5.92, -134.03, -103.73, 50.0]
}
df2 = pd.DataFrame(data2)

print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)

# --- 高效合并逻辑 ---

# 1. 确保索引是唯一的。如果不需要保留原有索引,建议重置。
#    这将确保iloc[x]和iloc[y]能正确地按位置索引。
df1_processed = df1.reset_index(drop=True)
df2_processed = df2.reset_index(drop=True)

# 2. 准备NumPy数组进行广播
#    将time_1和time_2重塑为(N, 1)的二维数组,t3保持(M,)的一维数组
t1 = df1_processed["time_1"].to_numpy()[:, None]
t2 = df1_processed["time_2"].to_numpy()[:, None]
t3 = df2_processed["time_3"].to_numpy()

# 3. 执行广播比较,生成布尔矩阵
#    这里使用开区间 (time_1 < time_3 < time_2)。
#    如果需要左闭右开区间 [time_1, time_2),条件应为 (t1 <= t3) & (t3 < t2)。
#    如果需要闭区间 [time_1, time_2],条件应为 (t1 <= t3) & (t3 <= t2)。
match_matrix = (t1 < t3) & (t3 < t2)

# 4. 获取匹配的行索引
#    x 对应 df1_processed 的行索引,y 对应 df2_processed 的行索引
x, y = match_matrix.nonzero()

# 5. 合并结果
#    使用iloc根据匹配索引从原始DataFrame中选择行,然后沿列方向合并
result_df = pd.concat(
    [
        df1_processed.iloc[x].reset_index(drop=True), # 重置索引以避免重复索引
        df2_processed.iloc[y].reset_index(drop=True), # 重置索引以避免重复索引
    ],
    axis=1,
)

print("\n合并结果:")
print(result_df)

输出结果示例:

DataFrame 1:
               time_1              time_2  dummy_data_1
0 2023-10-01 04:02:00 2023-10-01 08:29:00       -245.67
1 2023-10-01 04:03:00 2023-10-01 08:49:00      -1772.95
2 2023-10-01 09:00:00 2023-10-01 10:00:00        100.00

DataFrame 2:
                   time_3  dummy_data_2
0 2023-10-01 

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

57

2025.12.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1500

2023.10.24

Go语言中的运算符有哪些
Go语言中的运算符有哪些

Go语言中的运算符有:1、加法运算符;2、减法运算符;3、乘法运算符;4、除法运算符;5、取余运算符;6、比较运算符;7、位运算符;8、按位与运算符;9、按位或运算符;10、按位异或运算符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

231

2024.02.23

php三元运算符用法
php三元运算符用法

本专题整合了php三元运算符相关教程,阅读专题下面的文章了解更多详细内容。

87

2025.10.17

append用法
append用法

append是一个常用的命令行工具,用于将一个文件的内容追加到另一个文件的末尾。想了解更多append用法相关内容,可以阅读本专题下面的文章。

344

2023.10.25

python中append的用法
python中append的用法

在Python中,append()是列表对象的一个方法,用于向列表末尾添加一个元素。想了解更多append的更多内容,可以阅读本专题下面的文章。

1073

2023.11.14

python中append的含义
python中append的含义

本专题整合了python中append的相关内容,阅读专题下面的文章了解更多详细内容。

176

2025.09.12

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

141

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

24

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号