Pandas 中实现 DataFrame 行级交错合并（非关联式垂直拼接）

碧海醫心

发布时间：2026-01-30 13:54:01

267人浏览过

来源于php中文网

原创

Pandas 中实现 DataFrame 行级交错合并（非关联式垂直拼接）

本文介绍如何将两个无直接键关联的 pandas dataframe 按指定列（如 `a` 和 `c`）的值对齐，以“交错插入”方式纵向拼接，使相同数值的行相邻排列，同时保留原始顺序。

在实际数据处理中，我们常需合并结构不同、无严格外键关系但逻辑上存在值对应关系的 DataFrame。例如，df1 表示主记录（含 ID 列 A），df2 表示其多对一的扩展记录（ID 列为 C），目标并非传统 join（会产生笛卡尔积或丢失单边行），而是按 ID 值“归并排序”——即把 df1 的每条记录与其在 df2 中所有匹配项交替排列，未匹配位置填充 NaN。

核心思路是：统一标识 → 拼接 → 稳定排序 → 清理辅助列。具体步骤如下：

构造统一排序键：利用 fillna() 将 df1.A 和 df2.C 映射到同一列（如 key），使 df1 行的 key = A，df2 行的 key = C；
纵向拼接：使用 pd.concat() 合并两个 DataFrame；
稳定排序：调用 sort_values(..., kind='stable') 保证相同 key 值内部的原始相对顺序（如 C=2 的两行 [10, 11] 保持原有先后）；
清理冗余列：删除临时 key 列，得到最终结果。

import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})
df2 = pd.DataFrame({'C': [1, 2, 2, 3, 3, 3, 4], 'D': [9, 10, 11, 12, 13, 14, 15]})

out = (pd.concat([df1, df2], ignore_index=True)
         .assign(key=lambda d: d['A'].fillna(d['C']))
         .sort_values(by='key', kind='stable', ignore_index=True)
         .drop(columns='key')
      )

print(out)

✅ 输出效果完全匹配预期：A/B 行与 C/D 行按数值交错排列，相同 key 值的组内顺序保留（如 C=2 的两行紧邻且顺序不变），缺失字段自动补 NaN。

Grokipedia

xAI推出的AI在线百科全书

下载

⚠️ 注意事项：

此方法依赖 A 与 C 值域不重叠（或至少无歧义）；若 df1 含 C 列或 df2 含 A 列，需先重命名避免冲突；
ignore_index=True 在 concat 和 sort_values 中均建议显式指定，确保索引连续、可预测；
kind='stable' 是关键：普通快速排序（quicksort）不保证相等元素顺序，而 stable（如 mergesort）可维持原始次序，这对多对一场景至关重要；
若需进一步按 C 或 D 排序子组，可在 sort_values 中添加二级排序字段（如 by=['key', 'D']）。

该方案简洁、高效、可读性强，适用于日志对齐、事件流融合、分层数据展开等典型场景，是 merge/join 之外一种重要的“逻辑合并”范式。

如何在 Pandas 中安全地将含缺失值的列转为 JSON 列表

如何筛选并保留至少包含一个“PC”值的行（基于指定列范围）

Python 中对象的浅拷贝与深拷贝差异

如何在 Pandas 中删除所有不包含指定值（如 "PC"）的行

Polars 中对连续 n 行进行分组聚合的惯用方法

相关标签:

排列 pandas 归并排序快速排序事件 kind

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Neo4j Python Driver 优化指南：高效处理大规模数据写入下一篇：oom_score_adj 无效的 cgroup v1 vs v2 memory controller 迁移坑

作者最新文章

如何在函数中创建并管理多个类实例以进行跨调用比较