Pandas DataFrame合并：实现共享键更新与非共享数据新增

心靈之曲

发布时间：2025-09-20 10:26:39

886人浏览过

来源于php中文网

原创

Pandas DataFrame合并：实现共享键更新与非共享数据新增

本教程详细介绍了如何使用Pandas合并两个DataFrame，以实现基于共享键的数据更新（添加新列）和非共享键的数据新增（添加新行）。文章通过DataFrame.join和DataFrame.combine_first两种方法，结合具体代码示例，演示了如何高效地整合数据，满足复杂的数据合并需求。

在数据处理过程中，我们经常需要将多个dataframe整合到一起。一个常见的场景是，两个dataframe可能共享部分键（例如，主机名和值id），我们希望基于这些共享键来合并数据：对于共享键，添加新的列；对于不共享的键，则作为新行添加到结果中。这实际上是一种特殊的外连接（outer join）需求，它不仅要保留所有匹配和不匹配的行，还要处理因合并而引入的新列。

为了清晰地说明这一过程，我们使用以下两个示例DataFrame：

DataFrame A (dfa):

  host  val1  val2
0   aa    11    44
1   bb    22    55
2   cc    33    66

DataFrame B (dfb):

  host  val1  val3
0   aa    11    77
1   bb    22    88
2   dd     0    99

我们的目标是得到如下所示的合并结果：

预期合并结果 (df_expected):

  host  val1  val2  val3
0   aa    11  44.0  77.0
1   bb    22  55.0  88.0
2   cc    33  66.0   NaN
3   dd     0   NaN  99.0

可以看到，aa和bb是共享键，其val2和val3列被整合；cc是dfa独有的，其val3为NaN；dd是dfb独有的，其val2为NaN。

接下来，我们将介绍两种实现这种合并策略的Pandas方法。

1. 使用 DataFrame.join 进行外连接

pandas.DataFrame.join 方法提供了一种灵活的方式来合并两个DataFrame。当需要基于多个列进行连接时，一个常见的做法是先将这些列设置为DataFrame的索引，然后执行连接操作。how='outer' 参数确保了所有在任一DataFrame中存在的行都会被包含在结果中。

示例代码：

靠岸学术

一款集翻译，阅读，文献管理于一体的英文文献阅读器

下载

import pandas as pd
import numpy as np

# 准备示例数据
data_a = {'host': ['aa', 'bb', 'cc'],
          'val1': [11, 22, 33],
          'val2': [44, 55, 66]}
dfa = pd.DataFrame(data_a)

data_b = {'host': ['aa', 'bb', 'dd'],
          'val1': [11, 22, 0],
          'val3': [77, 88, 99]}
dfb = pd.DataFrame(data_b)

print("--- 原始 DataFrame A ---")
print(dfa)
print("\n--- 原始 DataFrame B ---")
print(dfb)

# 定义作为合并键的列
cols_to_join = ['host', 'val1']

# 将合并键设置为索引，执行外连接，然后重置索引
merged_df_join = dfa.set_index(cols_to_join).join(
    dfb.set_index(cols_to_join),
    how='outer'
).reset_index()

print("\n--- 使用 DataFrame.join 合并结果 ---")
print(merged_df_join)

代码解析：

cols_to_join = ['host', 'val1']：定义了用于合并的共同键列。
dfa.set_index(cols_to_join) 和 dfb.set_index(cols_to_join)：将host和val1列设置为两个DataFrame的索引。join方法默认是基于索引进行连接的。
.join(..., how='outer')：执行外连接操作。这意味着如果一个键只存在于其中一个DataFrame中，该键对应的行也会被保留，另一DataFrame中不存在的列则填充NaN。
.reset_index()：在连接完成后，将之前设置为索引的host和val1列重新变回常规列，以便于后续处理和查看。

2. 使用 DataFrame.combine_first 整合数据

pandas.DataFrame.combine_first 方法主要用于用另一个DataFrame的非NaN值来填充当前DataFrame的NaN值。当两个DataFrame的索引（或通过set_index设置的键）对齐时，它会优先保留调用者的非NaN值，如果调用者为NaN，则使用参数DataFrame的对应值。这在某种程度上也能实现类似的外连接效果，特别适用于数据整合和填充缺失值的场景。

示例代码：

# 沿用上面的 dfa 和 dfb 定义

# 定义作为合并键的列
cols_to_combine = ['host', 'val1']

# 将合并键设置为索引，执行 combine_first，然后重置索引
merged_df_combine = dfa.set_index(cols_to_combine).combine_first(
    dfb.set_index(cols_to_combine)
).reset_index()

print("\n--- 使用 DataFrame.combine_first 合并结果 ---")
print(merged_df_combine)

代码解析：

cols_to_combine = ['host', 'val1']：同样定义了作为合并键的列。
dfa.set_index(cols_to_combine) 和 dfb.set_index(cols_to_combine)：将host和val1列设置为索引。combine_first也依赖于对齐的索引。
.combine_first(...)：执行组合操作。对于索引相同的行：
- 如果dfa中的某个单元格是非NaN值，则保留dfa的值。
- 如果dfa中的某个单元格是NaN值，则使用dfb中对应单元格的值。
- 如果索引只存在于一个DataFrame中，则会扩展结果DataFrame的索引，并填充NaN值。
.reset_index()：将索引重新变回常规列。

结果验证

无论是使用DataFrame.join还是DataFrame.combine_first，上述两种方法都将产生与预期结果完全一致的DataFrame：

  host  val1  val2  val3
0   aa    11  44.0  77.0
1   bb    22  55.0  88.0
2   cc    33  66.0   NaN
3   dd     0   NaN  99.0

这表明两种方法都能有效地处理共享键的数据更新和非共享键的数据新增需求。

注意事项与选择建议

键的类型和数量：两种方法都要求合并键（无论是通过on参数还是set_index）在两个DataFrame中具有相同的名称和数据类型。当需要基于多列进行合并时，set_index后操作是推荐的通用模式。
join vs combine_first：
- join方法更通用，适用于各种连接类型（内连接、左连接、右连接、外连接），通过how参数明确指定连接行为。当你的主要意图是执行数据库风格的连接操作时，join（或更灵活的merge）是首选。
- combine_first更侧重于数据填充和整合，它会优先保留调用者DataFrame的值，然后用参数DataFrame的值填充缺失部分。在处理两个DataFrame结构相似，且希望用一个DataFrame的数据“补充”另一个DataFrame的场景时，combine_first可能更直观和简洁。
性能：对于非常大的DataFrame，性能可能会有所不同。通常，Pandas的底层实现会进行优化，但具体哪种方法在特定数据集上表现更好，可能需要通过实际测试来确定。
索引的重要性：在使用join和combine_first时，理解索引的作用至关重要。它们默认基于索引进行操作。如果你的合并键不是索引，务必先使用set_index()将其设置为索引，并在操作完成后使用reset_index()恢复列状态。

总结

本教程详细演示了如何使用Pandas的DataFrame.join和DataFrame.combine_first方法来解决一个常见的数据合并问题：即在合并两个DataFrame时，既要更新共享键的数据（添加新列），又要包含非共享键的数据（添加新行）。通过将合并键设置为索引，并结合外连接或数据填充逻辑，我们可以高效且灵活地实现复杂的数据整合需求。理解这两种方法的适用场景和工作原理，将有助于你在数据分析工作中更有效地处理和管理数据。

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

338

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

225

2025.10.31

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

138

2026.02.12

数据库三范式

数据库三范式是一种设计规范，用于规范化关系型数据库中的数据结构，它通过消除冗余数据、提高数据库性能和数据一致性，提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

389

2023.06.29

如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构，作用包括：1、释放存储空间；2、确保数据的安全性；3、提高数据库的整体性能，加速查询和操作的执行速度。尽管删除数据库具有一些好处，但在执行任何删除操作之前，务必谨慎操作，并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构，无法回滚。

2111

2023.08.14