如何基于共同键（name）合并两个DataFrame并按行累加数值列

霞舞

发布时间：2026-02-26 11:03:18

227人浏览过

来源于php中文网

原创

如何基于共同键（name）合并两个DataFrame并按行累加数值列

本文介绍使用pandas高效实现“按指定列（如name）对齐，仅对df1中已存在的记录，将df2对应行的数值列累加到df1”的操作，核心方法是过滤+拼接+分组求和。

本文介绍使用pandas高效实现“按指定列（如name）对齐，仅对df1中已存在的记录，将df2对应行的数值列累加到df1”的操作，核心方法是过滤+拼接+分组求和。

在数据分析与ETL流程中，常需将新批次数据（如每日更新的球员统计）增量合并到主数据表中：仅对主表（df1）中已存在的实体（如球员姓名），将其在新表（df2）中的数值字段（如goals、minutes）进行累加；而新表中独有的记录（如Steve）应被忽略，主表中无匹配的新记录（如Bob在df2中未出现）则保持原值不变。

最简洁、高效且符合Pandas惯用法的解决方案是三步链式操作：

过滤 df2：仅保留 name 在 df1 中存在的行；
纵向拼接：将 df1 与过滤后的 df2 合并；
分组聚合：按 name 分组，对所有数值列执行 sum()，自动完成同名行的数值累加，并通过 reset_index() 恢复 name 为普通列。

以下是完整可运行代码示例：

import pandas as pd

# 构建示例数据
df1 = pd.DataFrame([
    {'name': 'Ben', 'goals': 1, 'minutes': 90},
    {'name': 'Bob', 'goals': 1, 'minutes': 64},
    {'name': 'Kevin', 'goals': 1, 'minutes': 90}
])

df2 = pd.DataFrame([
    {'name': 'Ben', 'goals': 1, 'minutes': 88},
    {'name': 'Kevin', 'goals': 1, 'minutes': 3},
    {'name': 'Steve', 'goals': 1, 'minutes': 13}
])

# 核心操作：过滤 → 拼接 → 分组求和 → 重置索引
result = (
    pd.concat([df1, df2.loc[df2["name"].isin(df1["name"])]])
    .groupby("name", as_index=False)
    .sum()
)

print(result)

输出结果：

Descript

一个多功能的音频和视频编辑引擎

下载

    name  goals  minutes
0    Ben      2      178
1    Bob      1       64
2  Kevin      2       93

✅ 关键优势说明：

向量化高效：完全避免显式循环或逐行判断，充分利用Pandas底层优化；
健壮性高：groupby(...).sum() 自动跳过非数值列（若存在），且对缺失值（NaN）默认忽略（可通过 min_count=1 控制）；
语义清晰：逻辑直白——“只合并共有的名字，然后加总”，易于团队协作与后期维护。

⚠️ 注意事项：

若数据中存在重复 name（如 df1 内部已有多个 Ben），groupby.sum() 会将其全部合并，需提前去重（如 df1.drop_duplicates(subset='name', keep='first')）；
确保参与累加的列均为数值类型（int/float），否则 sum() 可能报错或触发隐式类型转换；可预先校验：df1.select_dtypes(include='number').columns；
如需保留原始索引顺序（如按 df1 中 name 的出现顺序排列结果），可在最后添加 .reindex(df1['name'].unique(), fill_value=0) 配合 set_index('name')，但本例因 groupby 默认按字典序排序，故推荐在 groupby 前对拼接数据预排序，或使用 sort=False 参数（Pandas ≥ 1.1）。

该方法是处理“主表增量数值更新”场景的标准范式，兼顾性能、可读性与可扩展性，推荐作为首选方案。

相关标签:

pandas Float sort include int 循环值类型隐式类型转换类型转换 number etl 数据分析

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 中安全验证用户名与设备ID配对的正确方法下一篇：如何在 Python 中精准模拟标准方向键（上下左右）的按键操作

作者最新文章

如何在 Pandas 中高效提取合并操作中的非匹配行（排除已匹配数据）

2026-02-25 13:09

Next.js 13+ API Route 响应返回与客户端消费完整指南

2026-02-25 13:24

Prisma 透明事务系统原理与实现指南

2026-02-25 13:27

如何准确区分 PyTorch 普通张量与嵌套张量（Nested Tensor）

2026-02-25 13:57

BoltDB 并发访问与连接池实现指南：从单进程限制到 HTTP 服务化封装

2026-02-25 14:08

如何解决 Vite 项目部署后仅首页可访问、其他路由 404 的问题

2026-02-25 14:39

Polars 中实现两个爆炸列的左连接：基于 ID 匹配的高效映射

2026-02-25 14:39

Java中使用XPath精准提取XML中同级子元素文本值的完整教程

2026-02-25 15:13

Java Streams 中对字符串型数字字段进行整型排序的完整实践指南

2026-02-25 15:14

如何在 Promise.allSettled 结果中保留原始 ID 映射关系

2026-02-25 15:37

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列，用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容，可以阅读本专题下面的文章。

592

2024.04.28

C++中int、float和double的区别

本专题整合了c++中int和double的区别，阅读专题下面的文章了解更多详细内容。

105

2025.10.23

sort排序函数用法

sort排序函数的用法：1、对列表进行排序，默认情况下，sort函数按升序排序，因此最终输出的结果是按从小到大的顺序排列的；2、对元组进行排序，默认情况下，sort函数按元素的大小进行排序，因此最终输出的结果是按从小到大的顺序排列的；3、对字典进行排序，由于字典是无序的，因此排序后的结果仍然是原来的字典，使用一个lambda表达式作为key参数的值，用于指定排序的依据。

404

2023.09.04

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

850

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

585

2024.08.29