Pandas 数据处理：从多列多行合并特定数据到单行

碧海醫心

发布时间：2025-09-03 20:20:01

766人浏览过

来源于php中文网

原创

pandas 数据处理：从多列多行合并特定数据到单行

本文旨在解决 Pandas DataFrame 中，将多列多行数据根据特定条件筛选并合并到单行的问题。通过 stack、where、dropna 等 Pandas 函数的组合应用，可以高效地实现数据转换，提取出符合条件的关键信息，最终生成目标 DataFrame。文章将提供详细的步骤和代码示例，帮助读者掌握这种数据处理技巧。

在数据分析和处理中，经常会遇到需要从多列多行的数据中提取特定信息，并将这些信息合并到单行的情况。例如，在处理包含多个属性和对应值的表格数据时，我们可能需要根据某些条件筛选出有效的属性值，并将它们组合成一个新的数据行。Pandas 提供了强大的数据处理功能，可以帮助我们高效地完成这类任务。

以下介绍一种使用 Pandas 实现该目标的常用方法，主要依赖于 stack、where、dropna 等函数的组合。

步骤详解与代码示例

假设我们有如下 DataFrame (Table A)：

import pandas as pd
import numpy as np

data = {'Position A': [-1, 3, -1, -1],
        'Name A': ['tortise', 'sprite', 'nope', 'nope'],
        'Position B': [-1, 2, -1, -1],
        'Name B': ['monkey', 'coffee', 'nope', 'nope'],
        'Position C': [2, -1, -1, -1],
        'Name C': ['coca cola', 'bird', 'fish', 'nope'],
        'Position D': [-1, -1, 5, -1],
        'Name D': ['slug', 'monkey', 'root beer', 'nope'],
        'Position E': [-1, -1, 1, -1],
        'Name E': ['rooster', 'ostrich', 'tea', 'nope']}
df = pd.DataFrame(data)

print("原始 DataFrame (Table A):\n", df)

我们的目标是从这个 DataFrame 中提取出 Position 值不等于 -1 对应的 Name 值，并将这些 Name 值合并成一个新的 DataFrame (Table B)。

筛选 Name 列：

首先，使用 filter 函数筛选出所有 Name 列。

name_df = df.filter(like='Name')
print("\n筛选后的 Name DataFrame:\n", name_df)

堆叠 Name 列：

使用 stack 函数将 Name 列堆叠成一个 Series。

AOXO_CMS建站系统企业通用版1.0

一个功能强大、性能卓越的企业建站系统。使用静态网页技术大大减轻了服务器负担、加快网页的显示速度、提高搜索引擎推广效果。本系统的特点自定义模块多样化、速度快、占用服务器资源小、扩展性强，能方便快捷地建立您的企业展示平台。简便高效的管理操作从用户使用的角度考虑，对功能的操作方便性进行了设计改造。使用户管理的工作量减小。网站互动数据可导出Word文档，邮件同步发送功能可将互动信息推送到指定邮箱，加快企业

下载

name_stacked = name_df.stack()
print("\n堆叠后的 Name Series:\n", name_stacked)

筛选 Position 列：

类似地，筛选出所有 Position 列。

position_df = df.filter(like='Position')
print("\n筛选后的 Position DataFrame:\n", position_df)

堆叠 Position 列并创建条件：

将 Position 列堆叠成一个 Series，并创建一个布尔条件，判断 Position 值是否不等于 -1。

position_stacked = position_df.stack()
condition = position_stacked.ne(-1).values
print("\n堆叠后的 Position Series:\n", position_stacked)
print("\n条件 (Position != -1):\n", condition)

应用条件并清理数据：

使用 where 函数将不满足条件的 Name 值替换为 NaN，然后使用 dropna 函数删除 NaN 值。

filtered_name = name_stacked.where(condition).dropna()
print("\n应用条件并删除 NaN 后的 Name Series:\n", filtered_name)

转换为 DataFrame：

最后，将 Series 转换成 DataFrame，并进行转置，得到最终的结果。

new_df = filtered_name.droplevel(0).sort_index().to_frame().T
print("\n最终 DataFrame (Table B):\n", new_df)

完整代码

import pandas as pd
import numpy as np

data = {'Position A': [-1, 3, -1, -1],
        'Name A': ['tortise', 'sprite', 'nope', 'nope'],
        'Position B': [-1, 2, -1, -1],
        'Name B': ['monkey', 'coffee', 'nope', 'nope'],
        'Position C': [2, -1, -1, -1],
        'Name C': ['coca cola', 'bird', 'fish', 'nope'],
        'Position D': [-1, -1, 5, -1],
        'Name D': ['slug', 'monkey', 'root beer', 'nope'],
        'Position E': [-1, -1, 1, -1],
        'Name E': ['rooster', 'ostrich', 'tea', 'nope']}
df = pd.DataFrame(data)

new_df = (df.filter(like='Name').stack()
          .where(df.filter(like='Position').stack().ne(-1).values)
          .dropna().droplevel(0).sort_index().to_frame().T
)

print(new_df)

注意事项

确保 Position 和 Name 列的对应关系正确，这是数据处理的基础。
droplevel(0) 用于删除堆叠后 Series 的第一层索引，使结果更清晰。
sort_index() 用于对列名进行排序，保证结果的顺序性。
如果数据量很大，可以考虑使用更高效的数据处理方法，例如使用 NumPy 数组进行操作。

总结

本文介绍了一种使用 Pandas 将多列多行数据合并到单行的方法，通过 stack、where、dropna 等函数的组合应用，可以高效地实现数据转换。这种方法在数据分析和处理中非常实用，可以帮助我们从复杂的数据中提取关键信息，并进行进一步的分析和建模。掌握这种技巧，可以提高数据处理的效率和准确性。

Python中enum枚举类型 Python3中enum模块创建枚举类详解

Python中如何定义枚举类？

如何在 iMX 系列处理器上轻松安装和使用 Node-RED？

介绍 acolor：打印 ANSI 颜色代码的小实用程序

元组之谜：解锁 Python 中的隐藏功能

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

434

2023.07.18

堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

600

2023.08.10

CSS position定位有几种方式

有4种，分别是静态定位、相对定位、绝对定位和固定定位。更多关于CSS position定位有几种方式的内容，可以访问下面的文章。

2023.11.23

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

热门下载

网站特效

网站源码

网站素材

前端模板