利用Pandas高效提取DataFrame中符合条件的关联数据

碧海醫心

发布时间：2025-11-20 13:34:02

762人浏览过

来源于php中文网

原创

利用pandas高效提取dataframe中符合条件的关联数据

本文将深入探讨如何在Pandas DataFrame中高效地执行向量化操作，特别是针对多列数据，根据特定条件筛选并提取关联数据（如患者ID）。通过结合布尔索引和列表推导式，我们将展示如何避免低效的循环，实现高性能的数据处理，从而轻松获取按列分组的条件性数据列表。

Pandas作为Python中强大的数据处理库，其核心优势之一在于提供了丰富的向量化操作，能够显著提升数据处理效率。在实际数据分析场景中，我们经常需要根据DataFrame中某一列或多列的条件，来筛选并提取与之关联的其他列数据。本教程将以一个具体的案例为例，详细介绍如何利用Pandas的向量化能力，高效地实现这一目标。

数据准备与基础向量化操作

首先，我们创建一个示例DataFrame，其中包含患者ID和多个测量值（S1至S5）。

import pandas as pd

columns = ['S1', 'S2', 'S3', 'S4', 'S5']

df = pd.DataFrame({'Patient':['p1', 'p2', 'p3', 'p4', 'p5', 'p6', 'p7', 'p8', 'p9', 'p10'],
                   'S1':[0.7, 0.3, 0.5, 0.8, 0.9, 0.1, 0.9, 0.2, 0.6, 0.3],
                   'S2':[0.2, 0.3, 0.5, 0.4, 0.9, 0.1, 0.9, 0.7, 0.4, 0.3],
                   'S3':[0.6, 0.3, 0.5, 0.8, 0.9, 0.8, 0.9, 0.3, 0.6, 0.3],
                   'S4':[0.2, 0.3, 0.7, 0.8, 0.9, 0.1, 0.9, 0.7, 0.3, 0.3 ],
                   'S5':[0.9, 0.8, 0.5, 0.8, 0.9, 0.7, 0.2, 0.7, 0.6, 0.3 ]})

print("原始DataFrame:")
print(df)

在处理这类数据时，一些基础的向量化操作非常常见。例如，我们可以轻松地统计每列中满足特定条件的单元格数量，或者计算满足条件的单元格之和。

统计每列中值大于等于0.5的单元格数量：
```
arr1 = df[columns].ge(0.5).sum().to_numpy()
print("\n每列中值>=0.5的单元格数量：", arr1)
# 输出示例: 每列中值>=0.5的单元格数量： [7 4 7 5 7]
```
这里，df[columns].ge(0.5) 会生成一个布尔型的DataFrame，表示每个单元格是否大于等于0.5。接着，.sum() 会对每列的布尔值进行求和（True被视为1，False被视为0），从而得到满足条件的数量。
计算每列中值大于等于0.5的单元格之和：

百度GBI
百度GBI-你的大模型商业分析助手

下载
```
# 注意：为了避免NaN影响求和，此方法会先筛选出符合条件的值再求和
arr2 = df[df[columns] >= 0.5][columns].sum().to_numpy()
print("每列中值>=0.5的单元格之和：", arr2)
# 输出示例: 每列中值>=0.5的单元格之和： [4.9 3.  5.2 4.1 5.3]
```
此操作通过布尔索引 df[df[columns] >= 0.5] 首先筛选出满足条件的单元格，然后对这些单元格进行求和。未满足条件的单元格在求和时会被忽略（通常表现为NaN，但sum()会跳过NaN）。

按列条件提取关联患者列表

现在，我们面临一个更具体的任务：对于每一列（S1到S5），我们希望获取所有值大于等于0.5的患者ID列表。例如，对于S1列，如果p1的S1值是0.7（>=0.5），那么p1就应该出现在S1对应的患者列表中。

为了高效地实现这一目标，我们可以利用Pandas的布尔索引和列表推导式。

patient_lists_by_column = [df.Patient[df[col] >= 0.5].to_list() for col in columns]

print("\n按列条件筛选的患者列表：")
for i, col in enumerate(columns):
    print(f"  {col}: {patient_lists_by_column[i]}")

代码解析：

for col in columns: 这是一个列表推导式，它会遍历我们定义的 columns 列表中的每一个列名（'S1', 'S2', ...）。
df[col] >= 0.5: 在每一次迭代中，这会为当前列 col 生成一个布尔型Series。例如，当 col 是 'S1' 时，它会返回一个Series，指示 df['S1'] 中哪些行的值大于等于0.5。
df.Patient[...]: 这是Pandas中强大的布尔索引功能。我们将上一步生成的布尔型Series作为索引传递给 df.Patient。Pandas会自动筛选出 df.Patient 列中对应布尔值为 True 的行。
.to_list(): 最后，将筛选出的 Patient Series 转换为一个标准的Python列表。

输出示例：

按列条件筛选的患者列表：
  S1: ['p1', 'p3', 'p4', 'p5', 'p7', 'p9']
  S2: ['p3', 'p5', 'p7', 'p8']
  S3: ['p1', 'p3', 'p4', 'p5', 'p6', 'p7', 'p9']
  S4: ['p3', 'p4', 'p5', 'p7', 'p8']
  S5: ['p1', 'p2', 'p3', 'p4', 'p5', 'p6', 'p8', 'p9']

注意事项与最佳实践

性能优势： 这种结合布尔索引和列表推导式的方法，相比于使用显式 for 循环逐行检查和追加数据，具有显著的性能优势。Pandas的底层实现是C语言编写的，向量化操作能够充分利用CPU的并行计算能力，特别是在处理大规模数据集时，性能提升更为明显。
代码可读性： 这种写法简洁明了，易于理解，符合Pythonic的编程风格。它清晰地表达了“对每一列应用条件并提取患者”的意图。
灵活性： 布尔索引非常灵活，你可以组合多个条件（例如 (df[col] >= 0.5) & (df[col]
输出格式： 如果需要获取唯一的患者ID，可以在 .to_list() 之前或之后使用 set()，例如 [list(set(df.Patient[df[col] >= 0.5])) for col in columns]。如果需要将结果存储为字典，可以将列表推导式的结果与列名结合，例如 dict(zip(columns, patient_lists_by_column))。

总结

本教程展示了如何利用Pandas的向量化能力，特别是布尔索引和列表推导式，来高效地从DataFrame中根据列条件提取关联数据。掌握这些技术不仅能提高代码的执行效率，还能使数据处理逻辑更加清晰和简洁。在处理大规模数据集时，优先考虑使用Pandas提供的向量化操作是实现高性能数据分析的关键。通过灵活运用这些工具，您可以更高效、更优雅地解决各种复杂的数据筛选和提取问题。

Python虚拟环境问题排查_依赖隔离实践

Python 中 f-string 内嵌字典索引的语法陷阱与正确写法

如何正确从 MinIO（S3 兼容对象存储）读取 Zarr 数据集

Python单元测试怎么写_unittest与pytest对比

Python学习路线规划_Python进阶学习指南

相关专题

C语言变量命名

c语言变量名规则是：1、变量名以英文字母开头；2、变量名中的字母是区分大小写的；3、变量名不能是关键字；4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容，供大家免费下载使用。

408

2023.06.20

c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识，应用十分广泛，本专题为大家c语言入门自学零基础的相关文章，以及相关课程，感兴趣的朋友千万不要错过了。

635

2023.07.25

c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

362

2023.08.02

c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念，用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等，而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

263

2023.08.09

c语言random函数用法

c语言random函数用法：1、random.random，随机生成（0,1）之间的浮点数；2、random.randint，随机生成在范围之内的整数，两个参数分别表示上限和下限；3、random.randrange，在指定范围内，按指定基数递增的集合中获得一个随机数；4、random.choice，从序列中随机抽选一个数；5、random.shuffle，随机排序。

628

2023.09.05

c语言const用法

const是关键字，可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍：1、声明常量，const关键字可用于声明常量，常量的值在程序运行期间不可修改，常量可以是基本数据类型，如整数、浮点数、字符等，也可是自定义的数据类型；2、函数参数中的const修饰符，const关键字可用于函数的参数中，表示该参数在函数内部不可修改等等。

558

2023.09.20

c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符，并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数。

668

2023.09.20

c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍：1、直接赋值法，这种方法可以直接将数组的值进行初始化；2、不完全初始化法，。这种方法可以在一定程度上节省内存空间；3、省略数组长度法，这种方法可以让编译器自动计算数组的长度；4、二维数组初始化法等等。

616

2023.09.22

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板