Pandas DataFrame高效筛选：按列条件提取关联患者列表

DDD

发布时间：2025-11-21 14:34:02

546人浏览过

来源于php中文网

原创

Pandas DataFrame高效筛选：按列条件提取关联患者列表

本文将深入探讨如何在pandas dataframe中高效地执行向量化操作，特别关注如何根据列的特定条件筛选数据，并提取与之关联的非表格化信息，例如患者id列表。我们将通过实例演示如何结合向量化过滤和列表推导式，以优化性能并获取结构清晰的结果。

Pandas中的向量化操作简介

Pandas作为Python数据分析的核心库，其强大的向量化能力是实现高性能数据处理的关键。向量化操作允许我们对整个Series或DataFrame进行元素级别的操作，而无需编写显式的Python循环，从而显著提高执行效率。

我们首先创建一个示例DataFrame来演示：

import pandas as pd

columns = ['S1', 'S2', 'S3', 'S4', 'S5']

df = pd.DataFrame({'Patient':['p1', 'p2', 'p3', 'p4', 'p5', 'p6', 'p7', 'p8', 'p9', 'p10'],
                   'S1':[0.7, 0.3, 0.5, 0.8, 0.9, 0.1, 0.9, 0.2, 0.6, 0.3],
                   'S2':[0.2, 0.3, 0.5, 0.4, 0.9, 0.1, 0.9, 0.7, 0.4, 0.3],
                   'S3':[0.6, 0.3, 0.5, 0.8, 0.9, 0.8, 0.9, 0.3, 0.6, 0.3],
                   'S4':[0.2, 0.3, 0.7, 0.8, 0.9, 0.1, 0.9, 0.7, 0.3, 0.3 ],
                   'S5':[0.9, 0.8, 0.5, 0.8, 0.9, 0.7, 0.2, 0.7, 0.6, 0.3 ]})

print("原始DataFrame:")
print(df)

基于此DataFrame，我们可以轻松执行一些基本的向量化聚合操作。例如，计算每列中值大于或等于0.5的单元格数量，以及这些单元格的总和：

# 获取每列中值 >= 0.5 的单元格数量
arr1 = df[columns].ge(0.5).sum().to_numpy()
print("\n每列中值 >= 0.5 的单元格数量:")
print(arr1)

# 获取每列中值 >= 0.5 的单元格总和
# 注意：这里先筛选出符合条件的单元格，不符合的会变为NaN，然后对NaN求和会忽略NaN
arr2 = df[df[columns]>=0.5][columns].sum().to_numpy()
print("\n每列中值 >= 0.5 的单元格总和:")
print(arr2)

按列条件筛选并提取关联数据

上述示例展示了对DataFrame进行聚合计算的向量化方法。然而，在某些场景下，我们可能需要根据每列的特定条件，提取与这些条件关联的“行标识符”（例如本例中的Patient ID），并以列表的形式呈现，而不是进行聚合。

例如，我们希望得到一个列表，其中每个元素都是一个子列表，包含特定列中值大于或等于0.5的所有Patient ID。期望的输出格式如下：

ModelGate

一站式AI模型管理与调用工具

下载

[['p1', 'p3', 'p4', 'p5', 'p7', 'p9'],
 ['p3', 'p5', 'p7', 'p8'],
 ['p1', 'p3', 'p4', 'p5', 'p6', 'p7', 'p9'],
 (...),
 (...)]

为了实现这种非表格化的结果，我们可以结合使用列表推导式（List Comprehension）和Pandas的布尔索引。对于每一列，我们首先生成一个布尔Series，然后用它来筛选Patient列，最后将结果转换为列表。

解决方案

# 使用列表推导式按列筛选并提取患者ID
patient_lists_by_column = [df.Patient[df[col] >= 0.5].to_list() for col in columns]

print("\n按列条件筛选的患者ID列表:")
print(patient_lists_by_column)

代码解析：

for col in columns: 这是一个列表推导式的外部循环，它会遍历columns列表中定义的每一列（'S1', 'S2', ... 'S5'）。
df[col] >= 0.5: 在每次循环中，这会为当前列col生成一个布尔Series。Series中的每个元素都是True或False，表示对应行在该列的值是否大于或等于0.5。
df.Patient[...]: 这是Pandas的布尔索引机制。我们将上一步生成的布尔Series作为索引传递给df.Patient。Pandas会选择df.Patient Series中对应布尔值为True的所有元素，即符合条件的患者ID。
.to_list(): 最后，将筛选出的Patient Series转换为一个标准的Python列表。

通过这种方式，我们避免了显式的嵌套循环，利用了Pandas底层的优化，使得代码既简洁又高效。

注意事项与性能考量

非表格化输出: 这种方法特别适用于需要生成非表格化（例如列表的列表、字典等）结果的场景。如果目标是生成一个新的DataFrame，可能需要考虑不同的apply或groupby策略。
列表推导式与循环: 尽管列表推导式在语法上包含循环，但它通常比传统的for循环更高效，因为它在C语言级别进行优化。在本例中，列表推导式内部的df.Patient[df[col] >= 0.5]操作是高度向量化的。
内存使用: 当DataFrame非常大时，生成大量的中间布尔Series可能会占用一定内存。但对于大多数常见数据集，这种方法是高效且内存友好的。
灵活性: 这种模式非常灵活，可以轻松修改筛选条件（例如df[col] < 0.3）或提取其他关联列（例如df['Another_Column'][df[col] >= 0.5]）。

总结

在Pandas DataFrame中，高效地根据列条件筛选数据并提取关联信息是常见需求。本文演示了如何巧妙地结合Pandas的向量化布尔索引与Python的列表推导式，以简洁、高效的方式实现这一目标。这种方法不仅能够处理聚合计算，还能灵活地生成结构化的非表格化结果，如本例中的患者ID列表，极大地提升了数据处理的效率和代码的可读性。掌握这种模式，将有助于您在数据分析工作中更游刃有余。

如何在Python中正确加载并显示Kaggle图像数据集中的图片

SHA1 实现与标准库结果不一致的常见原因及修复方案

如何在Python中正确加载并显示Kaggle数据集中的图像

Python 的 copyreg 模块完全适用于自定义类的序列化定制

Python 的 copyreg 模块完全适用于用户自定义类的序列化定制

相关专题

C语言变量命名

c语言变量名规则是：1、变量名以英文字母开头；2、变量名中的字母是区分大小写的；3、变量名不能是关键字；4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容，供大家免费下载使用。

410

2023.06.20

c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识，应用十分广泛，本专题为大家c语言入门自学零基础的相关文章，以及相关课程，感兴趣的朋友千万不要错过了。

638

2023.07.25

c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

362

2023.08.02

c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念，用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等，而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

263

2023.08.09

c语言random函数用法

c语言random函数用法：1、random.random，随机生成（0,1）之间的浮点数；2、random.randint，随机生成在范围之内的整数，两个参数分别表示上限和下限；3、random.randrange，在指定范围内，按指定基数递增的集合中获得一个随机数；4、random.choice，从序列中随机抽选一个数；5、random.shuffle，随机排序。

631

2023.09.05

c语言const用法

const是关键字，可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍：1、声明常量，const关键字可用于声明常量，常量的值在程序运行期间不可修改，常量可以是基本数据类型，如整数、浮点数、字符等，也可是自定义的数据类型；2、函数参数中的const修饰符，const关键字可用于函数的参数中，表示该参数在函数内部不可修改等等。

564

2023.09.20