Pandas中怎样实现多条件数据筛选？高级查询方法

星夢妙者

发布时间：2025-07-22 11:28:01

481人浏览过

来源于php中文网

原创

在pandas中实现多条件数据筛选的核心方法是使用布尔索引结合位运算符。1. 使用括号包裹每个独立条件表达式，以避免运算符优先级问题；2. 使用&表示“与”、|表示“或”、~表示“非”，进行逐元素逻辑运算；3. 高级方法包括isin()筛选值列表、between()筛选范围、字符串方法匹配模式、isnull()/notnull()处理缺失值、query()实现类sql语法查询；4. 复杂条件可通过定义布尔series变量、封装筛选函数、链式操作提升可读性和维护性。这些方法共同构建高效、清晰的数据筛选逻辑。

Pandas中怎样实现多条件数据筛选？高级查询方法

在Pandas中实现多条件数据筛选，核心在于利用布尔索引（Boolean Indexing）结合逻辑运算符。这就像给数据戴上一个“筛子”，只有满足所有或部分特定条件的数据点才能透过。最直接、也是最常用的方法，就是把每个条件写成一个布尔序列，然后用&（与）、|（或）、~（非）这些位运算符将它们组合起来。

在Pandas中进行多条件数据筛选，其实就是构建一个复杂的布尔掩码。我们通常会把每一个筛选条件写成一个独立的布尔Series，然后用括号将它们包裹起来，再通过&（逻辑与）、|（逻辑或）、~（逻辑非）这些位运算符进行组合。

例如，假设我们有一个DataFrame df，想要筛选出'年龄'大于30且'城市'是'北京'的记录，代码会是这样：

import pandas as pd

# 示例数据
data = {
    '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
    '年龄': [25, 32, 30, 35, 28],
    '城市': ['上海', '北京', '广州', '北京', '上海'],
    '收入': [5000, 8000, 6000, 9000, 7000]
}
df = pd.DataFrame(data)

# 多条件筛选：年龄大于30 且 城市是北京
filtered_df = df[(df['年龄'] > 30) & (df['城市'] == '北京')]
print("筛选结果：")
print(filtered_df)

# 如果是“或”的关系，比如年龄大于30 或 城市是上海
# filtered_df_or = df[(df['年龄'] > 30) | (df['城市'] == '上海')]
# print("\n年龄大于30 或 城市是上海：")
# print(filtered_df_or)

# 组合多个条件，比如年龄大于30 且 城市是北京 且 收入大于8500
# filtered_df_complex = df[(df['年龄'] > 30) & (df['城市'] == '北京') & (df['收入'] > 8500)]
# print("\n年龄大于30 且 城市是北京 且 收入大于8500：")
# print(filtered_df_complex)

这里的关键点在于：

括号：每个独立的条件表达式必须用括号括起来，这是因为&和|的运算符优先级高于比较运算符（如>、==）。不加括号会导致语法错误或非预期的结果。
位运算符：使用&表示“与”（AND），|表示“或”（OR），~表示“非”（NOT）。它们是针对Series中的每个元素进行逻辑运算的，与Python原生的and、or（用于布尔值的短路评估）不同。

为什么直接使用and或or会报错？理解Pandas布尔索引的底层逻辑

这是一个新手常遇到的坑。当我们尝试写df[df['年龄'] > 30 and df['城市'] == '北京']时，Python会抛出一个ValueError: The truth value of a Series is ambiguous.之类的错误。这并不是Pandas的bug，而是对Python语言特性和Pandas内部机制理解不够深入造成的。

Python原生的and和or操作符，是设计来处理单个布尔值（True或False）的。它们会尝试将操作数转换为布尔值，并进行短路评估。例如，True and False会返回False。但当你的操作数是Pandas的Series时，问题就来了。一个Series，比如df['年龄'] > 30，它返回的不是一个单一的True或False，而是一个由多个True/False组成的Series（一个布尔向量）。Python不知道该如何把整个Series“浓缩”成一个单一的布尔值来执行and或or。是所有都为True才算True？还是只要有一个True就算True？这种“模糊性”就是报错的原因。

Pandas为了解决这个问题，提供了&、|、~这些位运算符。它们被重载（overload）了，可以对Series进行“逐元素”的布尔运算。当df['年龄'] > 30返回[False, True, False, True, False]，而df['城市'] == '北京'返回[False, True, False, True, False]时，&会逐个元素进行逻辑与运算： False & False -> FalseTrue & True -> TrueFalse & False -> FalseTrue & True -> TrueFalse & False -> False 最终得到一个全新的布尔Series [False, True, False, True, False]，这个布尔Series就是我们用来筛选DataFrame的“掩码”。只有掩码中对应位置为True的行才会被保留下来。这就是Pandas布尔索引的底层逻辑：用一个与DataFrame行数相同、包含布尔值的Series作为索引，来选择对应的行。

除了基础的与或非，还有哪些高级筛选技巧？提升数据查询效率

除了直接使用&、|、~，Pandas还提供了一些更高级、有时更便捷或更高效的筛选方法，尤其在处理特定类型的数据时：

isin()方法：当你需要筛选某个列的值是否在给定的一组值中时，isin()非常有用。
```
# 筛选城市是'北京'或'上海'的记录
filtered_cities_df = df[df['城市'].isin(['北京', '上海'])]
print("\n城市是北京或上海的记录：")
print(filtered_cities_df)
```
这比写df[(df['城市'] == '北京') | (df['城市'] == '上海')]要简洁得多，尤其当值列表很长时。

between()方法：用于数值列的范围筛选，它包含起始和结束值。

# 筛选年龄在28到32之间的记录（包含28和32）
filtered_age_range_df = df[df['年龄'].between(28, 32)]
print("\n年龄在28到32之间的记录：")
print(filtered_age_range_df)

这比df[(df['年龄'] >= 28) & (df['年龄'] <= 32)]更清晰。

字符串方法 (str.contains(), str.startswith(), str.endswith(), str.match())：对于字符串列的模式匹配筛选。

MusicAI

AI音乐生成工具

下载

# 筛选姓名中包含'三'的记录
filtered_name_contains_df = df[df['姓名'].str.contains('三')]
print("\n姓名中包含'三'的记录：")
print(filtered_name_contains_df)

# 筛选城市以'上'开头的记录
# filtered_city_start_df = df[df['城市'].str.startswith('上')]
# print("\n城市以'上'开头的记录：")
# print(filtered_city_start_df)

这些方法在处理文本数据时非常强大，str.contains()甚至支持正则表达式。

isnull() / notnull()：用于筛选或排除缺失值（NaN）。

# 假设我们让一个收入变成NaN
df_with_nan = df.copy()
df_with_nan.loc[0, '收入'] = None # 或者 pd.NA, np.nan

# 筛选收入不为空的记录
filtered_not_null_income = df_with_nan[df_with_nan['收入'].notnull()]
print("\n收入不为空的记录：")
print(filtered_not_null_income)

query()方法：对于更复杂的、基于字符串的查询，query()提供了一种SQL-like的语法，可读性更高。

# 使用query方法筛选：年龄大于30 且 城市是北京
filtered_query_df = df.query("年龄 > 30 and 城市 == '北京'")
print("\n使用query方法筛选：")
print(filtered_query_df)

# query也支持变量，前面加@符号
# min_age = 30
# target_city = '北京'
# filtered_query_with_var = df.query("年龄 > @min_age and 城市 == @target_city")
# print("\n使用query方法带变量筛选：")
# print(filtered_query_with_var)

query()在某些情况下（尤其是大型数据集）可能在性能上有所优化，因为它内部可能会利用NumExpr库进行评估。它的主要优势在于可读性和将条件作为字符串传递的灵活性。

如何处理复杂的多条件组合，避免代码混乱？构建可维护的筛选逻辑

当筛选条件变得越来越复杂时，一行很长的布尔表达式会变得难以阅读和维护。这时，我们需要一些策略来保持代码的清晰和健壮。

将每个条件定义为独立的布尔Series变量：这是最直接也最有效的方法。把每个独立的条件表达式赋值给一个有意义的变量名，然后像拼积木一样组合它们。
```
# 定义各个条件
is_adult = df['年龄'] > 30
is_from_beijing = df['城市'] == '北京'
has_high_income = df['收入'] >= 8000

# 组合条件
complex_filtered_df = df[is_adult & is_from_beijing & has_high_income]
print("\n通过变量组合的复杂筛选：")
print(complex_filtered_df)
```
这种方式极大地提升了可读性，每个变量名本身就解释了它代表的筛选逻辑。当需要修改某个条件时，也只需修改对应的变量定义，而无需在长表达式中查找。

使用函数封装重复的筛选逻辑：如果你的应用程序中有很多地方需要执行相似但参数不同的筛选，可以考虑将其封装成一个函数。

def filter_by_criteria(dataframe, min_age=None, city=None, min_income=None):
    conditions = []
    if min_age is not None:
        conditions.append(dataframe['年龄'] > min_age)
    if city is not None:
        conditions.append(dataframe['城市'] == city)
    if min_income is not None:
        conditions.append(dataframe['收入'] >= min_income)

    if not conditions:
        return dataframe # 没有条件，返回原DataFrame

    # 使用reduce和&来组合所有条件，或者手动循环
    # from functools import reduce
    # combined_condition = reduce(lambda x, y: x & y, conditions)

    # 简单循环组合
    combined_condition = conditions[0]
    for i in range(1, len(conditions)):
        combined_condition = combined_condition & conditions[i]

    return dataframe[combined_condition]

# 使用函数进行筛选
result1 = filter_by_criteria(df, min_age=30, city='北京')
print("\n通过函数筛选 (年龄>30, 城市=北京)：")
print(result1)

result2 = filter_by_criteria(df, min_income=7500)
print("\n通过函数筛选 (收入>=7500)：")
print(result2)

这种函数化的方式，使得筛选逻辑更具通用性和复用性，特别适合构建数据查询API或模块。

链式操作与pipe()：对于一系列连续的数据处理步骤，包括筛选，可以考虑使用方法链。pipe()方法在需要将DataFrame传递给一个函数时特别有用，它允许你保持链式操作的流畅性。虽然它本身不直接用于多条件筛选，但可以用于组织包含筛选步骤的复杂数据流。

# 结合pipe()，虽然这里例子不复杂，但展示其潜力
# 假设我们有一个更复杂的流程：筛选 -> 计算新列 -> 再次筛选
def add_tax(df_in):
    df_in['税后收入'] = df_in['收入'] * 0.9
    return df_in

final_df = (df
            .pipe(add_tax) # 先计算税后收入
            .query("年龄 > 30 and 税后收入 >= 7000")) # 再基于新列筛选
print("\n使用pipe和query的链式操作：")
print(final_df)

这鼓励一种声明式的编程风格，让数据转换的步骤一目了然。

总的来说，处理Pandas中的多条件筛选，从基础的布尔索引到高级的query()和函数封装，选择哪种方式取决于条件的复杂性、代码的可读性需求以及项目的维护策略。清晰的命名和模块化的思考，永远是写出高质量数据处理代码的关键。

Python中使用try语句写入文件时内容未保存的解决方案

Python 中使用 try 语句写入文件失败的常见原因及最佳实践

Python 中基于时间戳保留每篇文章最新操作记录的去重方法

Python 中按时间戳保留每篇文章最新操作记录的去重方法

Python 用户输入空格处理与健壮性错误控制完整指南