
`np.select`在pandas中仅返回首个符合条件的选项。当需要聚合并返回一行中所有满足条件的选项时,常规方法无法实现。本文将介绍一种利用pandas dataframe转换和numpy的`dot`操作的技巧,巧妙地将所有真值对应的选择项拼接成一个字符串。这种方法适用于复杂条件判断和多标签分类场景,提供了比`np.select`更灵活的数据处理能力,帮助用户高效地从数据中提取多重匹配信息。
在数据处理中,我们经常需要根据一系列条件为DataFrame的每一行分配一个或多个标签。Pandas库中的np.select函数是一个常用工具,它允许我们根据一个条件列表和对应的选择列表来生成新列。然而,np.select的默认行为是返回第一个满足条件的选项。这意味着如果一行数据同时满足多个条件,np.select只会给出列表中最先匹配的那个结果,而忽略了其他同样为真的条件。
考虑以下示例数据和条件:
import pandas as pd
import numpy as np
df = pd.DataFrame({'cond1':[True, True, False, True],
'cond2':[False, False, True, True],
'cond3':[True, False, False, True],
'value': [1, 3, 3, 6]})
conditions = [df['cond1'] & (df['value']>4),
df['cond2'],
df['cond2'] & (df['value']>2),
df['cond3'] & df['cond2']]
choices = [ '1', '2', '3', '4']
df["class"] = np.select(conditions, choices, default=np.nan)
print("使用 np.select 的结果:")
print(df)输出结果如下:
使用 np.select 的结果: cond1 cond2 cond3 value class 0 True False True 1 nan 1 True False False 3 nan 2 False True False 3 2 3 True True True 6 1
从输出可以看出,对于索引为2的行,cond2和cond2 & (df['value']>2)都为真,但np.select只返回了2。对于索引为3的行,多个条件为真,但np.select只返回了1。我们的目标是希望将所有为真的条件对应的选择项聚合起来,例如输出"2 and 3"或"1 and 2 and 3 and 4"。
为了实现聚合所有真值对应的选择项,我们可以采用一种巧妙的方法:首先将每个条件转换为一个布尔列,然后利用Pandas DataFrame的dot运算进行字符串拼接。
我们沿用上述的数据和条件定义:
import pandas as pd
import numpy as np
df = pd.DataFrame({'cond1':[True, True, False, True],
'cond2':[False, False, True, True],
'cond3':[True, False, False, True],
'value': [1, 3, 3, 6]})
conditions = [df['cond1'] & (df['value']>4), # 条件0
df['cond2'], # 条件1
df['cond2'] & (df['value']>2), # 条件2
df['cond3'] & df['cond2']] # 条件3
choices = [ '1', '2', '3', '4']核心思路是创建一个新的DataFrame,其行索引与原始DataFrame相同,列索引为我们的choices,而值则是每个条件对应的布尔结果。
# 将条件列表转换为一个布尔型DataFrame
# 每一列代表一个选择项,每一行代表原始DataFrame的一行
# 值为True表示该行满足对应的条件
df_conditions_matrix = pd.DataFrame(conditions, columns=df.index, index=choices).T
print("转换后的布尔型 DataFrame (df_conditions_matrix):")
print(df_conditions_matrix)中间结果 df_conditions_matrix 如下:
转换后的布尔型 DataFrame (df_conditions_matrix):
1 2 3 4
0 False False False False
1 False False False False
2 False True True False
3 True True True True这个 df_conditions_matrix DataFrame非常关键:它的每一行对应原始df的一行,而每一列('1', '2', '3', '4')则对应一个选择项。如果某个单元格为True,则表示原始行满足该选择项对应的条件。
接下来,我们将利用 df_conditions_matrix 的 dot 方法,结合选择项字符串,实现条件聚合。dot方法在这里被巧妙地用于字符串拼接,而不是传统的数值矩阵乘法。
# 构建一个包含分隔符的选择项列表
# 例如:['1 and ', '2 and ', '3 and ', '4 and ']
choice_strings = df_conditions_matrix.columns + ' and '
# 使用 dot 运算进行字符串拼接
# 对于 df_conditions_matrix 的每一行,
# 如果某个选择项的布尔值为 True,则将其对应的 choice_strings 拼接起来
df['class'] = df_conditions_matrix.dot(choice_strings)
print("\n经过 dot 运算后的结果 (待清理):")
print(df)此时的 df['class'] 列会是这样的:
经过 dot 运算后的结果 (待清理): cond1 cond2 cond3 value class 0 True False True 1 1 True False False 3 2 False True False 3 2 and 3 and 3 True True True 6 1 and 2 and 3 and 4 and
dot 运算在这里的原理是:当DataFrame(布尔型)与一个字符串Series/Index进行dot操作时,对于DataFrame的每一行,它会遍历其列。如果列的值为True,则将对应Series/Index中的字符串添加到结果中;如果为False,则不添加。最终,所有添加的字符串会被拼接起来。
最后一步是清理多余的末尾分隔符(例如 ' and '),并将其赋值回原始DataFrame。
# 清理末尾多余的 ' and '
df['class'] = df['class'].str.strip(' and ')
# 对于没有任何匹配的行(结果为空字符串),可以将其替换为 np.nan
df['class'] = df['class'].replace('', np.nan)
print("\n最终结果:")
print(df)最终输出结果:
最终结果: cond1 cond2 cond3 value class 0 True False True 1 nan 1 True False False 3 nan 2 False True False 3 2 and 3 3 True True True 6 1 and 2 and 3 and 4
这正是我们期望得到的输出,成功地将所有符合条件的选项聚合到了一个字符串中。
这种方法的巧妙之处在于利用了Pandas DataFrame.dot() 方法在不同数据类型上的灵活行为。
布尔矩阵的构建 (df_conditions_matrix): 我们首先将原始的条件列表(每个条件本身是一个布尔Series)转换为一个布尔型DataFrame。这个DataFrame的行索引与原始数据对齐,列索引是我们的choices。这样,每一行就表示了原始DataFrame中对应行在所有条件上的真假状态。
dot 运算的字符串拼接特性: 当一个布尔型DataFrame(df_conditions_matrix)与一个字符串Series或Index(choice_strings,即df_conditions_matrix.columns + ' and ')进行dot运算时,Pandas并不会执行传统的数值矩阵乘法。相反,它会为DataFrame的每一行执行以下逻辑:
这种行为使得dot运算成为了一种高效的“布尔索引字符串聚合”工具,尤其适用于需要将多标签或多条件结果合并到单个字段的场景。
本文介绍了一种在Pandas中聚合并返回所有符合条件选项的强大技巧,克服了np.select仅返回首个匹配项的局限性。通过将条件转换为布尔型DataFrame,并巧妙利用DataFrame.dot()方法进行字符串拼接,我们能够高效地将一行中所有为真的条件对应的选择项聚合为一个字符串。这种方法不仅提供了更灵活的数据处理能力,也为多标签分类和复杂条件聚合等场景提供了优雅的解决方案。
以上就是Pandas 数据处理:聚合并返回所有符合条件的多选项的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号