使用 Pandas 统计 List 中首个非空值的数量并添加到新列

心靈之曲

发布时间：2025-08-02 16:04:10

1000人浏览过

来源于php中文网

原创

使用 pandas 统计 list 中首个非空值的数量并添加到新列

本文档介绍了如何使用 Pandas 处理包含字典和列表的数据，并创建一个新列来统计特定列表中首个非空值的数量。我们将通过两种不同的方法，利用列表推导式和 Series 的 explode 方法，来实现这一目标，并提供相应的代码示例和详细解释。

方法一：使用列表推导式

这种方法直接利用 Python 的列表推导式，结合 Pandas 的 notna 函数，来判断列表中的元素是否为非空值。

首先，我们从 DataFrame 的 column_dic 列中提取每个字典，并访问其中的 list_A 列表。然后，提取每个 list_A 列表的第一个元素。最后，使用 pd.notna() 函数检查这些元素是否为非空值，并使用 sum() 函数计算 True 的数量，即非空值的数量。

import pandas as pd

data = [{"list_A": [2.93, 4.18, 4.18, None, 1.57, 1.57, 3.92, 6.27, 2.09, 3.14, 0.42, 2.09],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [2.51, 3.58, 3.58, None, 1.34, 1.34, 3.36, 5.37, 1.79, 2.69, 0.36, 1.79],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [None, 5.94, 5.94, None, 2.23, 2.23, 5.57, 8.9, 2.97, 4.45, 0.59, 2.97],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]}]

# 创建一个 DataFrame，其中包含一个名为 "column_dic" 的列
df = pd.DataFrame({"column_dic": [data]})


df['count_first_item'] = [pd.notna([y['list_A'][0] for y in x]).sum()
                          for x in df['column_dic']]
print (df)

代码解释：

[y['list_A'][0] for y in x]: 这是一个列表推导式，它遍历 df['column_dic'] 中的每个列表 x，然后遍历 x 中的每个字典 y，并提取 y['list_A'][0]，即 list_A 列表的第一个元素。
pd.notna(...): pd.notna() 函数检查列表中的每个元素是否为非空值，并返回一个布尔值列表。
.sum(): sum() 函数计算布尔值列表中 True 的数量，即非空值的数量。
df['count_first_item'] = ...: 将计算结果赋值给 DataFrame 的新列 count_first_item。

方法二：使用 Series.explode() 和 Series.str.get()

这种方法利用 Pandas 的 Series.explode() 函数将列表展开，然后使用 Series.str.get() 函数提取 list_A 列表，并使用索引 [0] 提取第一个元素。最后，使用 DataFrameGroupBy.count() 函数统计非空值的数量。

一键职达

AI全自动批量代投简历软件，自动浏览招聘网站从海量职位中用AI匹配职位并完成投递的全自动操作，真正实现'一键职达'的便捷体验。

下载

import pandas as pd

data = [{"list_A": [2.93, 4.18, 4.18, None, 1.57, 1.57, 3.92, 6.27, 2.09, 3.14, 0.42, 2.09],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [2.51, 3.58, 3.58, None, 1.34, 1.34, 3.36, 5.37, 1.79, 2.69, 0.36, 1.79],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [None, 5.94, 5.94, None, 2.23, 2.23, 5.57, 8.9, 2.97, 4.45, 0.59, 2.97],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]}]

# 创建一个 DataFrame，其中包含一个名为 "column_dic" 的列
df = pd.DataFrame({"column_dic": [data]})

df['count_first_item'] = (df['column_dic'].explode().str.get('list_A').str[0]
                                          .groupby(level=0).count())
print (df)

代码解释：

df['column_dic'].explode(): explode() 函数将 column_dic 列中的列表展开，将每个列表中的元素转换为 DataFrame 中的一行。
.str.get('list_A'): str.get('list_A') 函数提取每个字典中的 list_A 列表。
.str[0]: str[0] 提取 list_A 列表的第一个元素。
.groupby(level=0).count(): groupby(level=0) 函数按照原始 DataFrame 的索引进行分组，然后 count() 函数计算每个组中非空值的数量。

总结

本文介绍了两种使用 Pandas 统计列表中首个非空值的数量并添加到新列的方法。第一种方法使用列表推导式，代码更简洁，但可能在处理大型数据集时效率较低。第二种方法使用 Series.explode() 和 Series.str.get() 函数，代码更复杂，但在处理大型数据集时效率更高。您可以根据自己的实际情况选择合适的方法。

注意事项：

确保你的 Pandas 版本是最新的，以便使用 explode() 函数。
如果你的数据集中包含缺失值，请使用 pd.notna() 函数或 count() 函数来处理这些缺失值。
在处理大型数据集时，请考虑使用矢量化操作来提高代码的效率。

Python 模块拆分与依赖控制技巧

Python 对象 ID 与内存地址的对应关系

Python 可调用对象的类型判断

Python list vs deque 的使用选择

Python 切片操作的复杂度与优化

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

198

2023.11.20

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

2026.01.27