
本文介绍如何对含非数值首列(如国家名)的 dataframe,按行计算其余数值列均值,并用该均值原地填充该行中的 nan 值,避免类型冲突与轴向计算失败。
本文介绍如何对含非数值首列(如国家名)的 dataframe,按行计算其余数值列均值,并用该均值原地填充该行中的 nan 值,避免类型冲突与轴向计算失败。
在实际数据处理中,常遇到类似如下结构的表格:首列为标识性字符串(如国家、ID、类别名称),后续列为数值型年份指标(如 1990、1995…2015),但部分数值单元格为 NaN。此时若直接调用 df.fillna(df.mean(axis=1)) 会报错——因为 mean(axis=1) 无法跨类型(字符串+数值)计算;而 df.drop('Country', axis=1).mean(axis=1) 虽可得行均值,但 fillna() 不支持直接传入 Series 进行按行广播填充,导致常见写法失效。
正确解法是:逐行处理(axis=1)+ 在每行内局部排除非数值列 + 对剩余数值子序列求均值并填充。核心在于利用 apply 沿行方向执行自定义逻辑,且在 lambda 中通过切片(如 x[2:])精准定位待参与计算与填充的数值列。
以下为完整、健壮的实现方案:
import pandas as pd
import numpy as np
# 示例数据构造(模拟原始问题)
df = pd.DataFrame({
'Index': [0, 1, 2],
'Country': ['US', 'Germany', 'Japan'],
'1990': [5, 5, 9],
'1995': [6, np.nan, np.nan],
'2000': [np.nan, 3, 11],
'2005': [9, 7, np.nan],
'2010': [19, 19, np.nan],
'2015': [11, 9, np.nan]
})
print("原始数据:")
print(df)输出:
Index Country 1990 1995 2000 2005 2010 2015 0 0 US 5.0 6.0 NaN 9.0 19.0 11.0 1 1 Germany 5.0 NaN 3.0 7.0 19.0 9.0 2 2 Japan 9.0 NaN 11.0 NaN NaN NaN
✅ 推荐解决方案(清晰、通用、可扩展):
# 方法一:显式指定数值列范围(最推荐,语义明确)
numeric_cols = ['1990', '1995', '2000', '2005', '2010', '2015']
df[numeric_cols] = df.apply(
lambda row: row[numeric_cols].fillna(row[numeric_cols].mean()),
axis=1
)[numeric_cols]
print("\n填充后数据:")
print(df)? 关键说明:
- df.apply(..., axis=1) 将每行转为 pd.Series 传入 lambda;
- row[numeric_cols] 提取当前行的数值子序列(自动忽略 'Country' 等非数值列);
- row[numeric_cols].mean() 计算该行有效数值的均值(自动跳过 NaN);
- row[numeric_cols].fillna(...) 在该行数值子序列内完成 NaN 填充;
- 最终仅将结果赋值回原 numeric_cols 列,确保 'Country' 等字符串列完全不变。
✅ 替代方案(适用于列名规律场景,如前两列固定为索引/标签):
# 方法二:按位置切片(如第2列起为数值列) # 注意:x[2:] 表示从索引2开始的所有元素(即跳过 Index 和 Country) df.iloc[:, 2:] = df.apply(lambda x: x[2:].fillna(x[2:].mean()), axis=1).iloc[:, 2:]
⚠️ 重要注意事项:
-
数据类型兼容性:fillna() 后,整数列若含 NaN 会被自动转为 float64(Pandas 限制)。如需保持整数类型,可在填充后使用 astype('Int64')(支持空值的 nullable integer 类型):
df[numeric_cols] = df[numeric_cols].astype('Int64') - 空行处理:若某行所有数值列全为 NaN,mean() 将返回 NaN,导致该行无变化——这是合理行为,建议提前检查:df[numeric_cols].isna().all(axis=1);
- 性能提示:对超大表(>10万行),apply(axis=1) 非向量化操作,速度较慢。此时可考虑 numpy 手动循环或 numba 加速,但绝大多数分析场景无需优化。
总结:解决“首列为字符串时按行均值填充 NaN”的本质,是隔离数值域、行内独立计算、精准赋值。避免滥用全局 fillna 或错误的 axis 组合,始终以列名为锚点(而非位置)进行子集选取,既提升代码可读性,也增强对列顺序变更的鲁棒性。










