pivot_table的values必须是数值型列名(如"order_id"),不可填聚合逻辑字符串(如"count");index和columns顺序调换会改变分组语义;fill_value=0应在调用时指定,而非事后fillna。

values 参数填错就全乱了
pivot_table 的 values 必须是数值型列名(或列表),不能是字符串聚合逻辑本身。常见错误是写成 values="count" 或 values="size"——这会直接报 KeyError,因为 values 只管“拿哪一列来算”,聚合方式由 aggfunc 控制。
- 如果想统计频次,
values填一个实际存在的列(比如"user_id"),再配aggfunc="count" - 如果该列含空值,
"count"会自动忽略NaN;想包含空值计数,得用aggfunc=lambda x: len(x) - 多列汇总时,
values可传列表,如["sales", "profit"],但aggfunc要对应匹配(字典或统一函数)
pd.pivot_table(df, values="order_id", index="region", columns="product_type", aggfunc="count")
index 和 columns 顺序调换影响结果形状
index 决定行标签,columns 决定列标签,二者互换后透视表行列翻转,但语义完全不同。比如按 index="date"、columns="category" 得到的是“每天各品类销量”,反过来就是“每类商品在各天的销量”——看着像转置,实则分组逻辑已变。
- 若
index或columns中有重复组合,pivot_table默认会聚合(不报错),而pivot会直接抛ValueError: Index contains duplicate entries - 想保留原始行结构不聚合?别用
pivot_table,改用set_index().unstack()配合fill_value
缺失值默认填 NaN,但业务上常要填 0
透视后空白单元格默认是 NaN,不是 0。这对后续计算(比如求和、均值)通常没问题,但若要导出报表、做前端展示,或者参与 fillna(0) 以外的逻辑(如标记“未发生交易”),就得提前处理。
- 最稳妥是在调用时加
fill_value=0参数,而不是事后df.fillna(0)——后者可能误填其他原本就该是NaN的字段 -
fill_value不影响聚合过程,只作用于最终透视网格中的空位 - 如果某
(index, columns)组合在源数据中根本不存在,fill_value才生效;如果存在但对应values全为NaN,且aggfunc返回NaN(如"mean"对全空组),fill_value同样生效
aggfunc 传字符串 vs 函数,性能和灵活性差很多
用字符串如 "sum"、"mean" 是快捷写法,底层走的是优化路径,速度明显快于传自定义函数。但一旦需要组合逻辑(比如“非空计数”或“去重计数”),就必须传函数。
-
aggfunc=pd.Series.nunique计算每组去重数,比lambda x: x.nunique()略快,推荐优先用方法引用 - 多个聚合需求?传字典:
aggfunc={"sales": "sum", "order_id": pd.Series.nunique} - 注意:传函数时,它接收的是每个分组的
Series,不是整个列,所以不要在里面写df["x"].sum()这种全局引用
交叉汇总真正卡住人的地方,往往不是语法,而是没想清“我要按什么切片、对什么度量、空档怎么定义”。values 填哪列、index/columns 谁主谁次、fill_value 何时起效——这三个点漏掉任何一个,结果都可能和预期差一层意思。










