
本文介绍如何对 dataframe 中存储为列表(数组)的列,统一截取每行的前 n 个元素,利用 `str` 访问器实现简洁、向量化操作,兼顾可读性与性能。
在 Pandas 中,当某一列的每个单元格包含 Python 列表(如 [1, 2, 3, 4])时,虽然这些不是字符串,但 Pandas 提供了强大的 .str 访问器——它不仅适用于字符串,也自动适配可索引的序列类型(如 list、tuple、numpy.ndarray)。这意味着你可以直接使用切片语法(如 [:n])对每行的列表进行截取,而无需 apply() 配合自定义函数或 map() 循环。
以下是最推荐的解决方案:
import pandas as pd
df = pd.DataFrame({
'a': [[1, 2, 3, 4], [2, 2, 3, 3]],
'b': [[6, 7, 8, 9], [6, 6, 9, 9]]
})
n = 2
result = df.apply(lambda x: x.str[:n])
print(result)输出:
a b 0 [1, 2] [6, 7] 1 [2, 2] [6, 6]
✅ 为什么 x.str[:n] 可行?
Pandas 的 .str 访问器在底层会对每个元素调用 __getitem__ 方法;由于 Python 列表支持切片(list[:n]),该操作被安全委托执行,等价于手动写 x.map(lambda lst: lst[:n]),但更简洁、更符合 Pandas 惯用法。
⚠️ 注意事项:
- 若某行列表长度小于 n(如 [1] 截取前 3 个),切片会自动返回全部元素([1]),不会报错,这是 Python 切片的安全特性;
- 确保列中所有值均为可切片序列(如 list, tuple, np.ndarray),若混入 None 或标量,会触发 AttributeError,建议预先清洗:df = df.dropna(subset=['a', 'b']) 或使用 df.fillna([]);
- 如需对特定列操作(而非全 DataFrame),可精确指定:df[['a', 'b']] = df[['a', 'b']].apply(lambda x: x.str[:n])。
? 进阶技巧:动态 N 值
若每行需不同长度(如由另一列 n_col 指定),可用 zip + map:
df['n_col'] = [2, 1] df['a_trunc'] = list(map(lambda x: x[0][:x[1]], zip(df['a'], df['n_col'])))
总之,善用 .str 访问器是处理序列型列的高效范式——代码简短、语义清晰、性能优异,是 Pandas 高级用户必备技能之一。










