itertools.islice高效跳过文件前N行的关键是作用于逐行读取的文件迭代器,而非全量加载;正确用法为islice(open('f'), N, None),内存仅占单行大小。

itertools.islice 本身不读文件,它只是对**已有迭代器**做切片;真正高效跳过前 N 行的关键,在于让它作用于一个**逐行读取的文件对象**,而非一次性加载全文——这样内存只占用单行大小,与文件总大小无关。
核心用法:配合 open() 返回的迭代器
Python 的文件对象本身就是迭代器,调用 open(...) 后直接传给 islice,无需 readlines() 或 list():
- ✅ 正确(低内存):
islice(open('big.log'), N, None) - ❌ 错误(高内存):
islice(open('big.log').readlines(), N, None)—— 全部加载进内存
跳过后处理剩余行(推荐模式)
用 islice(f, N, None) 跳过前 N 行,返回一个新迭代器,可直接 for 循环或传给其他函数:
- 跳过 100 行,处理后续所有行:
for line in islice(open('data.csv'), 100, None):
process(line) - 跳过表头(第 1 行),读取数据:
data_lines = list(islice(open('file.txt'), 1, None))—— 仅将剩余行转为 list(仍比全读小得多)
注意事项与常见陷阱
- 文件对象不能复用:
islice(f, N, None)消耗了前 N 行,原文件指针已移动,不能再从头读 —— 如需多次使用,应重新open() - 不要在
islice外提前调用next()或for:会干扰切片起始位置 - 若需跳过并保留文件句柄控制权(如后续要
.close()),用上下文管理器更安全:with open('huge.txt') as f:
for line in islice(f, 1000, None):
...
对比:为什么比手动循环 next() 更好?
有人用 for _ in range(N): next(f) 跳过,逻辑等价但略冗余。islice 是内置 C 实现,无 Python 循环开销,对超大 N(如跳 100 万行)有轻微性能优势,且语义更清晰——它明确表达了“取子序列”的意图。










