Go读大文件应流式处理:用bufio.Scanner分行读(设Buffer防超长行),或手动Read分块复用缓冲区;重载处理逻辑避免累积引用;并行时限制channel缓冲并复制数据。

用 Go 读取大文件时,直接 os.ReadFile 或 bufio.NewReader(file).ReadString('\n') 全量加载会迅速耗尽内存。核心思路是:**不一次性加载全部内容,而是按需流式读取、分块处理、及时释放**。
使用 bufio.Scanner 分行流式读取(适合文本日志类)
bufio.Scanner 默认缓冲区 64KB,可安全处理超大文本文件(如 GB 级日志),它内部自动分块扫描,不会把整文件塞进内存。
- 设置合理的
MaxScanTokenSize防止单行过长导致 panic(例如日志含超长 base64 字段) - 每扫到一行就立即处理(解析、过滤、写入数据库或新文件),处理完即丢弃该行引用
- 避免在循环中累积切片(如
lines = append(lines, line)),否则仍会内存暴涨
示例:
scanner := bufio.NewScanner(file)scanner.Buffer(make([]byte, 64*1024), 10*1024*1024) // 扩大缓冲区上限防超长行
for scanner.Scan() {
line := scanner.Text() // 注意:line 是当前缓冲区内的拷贝,安全
processLine(line) // 立即处理,不保存
}
if err := scanner.Err(); err != nil { /* 处理错误 */ }
手动控制读取块大小(适合二进制/自定义格式)
当文件不是纯文本,或需要固定字节块(如每 1MB 解析一次协议头),用 io.ReadFull 或 file.Read() 配合复用缓冲区更灵活。
立即学习“go语言免费学习笔记(深入)”;
- 预分配一个固定大小的
[]byte(如 1MB),在 for 循环中反复重用,避免频繁 GC - 用
n, err := file.Read(buf)读取实际字节数,n == 0表示 EOF - 对
buf[:n]进行处理(注意只处理有效长度),处理完无需清空,下次读会自然覆盖
示例:
buf := make([]byte, 1024*1024)for {
n, err := file.Read(buf)
if n > 0 {
processChunk(buf[:n]) // 只传有效部分
}
if err == io.EOF { break }
if err != nil { /* 处理错误 */ }
}
结合 goroutine 并行处理(谨慎使用)
若处理逻辑较重(如 JSON 解析、网络请求),可将读取与处理解耦:一个 goroutine 负责读块并发送到 channel,多个 worker goroutine 消费。但要注意:
- channel 缓冲区大小要限制(如
ch := make(chan []byte, 10)),防止未消费块堆积吃光内存 - 发送前必须复制数据(
ch ),否则所有 goroutine 共享同一底层数组,结果错乱 - 简单场景下,并行反而因调度和 channel 开销得不偿失,优先保证单 goroutine 流式稳定
其他关键细节
- 始终检查
err,尤其io.EOF要正确识别,避免死循环 - 用
file.Seek(0, 0)可重置偏移量,方便多次遍历(但一般应避免) - 处理完及时
file.Close(),配合defer更稳妥 - 用
runtime.GC()强制触发回收通常没必要,Go 的 GC 已足够智能;重点是别让数据长期驻留内存










