0

0

如何使用Golang按行读取大文件_Golangbufio Scanner文件行读取技巧汇总

P粉602998670

P粉602998670

发布时间:2025-12-22 06:47:29

|

701人浏览过

|

来源于php中文网

原创

bufio.Scanner 按行读取大文件最常用且稳妥,但默认64KB行长限制易触发ErrTooLong,需调用scanner.Buffer()自定义缓冲区大小。

如何使用golang按行读取大文件_golangbufio scanner文件行读取技巧汇总

bufio.Scanner 按行读取大文件是 Go 中最常用也最稳妥的方式,它内存友好、语法简洁、默认支持 UTF-8,但需注意几处关键细节才能真正“稳读大文件”。

默认 Scanner 有 64KB 行长度限制

Scanner 默认每行最多读 64KB,超长会报 bufio.ErrTooLong。处理日志、JSON 行、或含超长字段的 CSV 时很容易触发。

  • scanner.Buffer(make([]byte, 64*1024), 1 手动扩容缓冲区(例如设上限为 1MB)
  • 更健壮的做法:捕获错误并跳过异常行,避免整个流程中断
  • 若确定行不会超长,可只调大第一个参数(初始缓冲),第二个参数(最大容量)保持合理即可

按行读取 ≠ 按 \n 切分 —— 注意换行符兼容性

Scanner 默认以 \n 为分隔符,对 Windows 的 \r\n 或旧 Mac 的 \r 不自动处理。实际读到的行末可能残留 \r,尤其在跨平台处理日志或配置文件时。

  • 简单清洗:读完后用 strings.TrimRight(line, "\r\n")
  • 如需严格按 CRLF 分割,可自定义 SplitFunc,但多数场景 Trim 更轻量可靠
  • 注意:UTF-8 BOM(\uFEFF)也可能出现在首行开头,必要时一并 Trim

大文件别忘关文件,且优先用 os.Open 而非 ioutil.ReadFile

ioutil.ReadFile(或 os.ReadFile)会把整个文件加载进内存,GB 级文件直接 OOM。正确姿势是流式打开 + 扫描。

Lumen5
Lumen5

一个在线视频创建平台,AI将博客文章转换成视频

下载

立即学习go语言免费学习笔记(深入)”;

  • f, err := os.Open("big.log"),defer f.Close()
  • 传给 Scanner: scanner := bufio.NewScanner(f)
  • 循环中用 for scanner.Scan() { line := scanner.Text() },不是 scanner.Bytes()(后者不自动解码 UTF-8)
  • 退出前务必检查 scanner.Err(),判断是 EOF 还是真实 I/O 错误

需要更高性能?考虑 bufio.Reader + ReadString('\n')

Scanner 内部就是封装了 Reader,但多了词法分析逻辑。如果只要纯按行切分、不做 token 化,且对性能敏感(如每秒百万行解析),可手动用 Reader:

  • reader := bufio.NewReader(f)
  • for { line, err := reader.ReadString('\n'); if err == io.EOF { break } else if err != nil { /* handle */ } }
  • 注意:ReadString 返回的 line 包含结尾的 \n,需用 strings.TrimSuffix(line, "\n")
  • 比 Scanner 略快、更可控,但少了缓冲区自动扩容和错误分类,需自行兜底

基本上就这些。Scanner 足够好用,关键在理解它的边界 —— 不是黑盒,而是带默认配置的流处理器。调对 Buffer、清好换行符、关好文件句柄,大文件就读得既稳又省。

相关专题

更多
golang如何定义变量
golang如何定义变量

golang定义变量的方法:1、声明变量并赋予初始值“var age int =值”;2、声明变量但不赋初始值“var age int”;3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

179

2024.02.23

golang有哪些数据转换方法
golang有哪些数据转换方法

golang数据转换方法:1、类型转换操作符;2、类型断言;3、字符串和数字之间的转换;4、JSON序列化和反序列化;5、使用标准库进行数据转换;6、使用第三方库进行数据转换;7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

228

2024.02.23

golang常用库有哪些
golang常用库有哪些

golang常用库有:1、标准库;2、字符串处理库;3、网络库;4、加密库;5、压缩库;6、xml和json解析库;7、日期和时间库;8、数据库操作库;9、文件操作库;10、图像处理库。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

340

2024.02.23

golang和python的区别是什么
golang和python的区别是什么

golang和python的区别是:1、golang是一种编译型语言,而python是一种解释型语言;2、golang天生支持并发编程,而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

209

2024.03.05

golang是免费的吗
golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的开源编程语言,采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

392

2024.05.21

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

197

2025.06.09

golang相关判断方法
golang相关判断方法

本专题整合了golang相关判断方法,想了解更详细的相关内容,请阅读下面的文章。

191

2025.06.10

golang数组使用方法
golang数组使用方法

本专题整合了golang数组用法,想了解更多的相关内容,请阅读专题下面的文章。

192

2025.06.17

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

0

2026.01.20

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
WEB前端教程【HTML5+CSS3+JS】
WEB前端教程【HTML5+CSS3+JS】

共101课时 | 8.4万人学习

JS进阶与BootStrap学习
JS进阶与BootStrap学习

共39课时 | 3.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号