Go语言如何按行读取文件_bufio Scanner读取文本文件

P粉602998670

发布时间：2026-01-14 12:56:02

154人浏览过

来源于php中文网

原创

Scanner 读到“空行”就停是因为行长度超限而非真遇到空行；默认缓冲区64KB，超长行触发bufio.ErrTooLong导致Scan()返回false；应检查scanner.Err()并用scanner.Buffer()扩大缓冲区。

go语言如何按行读取文件_bufio scanner读取文本文件

为什么 Scanner 读到空行就停了？

默认情况下 bufio.Scanner 的缓冲区上限是 64KB，遇到超长行（比如日志中混入的 base64 字段、单行 JSON）会直接返回 scanner.Err() == bufio.ErrTooLong，且后续调用 scanner.Scan() 返回 false，看起来像“卡在空行”或“提前结束”。这不是空行问题，而是行长度越界导致扫描器终止。

用 scanner.Err() 检查是否为 bufio.ErrTooLong，而不是只看 Scan() 返回值
可通过 scanner.Buffer(make([]byte, 64*1024), 1 手动扩大缓冲区上限（第二个参数是最大令牌长度，设为 1MB）
若文件含真正不可控的超长行，建议改用 bufio.Reader.ReadLine() 或逐字节读取

Scanner 默认按什么分隔符切行？

bufio.Scanner 默认使用 bufio.ScanLines 作为分隔函数，它识别 \n、\r\n、\r 三种换行符，并**自动剥离**这些换行符。注意：\r 单独出现时也会被当作行结束，这在处理旧 Mac 文件或某些串口输出时可能引发意外切分。

Windows 文件（\r\n）和 Unix 文件（\n）都能正确处理
若需保留换行符，不能用 scanner.Text()，应改用 scanner.Bytes() 并自行追加（但要注意 Bytes() 返回的是内部缓冲区切片，下一次 Scan() 后失效）
自定义分隔符可用 scanner.Split()，例如按空行分割：传入 bufio.ScanLines 改写逻辑，或直接用 bytes.Split 预处理

如何安全地边读边解析 CSV 或 JSON 行？

每行一个 JSON 对象（JSON Lines）或 CSV 记录时，不能假设 scanner.Text() 返回的字符串一定合法——网络传输截断、编码错误、BOM 头都可能导致解析失败。必须对每一行单独做错误隔离。

意兔-AI漫画相机

照片变漫画手绘，做周边好物

下载

不要把所有行存进 slice 再批量解析；每调用一次 scanner.Scan() 就立即处理一行
对 json.Unmarshal([]byte(line), &v) 做 if err != nil 判断，出错时打印 scanner.Bytes() 的原始字节（可 hex dump），方便定位乱码或截断位置
CSV 场景下，优先用 csv.NewReader(scanner) 替代手动 strings.Split()，它能正确处理带引号、换行、逗号的字段

file, _ := os.Open("data.jsonl")
defer file.Close()
scanner := bufio.NewScanner(file)
for scanner.Scan() {
    line := scanner.Bytes() // 避免 string 转换丢失二进制数据
    var record map[string]interface{}
    if err := json.Unmarshal(line, &record); err != nil {
        log.Printf("parse error at offset %d: %v, raw: %x", scanner.Bytes(), err)
        continue
    }
    // 处理 record
}

Scanner 和 ReadLine 哪个更适合大文件？

性能差异不大，但语义和错误处理完全不同：Scanner 是“按逻辑行”抽象，ReadLine() 是“按物理字节边界”读取。前者更易用，后者更可控。

立即学习“go语言免费学习笔记（深入）”；

Scanner 自动跳过空白行（如果没禁用），而 ReadLine() 会把空行（[]byte{}）也返回
ReadLine() 遇到不完整行（末尾无换行符）时返回 isPrefix=true，需循环读取拼接；Scanner 在 ErrTooLong 时也要求你处理前缀，但逻辑更隐蔽
若需精确控制内存（如流式解密后按行处理），ReadLine() 更合适，因为你能复用同一块 []byte 缓冲区

真正麻烦的是混合编码（UTF-8 + GBK）、行尾不统一、以及 Scanner 缓冲区复用机制带来的生命周期陷阱——scanner.Bytes() 不是新分配的内存，别把它塞进 goroutine 里异步用。

Golang中的模板引擎html/template实战 Go语言Web安全渲染与防XSS

如何在Golang中实现SEO友好的动态渲染 Go语言Headless Chrome爬虫适配

gRPC-Web实践指南_让前端浏览器直接调用gRPC服务

Golang中的微服务合同测试(Pact Test) Go语言消费端驱动开发实践

Revel 框架中基于版本号的静态资源缓存失效实践

相关标签:

js json go go语言 json Go语言

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Go初级项目如何进行参数校验_Go数据校验实践下一篇：Go模块如何支持多版本共存_Go依赖隔离机制解析

作者最新文章

悟空浏览器怎么关闭启动时的加载动画闪屏_悟空浏览器秒开优化

2026-03-13 17:04

如何在Golang中通过反射创建并操作切片 Go语言reflect.MakeSlice实战

2026-03-13 17:05

如何避免PL/SQL中的SQL注入_绑定变量Bind Variables的最佳实践

2026-03-13 17:05

Safari浏览器如何关闭网页的安全证书警告_Safari浏览器继续访问

2026-03-13 17:06

宝塔面板下如何安装Node.js的特定版本镜像源？

2026-03-13 17:09

如何在Golang中实现优雅的请求超时控制 Go语言http.TimeoutHandler使用

2026-03-13 17:09

如何在Golang中利用Trace工具分析延迟 Go语言执行链路可视化追踪

2026-03-13 17:09

如何在Golang中利用SQLite进行本地存储 Go语言嵌入式数据库应用

2026-03-13 17:11

如何在Golang中利用Finalizer清理非内存资源 Go语言runtime.SetFinalizer使用

2026-03-13 17:11

如何为Oracle配置多监听器_不同端口的并发监听机制实现

2026-03-13 17:12

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23