c++中如何实现文件的按块读取_c++处理超大文件读取方法【详解】

裘德小鎮的故事

发布时间：2026-01-17 15:47:31

360人浏览过

来源于php中文网

原创

不能直接用std::ifstream::read一次性读完超大文件，因内存不足会导致std::bad_alloc；即使分配成功，缓存失效和页交换也会使性能下降十倍以上。

c++中如何实现文件的按块读取_c++处理超大文件读取方法【详解】

为什么不能直接用 `std::ifstream::read` 一次性读完超大文件

因为内存不够。比如一个 20GB 的日志文件，new char[20ULL * 1024 * 1024 * 1024] 直接失败，std::bad_alloc 是最常见结果。更隐蔽的问题是：即使系统允许分配（如使用虚拟内存），后续处理时缓存失效、页交换会拖慢十倍以上——这不是 IO 瓶颈，是内存访问模式问题。

按块读取的核心不是“分多次调用 read”，而是控制每次真正加载进物理内存的数据量，并让 OS 缓存策略与你的访问顺序对齐。

用固定大小缓冲区 + `read` 循环是最稳的方案

不要依赖 gcount() 判断是否读到末尾——它只反映上一次 read 实际读入字节数，而 EOF 可能在任意位置发生。正确做法是检查 rdstate() 并结合 gcount()。

std::ifstream 必须用 std::ios::binary 模式打开，否则 Windows 下遇到 \r\n 会被静默转换，块边界错乱
缓冲区大小建议设为 4KB–64KB（如 constexpr size_t BUF_SIZE = 8192;），太小导致 syscall 过多，太大无益于性能提升
每次 read(buf, BUF_SIZE) 后立刻检查：if (file.gcount() == 0 && file.eof()) break;，避免空循环
处理最后一块时，gcount() 返回值就是真实可用字节数，不要硬当成满缓冲区用

constexpr size_t BUF_SIZE = 32768;
std::ifstream file("huge.log", std::ios::binary);
if (!file) return;
<p>char buffer[BUF_SIZE];
while (file.read(buffer, BUF_SIZE) || file.gcount() > 0) {
size_t n = static_cast<size_t>(file.gcount());
process_chunk(buffer, n); // 自定义处理函数
if (file.eof()) break;
}

需要更高吞吐？试试 `mmap`（Linux/macOS）或 `CreateFileMapping`（Windows）

内存映射不是“把整个文件装进内存”，而是建立虚拟地址映射，按需触发 page fault 加载——这比手动 read/write 更贴近现代 SSD/NVMe 的并行读取能力。但代价是：你得自己管理映射范围、处理信号（如 SIGBUS）、且跨平台封装成本高。

Nanonets

基于AI的自学习OCR文档处理，自动捕获文档数据

下载

立即学习“C++免费学习笔记（深入）”；

Linux 下用 mmap(nullptr, len, PROT_READ, MAP_PRIVATE, fd, offset)，len 不必等于文件大小，可分段映射
Windows 需先 CreateFile 得句柄，再 CreateFileMapping + MapViewOfFile
注意：映射区域不可写时，传 PROT_READ 或 PAGE_READONLY；若后续要修改，必须用 MAP_SHARED 和 PAGE_READWRITE
mmap 失败返回 MAP_FAILED（不是 nullptr），别漏判

跳过某段内容？别用 `seekg` 频繁定位

对机械硬盘或某些网络文件系统，seekg 后紧跟 read 会产生大量寻道延迟。如果目标是“跳过前 100MB 解析后续”，更高效的做法是：用 read 循环丢弃数据，而不是反复 seek —— 因为连续读比随机 seek 快 3~10 倍。

丢弃数据时，复用同一栈缓冲区（如 8KB），避免堆分配开销
若需精确跳转到某行（如 CSV 第 100 万行），先用 read 找换行符，而不是逐字节 get()
seekg 在 std::ios::binary 模式下是字节偏移，安全；但在文本模式下行为未定义，禁用

超大文件处理真正的复杂点不在“怎么读”，而在“怎么定义‘一块’”：是固定字节数？按行？按 JSON 对象边界？这些语义解析逻辑一旦和底层读取耦合，就很难测试和复用。宁愿多一层抽象，把“块提取”和“块处理”拆开。

C++怎么使用各种数学函数_C++中math.h库调用【方案】

C++怎么判断文件 C++检查文件是否被占用方法【技巧】

c++怎么连接数据库_c++操作mysql基本步骤【实战】

C++如何读取系统磁盘使用情况？（跨平台statvfs封装）

C++如何实现跨平台获取当前工作目录？（getcwd封装）

c++速学教程(入门到精通)

c++怎么学习？c++怎么入门？c++在哪学？c++怎么学才快？不用担心，这里为大家提供了c++速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

linux js json windows 字节硬盘机械硬盘 mac 虚拟内存 csv 栈 ai c++ json EOF if 封装 break char 循环 ifstream 栈堆 len 对象 windows macos ios linux

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：c++中如何使用std::lerp计算线性插值_c++20数学函数用法【实例】下一篇：c++的std::thread构造函数是如何处理参数的？ (衰变与拷贝)

作者最新文章

C++ short int如何赋初值 C++ short变量静态定义【入门】

2026-03-11 13:59

C++ short int在内存中怎么存 C++ short大小端【解析】

2026-03-11 14:03

C++如何实现面向协程的数据库驱动层？（异步数据库访问）

2026-03-11 14:04

C++ short数组怎么定义 C++ short int数组初始化【示例】

2026-03-11 14:09

C++怎么判断子串 C++中string::find返回位置【技巧】

2026-03-11 14:13

Laravel怎么处理多图上传_Laravel怎么循环保存文件【总结】

2026-03-11 14:15

C++怎么规划学习路线 2026年C++程序员学习建议【指南】

2026-03-11 14:17

云崩坏星穹铁道H5入口网页版官方登录地址

2026-03-11 14:21

C++怎么使用命名空间_C++代码组织教程【规范】

2026-03-11 14:24

高德地图如何切换地图皮肤高德地图视觉效果设置【设置】

2026-03-11 14:29

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

337

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

847

2023.08.22

java中break的作用

本专题整合了java中break的用法教程，阅读专题下面的文章了解更多详细内容。

120

2025.10.15

java break和continue

本专题整合了java break和continue的区别相关内容，阅读专题下面的文章了解更多详细内容。

261

2025.10.24

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

443

2023.07.18

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

热门下载

网站特效

网站源码

网站素材

前端模板