0

0

C#操作大型CSV文件 C#如何使用CsvHelper等库高效处理大CSV

煙雲

煙雲

发布时间:2026-02-28 05:49:11

|

512人浏览过

|

来源于php中文网

原创

csvhelper读大文件oom是因为readrecords()默认全量加载,应改用getrecord()单行读取、禁用缓冲、手动控制游标,并配合streamreader/streamwriter流式处理。

c#操作大型csv文件 c#如何使用csvhelper等库高效处理大csv

为什么直接用 CsvHelper 读大文件会 OOM?

因为默认的 ReadRecords<t>()</t> 会把整个 CSV 加载进内存,哪怕你只想要前 100 行。1GB 的 CSV 很可能触发 OutOfMemoryException,尤其在 32 位进程或内存受限环境(如 Azure App Service 免费层)。

关键不是库不行,而是调用方式错了——必须禁用自动缓冲、跳过反射式全量解析、手动控制读取节奏。

  • CsvReader 要配 new CsvConfiguration { BufferSize = 8192, ShouldSkipRecord = ... },避免默认 64KB 缓冲在长行时爆涨
  • 永远不用 GetRecords<t>()</t>,改用 GetRecord<t>()</t> 单条读取 + 显式 Read() 移动游标
  • 如果字段少、结构固定,跳过泛型映射,直接用 parser.ReadField() 拿字符串,省掉 Convert.ChangeType 开销

如何边读边写,避免中间存全量数据?

典型场景:清洗 500 万行 CSV,过滤掉空邮箱、标准化手机号、写入新文件。这时内存里不该存在“原始列表”或“结果列表”,而应是“当前行 → 处理 → 写入”流水线。

用两个独立的 CsvReader / CsvWriter 实例,共享同一个 StreamReader / StreamWriter,并确保 StreamWriter 启用 AutoFlush = true 或定期 Flush()

using var reader = new StreamReader("input.csv");
using var writer = new StreamWriter("output.csv") { AutoFlush = true };
using var csvReader = new CsvReader(reader, config);
using var csvWriter = new CsvWriter(writer, CultureInfo.InvariantCulture);

csvWriter.WriteField("name"); csvWriter.WriteField("phone"); csvWriter.NextRecord();

while (csvReader.Read())
{
    var name = csvReader.GetField("full_name");
    var rawPhone = csvReader.GetField("mobile");
    if (!string.IsNullOrWhiteSpace(rawPhone))
    {
        var cleaned = Regex.Replace(rawPhone, @"\D", "");
        csvWriter.WriteField(name);
        csvWriter.WriteField(cleaned);
        csvWriter.NextRecord();
    }
}

注意:csvReader.Read() 是关键驱动,不是 foreach —— 后者隐式调用 GetRecords,又掉坑里了。

NetShop网店系统
NetShop网店系统

NetShop软件特点介绍: 1、使用ASP.Net(c#)2.0、多层结构开发 2、前台设计不采用任何.NET内置控件读取数据,完全标签化模板处理,加快读取速度3、安全的数据添加删除读取操作,利用存储过程模式彻底防制SQL注入式攻击4、前台架构DIV+CSS兼容IE6,IE7,FF等,有利于搜索引挚收录5、后台内置强大的功能,整合多家网店系统的功能,加以优化。6、支持三种类型的数据库:Acces

下载

遇到中文乱码、BOM、超长字段怎么办?

Windows 记事本保存的 CSV 常带 UTF-8 BOM,CsvHelper 默认不识别,会把 BOM 当作第一列内容;Excel 导出的 CSV 可能用 GBK;某行字段含千字文加换行符,会撑爆默认缓冲区。

  • 读取前先检测 BOM:var bom = new byte[3]; stream.Read(bom, 0, 3); if (bom.SequenceEqual(new byte[]{0xEF, 0xBB, 0xBF})) ...,然后用 new UTF8Encoding(encoderShouldEmitUTF8Identifier: false)
  • 强制指定编码:构造 StreamReader 时传 Encoding.UTF8Encoding.GetEncoding("GB2312"),别依赖自动探测
  • 超长字段:设 Configuration.DetectDelimiter = false + Configuration.Delimiter = ",",关掉耗时的分隔符探测;加大 BufferSize 到 65536,但别无脑调大——它影响的是单次 Read() 的底层 IO 批量,不是内存驻留总量

替代方案:什么情况下该换 StreamReader + 手撕?

当 CSV 极度简单(无引号、无换行、无逗号在字段内)、且性能压到极限(比如每秒处理 100MB+),CsvHelper 的字段解析、类型转换、验证逻辑反而成瓶颈。

此时直接用 StreamReader.ReadLine() + Split(',') 更快,但必须满足:所有字段都不含逗号、双引号、换行符。否则 Split 会错切。

  • 安全做法:用 Microsoft.VisualBasic.FileIO.TextFieldParser(.NET Core 5+ 可用),它原生支持带引号的 CSV,比手写状态机稳,又比 CsvHelper 轻量
  • 若需并发处理,别用单个 CsvReader,改用 File.ReadLines() 分块(按行数切,非字节数),再丢给 Parallel.ForEach,每块内用 TextFieldParser
  • 记住:CSV 规范本身允许引号包裹含逗号字段,只要业务方保证“导出时不启用引号”,才能放心手撕

真正难的从来不是读几百万行,而是确认你的 CSV 真的“规整”——字段里的回车、BOM 的有无、Excel 和 Python pandas 写出的编码差异,这些细节漏查一行,后面全白跑。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

76

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

11

2026.01.31

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

834

2023.08.22

php中foreach用法
php中foreach用法

本专题整合了php中foreach用法的相关介绍,阅读专题下面的文章了解更多详细教程。

202

2025.12.04

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

638

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

218

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1560

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

643

2023.11.24

Golang 并发编程模型与工程实践:从语言特性到系统性能
Golang 并发编程模型与工程实践:从语言特性到系统性能

本专题系统讲解 Golang 并发编程模型,从语言级特性出发,深入理解 goroutine、channel 与调度机制。结合工程实践,分析并发设计模式、性能瓶颈与资源控制策略,帮助将并发能力有效转化为稳定、可扩展的系统性能优势。

2

2026.02.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 10.3万人学习

C 教程
C 教程

共75课时 | 5万人学习

C++教程
C++教程

共115课时 | 19.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号