0

0

C# Polars/DataFrame操作文件 C#如何使用DataFrame库高效读写CSV/Parquet

幻夢星雲

幻夢星雲

发布时间:2026-02-28 11:42:10

|

521人浏览过

|

来源于php中文网

原创

polars.net处理csv乱码需先用gbk解码字节再转内存流;字段截断应设hasheader:true+inferschemalength:null;parquet写入推荐lz4raw压缩并用sinkparquet;取列数据优先用values.span而非topandas();并发写parquet须分片避免冲突。

c# polars/dataframe操作文件 c#如何使用dataframe库高效读写csv/parquet

Polars.NET 读 CSV 时中文乱码或字段截断怎么办

默认用 UTF-8 读取,但 Windows 上很多 CSV 是 GBK/GB2312 编码,Polars.NET 当前(v0.19)不支持直接传 Encoding 参数。硬指定编码会抛 System.NotSupportedException: Encoding not supported

实操建议:

  • 先用 File.ReadAllBytes(path) 读原始字节,再用 Encoding.GetEncoding("GBK").GetString(bytes) 转字符串,写入内存流后交给 LazyFrame.ScanCsv() —— 注意必须用 Stream 构造,不能用路径字符串
  • 字段截断常见于含换行符的 CSV 字段(没加引号),改用 hasHeader: true + inferSchemaLength: null 强制全量推断类型,避免早期采样误判为 Utf8 后截断
  • 若列名含空格或特殊字符,务必设 hasHeader: true 并配合 separator: ',' 显式声明,否则首行可能被当数据

Parquet 写入报错 “Could not write to file” 或性能极低

Polars.NET 底层调用的是 Rust Polars,Windows 上写 Parquet 默认用 Snappy 压缩,但 .NET 运行时若没装对应原生依赖(如 libsnappy.dll),就会静默 fallback 到未压缩,导致磁盘 I/O 暴增、文件巨大,甚至因临时缓冲区溢出报错。

实操建议:

  • 显式指定压缩算法:写入时传 new ParquetOptions { Compression = ParquetCompression.Lz4Raw }(LZ4 在 .NET 环境兼容性最好)
  • 避免直接 df.WriteParquet(path),改用 df.SinkParquet(path, options) —— 前者是 eager 模式,会强制 materialize 全量数据;后者走 lazy pipeline,内存更稳
  • 分区写入用 SinkParquet 配合 GroupBy().MapGroups(),别用 Filter() 循环写,否则每轮都重算整个 DataFrame

从 DataFrame 提取 List 或单列数组太慢?别用 ToPandas()

ToPandas() 是调试用的桥接方法,本质是把所有数据序列化成 Python 对象再反解回 .NET,中间经历两次跨语言拷贝,10 万行以上基本卡死。

AI抖音
AI抖音

AI抖音,会思考的抖音

下载

实操建议:

  • 取单列值:用 df.GetColumn("col_name").Cast<arrowarray>().Values</arrowarray> 直接拿底层 Span<t></t>,比如 Int64ArrayValueBuffer.Span
  • List<string></string>:优先 column.Chunk(0).As<stringarray>().GetValues()</stringarray>,比遍历 GetValue(i) 快 5–10 倍
  • 需要强类型对象列表?用 df.ToRows() + Span<t>.ToArray()</t> 批量映射,别用 LINQ Select(x => new Foo { ... }) —— 每次 x 都是 boxed object,GC 压力大

多线程写同一个 Parquet 文件会崩溃

Polars.NETSinkParquet 不是线程安全的,多个 Task 并发调用同一路径会触发底层 Rust 的文件锁冲突,报 IOError: The process cannot access the file because it is being used by another process

实操建议:

  • 绝对不要并发写同一文件。合并策略只有两种:先用 LazyFrame 合并逻辑(Concat() / Join()),再单次写出;或按业务维度分片写不同路径,最后用 ScanParquet("folder/*.parquet") 统一读
  • 如果必须并行处理,用 Parallel.ForEach(partitions, p => { ... df.SinkParquet($"{path}_{i}.parquet") ... }),写完再用 pl.Concat(...) 加载全部分片
  • 注意 ScanParquet 读目录时,子目录里不能有隐藏文件(如 .DS_Store_SUCCESS),否则解析失败 —— 读前先 Directory.GetFiles(dir, "*.parquet", SearchOption.AllDirectories) 过滤一遍

真正卡住人的往往不是语法,而是底层 Arrow 内存模型和 .NET GC 的交互方式:比如 StringArrayValueBuffer 是 unmanaged memory,GetValues() 返回的 string[] 是托管堆分配,频繁调用等于在做隐式深拷贝。能用 Span<char></char> 就别碰 string

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C++系统编程内存管理_C++系统编程怎么与Rust竞争内存安全
C++系统编程内存管理_C++系统编程怎么与Rust竞争内存安全

C++系统编程中的内存管理是指 对程序运行时内存的申请、使用和释放进行精细控制的机制,涵盖了栈、堆、静态区等不同区域,开发者需要通过new/delete、智能指针或内存池等方式管理动态内存,以避免内存泄漏、野指针等问题,确保程序高效稳定运行。它核心在于开发者对低层内存有完全控制权,带来灵活性,但也伴随高责任,是C++性能优化的关键。

13

2025.12.22

Rust异步编程与Tokio运行时实战
Rust异步编程与Tokio运行时实战

本专题聚焦 Rust 语言的异步编程模型,深入讲解 async/await 机制与 Tokio 运行时的核心原理。内容包括异步任务调度、Future 执行模型、并发安全、网络 IO 编程以及高并发场景下的性能优化。通过实战示例,帮助开发者使用 Rust 构建高性能、低延迟的后端服务与网络应用。

7

2026.02.11

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

870

2023.08.02

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

248

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

927

2024.03.01

php中foreach用法
php中foreach用法

本专题整合了php中foreach用法的相关介绍,阅读专题下面的文章了解更多详细教程。

202

2025.12.04

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

638

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

218

2023.09.04

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

0

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 10.4万人学习

C 教程
C 教程

共75课时 | 5.1万人学习

C++教程
C++教程

共115课时 | 19.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号