如何在 MLRun 中安全读取已保存的 CSV 格式 Artifact

花韻仙語

发布时间：2026-03-10 11:27:30

701人浏览过

来源于php中文网

原创

如何在 MLRun 中安全读取已保存的 CSV 格式 Artifact

本文详解如何通过 mlrun 的 get_dataitem().as_df() 接口，正确加载存储在远程存储（如 s3）中的 csv artifact，避免因权限、路径拼写或认证缺失导致的读取失败。

本文详解如何通过 mlrun 的 get_dataitem().as_df() 接口，正确加载存储在远程存储（如 s3）中的 csv artifact，避免因权限、路径拼写或认证缺失导致的读取失败。

在 MLRun 中，将 DataFrame 以 TableArtifact 形式记录为 artifact（例如 context.log_artifact(TableArtifact('mydf', df=dataset, visible=True))）后，该文件会自动序列化为 CSV 并持久化至配置的远程存储（如 S3、V3IO 或 NFS）。但直接使用 pd.read_csv("s3://...") 通常会失败——原因包括：未配置 AWS 凭据、S3 客户端未初始化、路径中项目命名不匹配（如误用 test-pipeline 而非实际项目名 test_pipeline），或存储后端并非标准 S3 兼容接口（如 V3IO）。

✅ 正确做法是统一通过 MLRun 的数据抽象层访问，即使用 mlrun.get_dataitem() 获取可操作的数据项对象，再调用 .as_df() 方法自动完成格式解析与反序列化：

import mlrun

# 替换为你的实际项目名（注意：需与创建项目时的 name 严格一致）
project_name = "test-pipeline"

# 构造 artifact 的完整 URI（格式固定：s3://<bucket>/projects/<project-name>/artifacts/<run-uid>/<artifact-name>.csv）
uri = f"s3://mlrun/projects/{project_name}/artifacts/data-prep-test-data-generator/0/mydf.csv"

# 安全读取：MLRun 自动处理认证、协议适配与类型推断
df = mlrun.get_dataitem(uri).as_df()

print(df.head())

⚠️ 关键注意事项：

秘塔回响

秘塔AI语音输入法

下载

URI 拼写必须精确：projects/ 后是项目名（区分大小写和连字符）、artifacts/ 后是运行（run）的 uid 对应的目录名（可通过 run.status.artifact_uris 或 UI 查看），而非函数名；.csv 后缀不可省略。
项目名 ≠ 项目别名或环境变量名：务必确认项目真实名称（执行 mlrun.get_project("your-project").name 验证）。
无需手动配置 S3 客户端：get_dataitem 内部复用 MLRun 的全局存储配置（mlrun.set_environment(...) 或 MLRUN_DBPATH 等），确保与写入时环境一致。
支持多种格式透明转换：若 artifact 以 Parquet、JSON 等格式保存，.as_df() 同样适用，无需修改代码。
调试技巧：打印 mlrun.get_dataitem(uri).url 可验证解析后的实际地址；调用 .listdir() 可浏览目录结构。

? 进阶建议：为提升可维护性，推荐在 pipeline 中显式传递 artifact 的 key 和 uid，而非硬编码路径。例如，在下游函数中接收 context.get_input('mydf')（需上游设置 with_result=True），或通过 context.get_artifact('mydf') 获取元数据后构造 URI。

综上，mlrun.get_dataitem(uri).as_df() 是读取 MLRun artifact 的标准、安全且跨存储后端兼容的方式，应作为首选方案替代原始文件系统级访问。

Python读取CSV文件_csv模块使用教程

Python 网页爬虫精准提取 HIPAA 合规协议链接的实战指南

将 CSV 中嵌套 JSON 字符串字段自动展开为扁平化 JSON 对象

Python如何读取大文件_流式读取技巧

Python如何处理大文件_流式读取与内存优化

相关标签:

csv json 数据抽象接口对象 ui

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何正确将字符串（含小数）安全转换为浮点数并参与数值计算下一篇：提取汽车列表中的年份信息：使用正则表达式精准捕获四位年份

作者最新文章

怎么在vscode中画3d图

2026-03-09 16:53

如何实现滚动到指定区域时触发动画线条效果

2026-03-09 17:18

索尼PC游戏卖不动玩家吐槽其发售晚价格贵质量不行

2026-03-09 17:36

如何在单页中正确结合 AJAX 与 PHP 实现无刷新用户名验证

2026-03-09 17:38

抖音爆款视频怎么拍？抖音怎么拍视频好看

2026-03-09 17:42

Go 标准库中解析 HTML 表单嵌套数组的实践与替代方案

2026-03-09 17:52

HTML中动态插入变量值的正确写法与常见错误解析

2026-03-09 17:53

vscode怎么一键改变量名

2026-03-09 17:56

Go 语言中如何在 switch 分支中动态创建符合接口的接收者实例

2026-03-09 17:58

如何在 Go 语言测试中正确模拟表单 POST 请求

2026-03-09 17:59

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

454

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

546

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

334

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

454

2023.08.07

json是什么

546

2023.08.23

jquery怎么操作json

334

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板