如何在 MLRun 中安全高效地读取已保存的 CSV 类型 Artifact

花韻仙語

发布时间：2026-03-10 15:32:11

459人浏览过

来源于php中文网

原创

如何在 MLRun 中安全高效地读取已保存的 CSV 类型 Artifact

本文详解如何通过 MLRun 的 get_dataitem().as_df() 接口，从对象存储（如 S3）中可靠加载已注册的 CSV Artifact，避免硬编码路径和权限问题。

本文详解如何通过 mlrun 的 `get_dataitem().as_df()` 接口，从对象存储（如 s3）中可靠加载已注册的 csv artifact，避免硬编码路径和权限问题。

在 MLRun 中，将 DataFrame 作为 Artifact（如 TableArtifact）记录后，系统会自动将其序列化为 CSV 并持久化到配置的远程存储（如 S3、V3IO 或 NFS）。但直接使用 pd.read_csv("s3://...") 通常失败——并非路径不存在，而是因为：

缺少认证凭据（如 AWS credentials 未正确注入到运行环境）；
存储路径中的项目命名空间可能含动态前缀（如 {project}-jovyan）；
MLRun 的 artifact 元数据（版本、格式、schema）未被利用，丧失可追溯性与一致性保障。

✅ 正确做法是统一使用 MLRun 提供的 mlrun.get_dataitem() 接口，它自动处理身份认证、协议适配（S3/V3IO/HTTP/FS）、缓存及格式解析：

import mlrun

# ✅ 推荐：通过 dataitem 加载并自动解析为 DataFrame
df = mlrun.get_dataitem(
    "s3://mlrun/projects/my-project-jovyan/artifacts/data-prep-test-data-generator/0/mydf.csv"
).as_df()

print(df.shape)
print(df.head())

⚠️ 注意事项：

Rezi.ai

一个使用 AI 自动化创建简历平台

下载

路径需严格匹配 artifact 注册时生成的实际 URI，可通过 context.get_artifact("mydf").target_path 在日志或 UI 中查证；
项目名称后缀（如 -jovyan）由 MLRun 默认命名策略决定，生产环境建议显式指定 project 参数以提升可读性；
若 artifact 是跨项目访问，需确保当前运行上下文具备对应项目的读取权限（尤其在多租户部署中）；
as_df() 默认按 .csv 后缀推断格式，若需自定义参数（如 sep, dtype, parse_dates），可传入 **kwargs：

df = mlrun.get_dataitem(uri).as_df(
    sep=";", 
    dtype={"id": "string"}, 
    parse_dates=["timestamp"]
)

? 进阶提示：对于频繁调用场景，建议封装为可复用函数，并结合 mlrun.get_or_create_project() 确保环境一致性：

def load_artifact_df(project: str, artifact_name: str, iteration: int = 0) -> pd.DataFrame:
    uri = f"s3://mlrun/projects/{project}-jovyan/artifacts/{artifact_name}/{iteration}/{artifact_name}.csv"
    return mlrun.get_dataitem(uri).as_df()

# 使用示例
df = load_artifact_df(project="test-pipeline", artifact_name="mydf")

总之，永远优先使用 MLRun 原生 API（而非底层存储 SDK）操作 artifacts——这不仅是最佳实践，更是保障实验可复现、流水线可迁移、元数据可审计的核心前提。

Python 网页爬虫精准提取 HIPAA 合规协议链接的实战指南

将 CSV 中嵌套 JSON 字符串字段自动展开为扁平化 JSON 对象

Python如何读取大文件_流式读取技巧

Python如何处理大文件_流式读取与内存优化

Python脚本高效解析专有配置文件为CSV格式

相关标签:

csv 命名空间封装接口对象 http ui

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Tkinter 井字棋游戏重置机制修复指南：彻底解决重复开局导致的误判胜负问题下一篇：暂无

作者最新文章

怎么在vscode中画3d图

2026-03-09 16:53

如何实现滚动到指定区域时触发动画线条效果

2026-03-09 17:18

索尼PC游戏卖不动玩家吐槽其发售晚价格贵质量不行

2026-03-09 17:36

如何在单页中正确结合 AJAX 与 PHP 实现无刷新用户名验证

2026-03-09 17:38

抖音爆款视频怎么拍？抖音怎么拍视频好看

2026-03-09 17:42

Go 标准库中解析 HTML 表单嵌套数组的实践与替代方案

2026-03-09 17:52

HTML中动态插入变量值的正确写法与常见错误解析

2026-03-09 17:53

vscode怎么一键改变量名

2026-03-09 17:56

Go 语言中如何在 switch 分支中动态创建符合接口的接收者实例

2026-03-09 17:58

如何在 Go 语言测试中正确模拟表单 POST 请求

2026-03-09 17:59

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍：1、IDE接口是一种并行接口，主要用于连接硬盘和光驱等设备，它主要有两种类型：ATA和ATAPI，IDE接口已经逐渐被SATA接口；2、SATA接口是一种串行接口，相较于IDE接口，它具有更高的传输速度、更低的功耗和更小的体积；3、SCSI接口等等。

1878

2023.10.19

PHP接口编写教程

本专题整合了PHP接口编写教程，阅读专题下面的文章了解更多详细内容。

656

2025.10.17

php8.4实现接口限流的教程

PHP8.4本身不内置限流功能，需借助Redis（令牌桶）或Swoole（漏桶）实现；文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2384

2025.12.29

java接口相关教程

本专题整合了java接口相关内容，阅读专题下面的文章了解更多详细内容。

2026.01.19

http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

495

2023.11.09

http请求415错误怎么解决

解决方法：1、检查请求头中的Content-Type；2、检查请求体中的数据格式；3、使用适当的编码格式；4、使用适当的请求方法；5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容，可以阅读下面的文章。

449

2023.11.14

HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容，可以阅读本专题下面的文章。

3474

2024.03.12

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2894

2024.08.16

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板