0

0

解读CRISP-ML(Q):机器学习生命周期流程

WBOY

WBOY

发布时间:2023-04-08 13:21:10

|

1331人浏览过

|

来源于51CTO.COM

转载

译者 | 布加迪

审校 | 孙淑娟

目前,没有用于构建和管理机器学习(ML)应用程序的标准实践。机器学习项目组织得不好,缺乏可重复性,而且从长远来看容易彻底失败。因此,我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

解读CRISP-ML(Q):机器学习生命周期流程

图1. 机器学习开发生命周期流程

使用质量保证方法开发机器学习应用程序的跨行业标准流程(CRISP-ML(Q))是CRISP-DM的升级版,以确保机器学习产品的质量。

CRISP-ML(Q)有六个单独的阶段:

1. 业务和数据理解

2. 数据准备

3. 模型工程

4. 模型评估

5. 模型部署

6. 监控和维护

这些阶段需要不断迭代和探索,以构建更好的解决方案。即使框架中有顺序之分,后一阶段的输出可以决定我们要不要重新检查前一阶段。

解读CRISP-ML(Q):机器学习生命周期流程

图2. 每个阶段的质量保证

质量保证方法被引入到框架的每个阶段。这套方法有要求和约束,比如性能指标、数据质量要求和稳健性。它有助于降低影响机器学习应用程序成功的风险。它可以通过持续监控和维护整个系统来实现。

比如说:在电子商务企业,数据和概念漂移会导致模型退化;如果我们没有部署系统来监控这些变化,公司就会蒙受损失,即失去客户。

业务和数据理解

开发流程一开始,我们需要确定项目范围、成功标准和ML应用程序的可行性。之后,我们开始数据收集和质量验证过程。这个过程漫长而又充满挑战。

范围:我们希望通过使用机器学习流程实现的目标。是留住客户,还是通过自动化降低运营成本?

成功标准:我们必须定义清晰和可衡量的业务、机器学习(统计指标)和经济(KPI)成功指标。

可行性:我们需要确保数据可用性、机器学习应用程序的适用性、法律约束、稳健性、可扩展性、可解释性和资源需求。

数据收集:通过收集数据,对其进行版本控制以实现可重复性,并确保源源不断的真实数据和生成数据。

数据质量验证:通过维护数据描述、要求和验证来确保质量。

为了确保质量和可重复性,我们需要记录数据的统计属性和数据生成过程。

数据准备

  第二阶段很简单。我们将为建模阶段准备数据。这包括数据选择、数据清洗、特征工程、数据增强和规范化。

1. 我们从特征选择、数据选择以及通过过采样或欠采样来处理不平衡类入手。

2. 然后,专注于减少噪音和处理缺失值。出于质量保证的目的,我们将添加数据单元测试,以减少错误值。

3. 视模型而定,我们执行特征工程和数据增强,比如独热编码和聚类。

MOKI
MOKI

MOKI是美图推出的一款AI短片创作工具,旨在通过AI技术自动生成分镜图并转为视频素材。

下载

4. 规范化和扩展数据。这可降低特征有偏差的风险。

为了确保可重复性,我们创建了数据建模、转换和特征工程管道。

模型工程

业务和数据理解阶段的约束和要求将决定建模阶段。我们需要了解业务问题以及我们将如何开发机器学习模型来解决这些问题。我们将专注于模型选择、优化和训练,将确保模型性能指标、稳健性、可扩展性、可解释性,并优化存储和计算资源。

1. 模型架构和类似业务问题方面的研究。

2. 定义模型性能指标。

3. 模型选择。

4. 通过整合专家来了解领域知识。

5. 模型训练。

6. 模型压缩和集成。

为确保质量和可重复性,我们将存储模型元数据并进行版本控制,比如模型架构、训练和验证数据、超参数以及环境描述。

最后,我们将跟踪ML试验,并创建ML管道,以创建可重复的训练流程。

模型评估

这是我们测试并确保模型已准备好部署的阶段。

  • 我们将在测试数据集上测试模型性能。
  • 通过提供随机或虚假数据,评估模型的稳健性。
  • 增强模型的可解释性,以满足监管部门要求。
  • 自动或请教领域专家,将结果与初始成功指标进行比较。

为了质量保证,评估阶段的每一步都被记录下来。

模型部署

模型部署是我们将机器学习模型集成到现有系统中的阶段。该模型可以部署在服务器、浏览器、软件和边缘设备上。来自模型的预测可用于BI仪表板、API、Web应用程序和插件。

模型部署流程:

  • 定义硬件推理。
  • 生产环境中的模型评估。
  • 确保用户接受和可用性。
  • 提供后备方案,最大程度地减少损失。
  • 部署策略。

监控和维护

生产环境中的模型需要持续监控和维护。我们将监控模型时效性、硬件性能和软件性能。

持续监控是流程的第一部分;如果性能降到阈值以下,自动做出决定,针对新数据重新训练模型。此外,维护部分不仅限于模型的重新训练。它需要决策机制,获取新数据、更新软硬件以及根据业务用例改进ML流程。

简而言之,就是持续集成、训练和部署ML模型。

结论

训练和验证模型是ML应用程序的一小部分。将最初的想法变成现实需要几个过程。我们在本文中介绍了CRISP-ML(Q) 以及它如何侧重风险评估和质量保证。

我们先定义业务目标、收集和清理数据、构建模型、拿测试数据集验证模型,然后将其部署到生产环境中。

该框架的关键组件是持续监控和维护。我们将监控数据和软硬件指标,以确定是重新训练模型还是升级系统。

如果您不熟悉机器学习操作,想了解更多信息,请阅读DataTalks.Club评述的​​免费MLOps课程​​。您将获得所有六个阶段的上手经验,了解CRISP-ML的实际实施。

原文标题:Making Sense of CRISP-ML(Q): The Machine Learning Lifecycle Process,作者:Abid Ali Awan

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

2

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

104

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

12

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

93

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

5

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

6

2026.01.26

2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】
2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务,并强调官方渠道唯一性与信息安全。

96

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表
个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例,应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元,专项扣除 1000 元,专项附加扣除 2000 元,当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元,对应税率为 3%,速算扣除数为 0,则当月应纳税额为 2000×3% = 60 元。

27

2026.01.26

oppo云服务官网登录入口 oppo云服务登录手机版
oppo云服务官网登录入口 oppo云服务登录手机版

oppo云服务https://cloud.oppo.com/可以在云端安全存储您的照片、视频、联系人、便签等重要数据。当您的手机数据意外丢失或者需要更换手机时,可以随时将这些存储在云端的数据快速恢复到手机中。

75

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 4.9万人学习

PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.9万人学习

Git 教程
Git 教程

共21课时 | 3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号