0

0

负责任的机器学习--“玻璃盒”方法

王林

王林

发布时间:2023-04-09 12:21:03

|

1330人浏览过

|

来源于51CTO.COM

转载

​译者 | 崔皓

审校 | 孙淑娟

开篇

机器学习并不是一项深奥的技术。正如在复杂的深度神经网络中多参数和超参数的方法只是认知计算的一种表现形式,看上去也没有那么深奥。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

负责任的机器学习--“玻璃盒”方法

还存在其他一些机器学习的种类(一些涉及到深度神经网络),这类机器学习的模型结果、模型的确定以及影响模型的复杂性都表现得非常透明。

所有这些都取决于组织对其数据来源的理解程度。 

换句话说,需要了解从模型训练数据到生产数据模型过程中的一切。这也是解释、改进和改进其结果不可或缺的部分。通过这种方式让组织极大地提升模型的商业价值。

更重要的是,还进一步提高了这项技术的公平性、问责性和透明度,对于整个社会而言也更加可靠、更加完善。

Databricks营销副总裁Joel Minnick承认:“这就是为什么您需要对数据的上游和下游进行细粒度的了解,以便能够负责任地进行机器学习。”

为数据沿袭编制目录

针对模型的数据训练和数据生成会涉及到数据源、数据转换、数据集成等多项技术。在成熟的数据目录方案中,可以实现数据的实时捕获,因此可以随时监控进度从而了解模型的执行进度。“它能让我清楚了解在模型中使用数据的上下文情况。同时,你还可以知道,这些数据是从哪里来的?我们从中获得了哪些其他数据?它是什么时候产生的?这样我就可以更好地理解我应该如何使用这些数据”,数据科学家Minnick 如是说。

“数据沿袭”(记录数据源头、移动、处理过程)由元数据组成,而数据目录用来存储有关数据集。目录还使用户能够将标签和其他描述符作为附加元数据,其可以帮助追溯数据来源和建立数据信任。正如 Minnick 所描述的“数据沿袭”可以生成“API 驱动的服务”,通过这些服务连接一系列平台(包括数据科学家平台、数据工程师平台和终端用户平台)。

通义万相
通义万相

通义万相,一个不断进化的AI艺术创作大模型

下载

数据治理:为数据科学而生

数据训练和数据操作的可追溯性提升会影响到机器学习模型结果,而模型结果又和数据科学领域中的数据治理息息相关。因此,数据治理和创建、部署模型的数据科学平台存在千丝万缕的联系。“技能管理表格和文件,又能管理笔记本,同时还可以管理仪表盘。这是管理生产和消费数据的现代方式。”Minnick 评论道。 对于在笔记本中构建模型的数据科学家和通过仪表板监控输出结果的数据科学家来说,对上述说法深以为然。

清晰且透明 

尽管如此,简单地通过 API 连接数据科学工具平台,从而获取“数据沿袭”只是透明利用机器学习的一个方面。为了达到改进模型的输出目的,还需要通过数据沿袭中确定的内容来对输出模型进行校准。例如,如何让可追溯性模型数据使数据科学家“能够理解一旦一些数据出现问题,就可以分离出这部分数据,”Minnick 指出。

从逻辑上讲,可以利用这些知识了解为什么特定数据类型存在问题,从而纠正它们或通过完全删除它们来提高模型的准确性。根据 Minnick 的说法,越来越多的组织正意识到将“数据沿袭”应用到模型结果的好处,“部分原因是机器学习和人工智能在当今各个行业的兴起。它变得越来越普遍。去年,我们发布 AutoML 产品时,就是使用了“玻璃盒”来代表对数据来源的透明。”

监管后果以及其他 

一些组织还利用“数据沿袭”提供的自适应认知计算模型的能力,来增强其法规遵从能力。金融、医疗保健等行业受到高度监管,要求公司清楚地说明他们是如何为客户做出决策的。数据追溯为构建机器学习模型和理解模型结果创建了一张路线图——这对监管机构的合规性非常宝贵。

这些信息还有助于内部审计,使公司能够了解他们在哪些监管领域失职,以便可以纠正问题以防止违规。“能够向监管机构展示非常精细的数据沿袭信息,不仅是跨表格,而且可以在广泛的组织的任何地方使用这些数据,这非常重要,”Minnick 断言。当这一优势与数据来源提高模型准确性的思路不谋而合,这种方法很可能将成为部署该技术的最佳实践。

译者介绍

崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。曾任惠普技术专家。乐于分享,撰写了很多热门技术文章,阅读量超过60万。《分布式架构原理与实践》作者。

原文标题:A “Glass Box” Approach to Responsible Machine Learning​,作者:Jelani Harper​

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

4

2026.01.30

c++ 字符串格式化
c++ 字符串格式化

本专题整合了c++字符串格式化用法、输出技巧、实践等等内容,阅读专题下面的文章了解更多详细内容。

2

2026.01.30

java 字符串格式化
java 字符串格式化

本专题整合了java如何进行字符串格式化相关教程、使用解析、方法详解等等内容。阅读专题下面的文章了解更多详细教程。

1

2026.01.30

python 字符串格式化
python 字符串格式化

本专题整合了python字符串格式化教程、实践、方法、进阶等等相关内容,阅读专题下面的文章了解更多详细操作。

1

2026.01.30

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

20

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

16

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

18

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

3

2026.01.29

Java空对象相关教程合集
Java空对象相关教程合集

本专题整合了Java空对象相关教程,阅读专题下面的文章了解更多详细内容。

6

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 5万人学习

PostgreSQL 教程
PostgreSQL 教程

共48课时 | 8.1万人学习

Git 教程
Git 教程

共21课时 | 3.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号