0

0

你要了解数据科学团队中的这些角色

王林

王林

发布时间:2023-04-11 21:55:11

|

1773人浏览过

|

来源于51CTO.COM

转载

译者 | 李睿

审校 | 孙淑娟

全球知名的流媒体服务商Netflix公司在2017年将其五星级评级系统更改为“拇指向上”(喜欢)和“拇指向下”(不喜欢)简单的评价系统。该系统可以根据百分比匹配来推荐电影,但也有人对这一做法很反感。那么如何将电影艺术中所有的细微差别简化为一种原始的二元反应?    

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

你要了解数据科学团队中的这些角色

实际上,Netflix公司发现人们对那些他们认为很好的电影给予了很高的评价,但不一定是他们真正喜欢观看的电影。至少数据是这么描述的。那么数据分析在像Netflix这样的公司中是如何工作的?数据科学团队的角色是什么?  

Netflix反馈系统  

Gibson Biddle是Netflix公司的前副总裁兼首席产品官。在谈到消费者洞察时,他对导致整个评级系统发生变化的意外客户行为进行了解释。在转换成百分比匹配时,Netflix表示虽然观众可能喜欢观看亚当·桑德勒主演的喜剧,但给出的评价可能只有三颗星;而观众对观看《辛德勒的名单》这部电影感觉很好,并给出五颗星的评价,但这并不会增加其整体乐趣,让订阅者满意对Netflix来说是至关重要的。因此,他们简化了反馈系统以避免偏差。但是这些对客户的洞察本身就令人印象深刻,如果没有促进数据使用的文化和强大的数据基础设施这个因素,它们是不可能实现的。用技术术语来说,这被称为数据驱动的组织。    

数据驱动的组织

人们可能多次听到“数据驱动”这个流行术语,但它的真正含义是什么?仅Netflix公司每天就记录超过7000亿个事件,从登录和点击电影缩略图到暂停视频和打开字幕。所有这些数据都可供用户使用。任何人都可以使用tableau或Jupiter等可视化工具访问它,或者他们可以通过大数据门户访问它——这是一个允许用户检查报告、生成报告或查询他们需要的任何信息的环境。然后,这些数据用于制定业务决策,从较小的缩略图(例如展示哪些缩略图)到企业的决策(例如Netflix公司下一步应该投资和推出哪些节目)。  

数据驱动的组织并非只有Netflix公司一家。据估计,财富1000强企业中约有97%的企业投资于人工智能和大数据等项目。以下了解真正的数据基础设施技术和使其运营的数据工程师。

数据基础设施技术

为了描述数据基础设施的工作原理,技术人员借用了通常运输液体或气体的“管道”这一术语。数据管道有自己的起点、终点和中间站。所以这是一个非常贴切的比喻。数据的来源可能是任何事务,从点击保留按钮和刷新页面到与客户支持的对话记录,从车辆跟踪设备到发电厂的涡轮振动传感器。在当今世界,实际上很难说有什么不能生成数据,即使没有数据也能告诉人们一些事情。

一旦生成数据项,它就会沿着管道到达暂存区域。这是保存所有原始数据的地方。原始数据尚未准备好使用。你必须做好准备。如果没有做,必须填补空白,更改其格式或合并来自不同来源的数据,以获得更细致的观察。一旦完成这些操作,就会获得结构化和干净的数据。所有这些操作都是自动进行的。它们用两个词语来描述。

  • 提取:从数据源中提取数据并将其送到暂存区域。
  • 转换:准备数据以供使用并加载将准备好的数据进一步推入ETL。

所有准备好的数据都进入另一个存储器,即数据仓库。

数据仓库

与暂存区域不同,数据仓库是所有存储记录都进行结构化并准备使用的地方。就像图书馆的分类系统一样,可以查询、可视化和下载仓库的信息。为此,必须拥有商业智能(BI)软件。它将数据呈现给最终用户。  

数据列表和业务分析师

数据列表和业务分析师是执行基本任务的人员。他们访问数据、探索数据、将其可视化,并尝试使其具有商业意义。例如,企业的营销活动成功吗?表现最差的渠道是什么?它们就像一个感官系统,通过历史数据为企业提供支持,并为管理层以及最终决策者提供见解。

AI Room Planner
AI Room Planner

AI 室内设计工具,免费为您的房间提供上百种设计方案

下载

数据工程师

数据工程师负责构建整个管道。大多数技术人员都精通所谓的“管道”。通过管道将数据从源头移动到目的地,并在途中对其进行转换。他们设计管道架构、设置ETL流程、配置仓库,并将其与报告工具连接起来。例如,Airbnb公司拥有约50名数据工程师。该公司有时可能会遇到涉及一些额外规则的更精细的方法。例如,数据质量工程师确保正确捕获和转换数据。当试图从中得出决策时,拥有有偏见或不正确的数据代价太高。可能有单独的工程师仅负责ETL。此外,商业智能开发人员只专注于集成报告和可视化工具。然而,报告工具并不会成为头条新闻,数据工程师也不是21世纪的最佳工作,但机器学习和数据科学家可能是。  

机器学习和数据科学家

众所周知的是,数据科学家特别擅长收集数据并回答有关数据的复杂问题,例如企业下个季度的收入是多少?优步预约的汽车什么时候到达?喜欢《辛德勒名单》和《原钻》的可能性有多大?

实际上有两种方法可以回答这些问题。数据科学家像业务分析师和数据分析师一样使用商业智能工具和仓库数据。所以,他们会从仓库中获取数据。有时数据科学家会使用数据湖:另一种存储非结构化欺诈数据的存储类型。他们将创建一个预测模型,并提出可供管理层使用的预测。它适用于收入估算的一次性报告,但对预测优步预约汽车的到达时间没有帮助。

机器学习的真正价值在于生产模型可以自动工作,并定期生成复杂问题的答案,有时每秒生成数千次,用它们处理的事情要复杂得多。

生产机器学习模型

为了使模型工作,还需要基础设施。有时这是一个很大的问题。数据科学家探索数据仓库和数据湖中的数据,对其进行实验,选择算法,并训练模型以产生最终的机器学习代码。这需要对统计数据库、机器学习算法和学科领域有深入的理解。

SLAC公司前数据工程负责人Josh Wills在推特上表示,“数据科学家是比任何软件工程都更擅长统计学的人。”

例如订餐者使用ubereats 软件点餐。用户一旦确认订单,该应用程序必须估计交付时间、订餐者的位置、餐厅和订单数据发送到部署了交付预测机器学习模型的服务器。但这些数据还不足够。该模型还从一个单独的数据库中获取额外数据,其中包含餐厅准备的平均时间和其他详细信息。一旦有了所有的数据,模型会向订餐者返回预测。然而,这一过程并没有就此结束。预测本身保存在一个单独的数据库中。它将针对监控模型性能,并通过分析工具探索模型,以便稍后对其进行更新。所有这些数据最终都会出现在数据湖和数据仓库中。  

实际上,仅ubereats订餐服务就使用了数百种不同的模型同时工作,对推荐进行评分,对餐厅进行搜索排名,并估计送货时间。

结论

Foursquare公司核心技术负责人Adam Waxman认为,未来将不再有数据科学家或机器学习工程师这些职位,因为随着模型训练的自动化和持续构建生产环境,许多数据科学家的工作将成为软件开发中的常见功能。

原文标题:Roles in Data Science Teams,作者:Anomi Ragendran

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

14

2026.01.30

c++ 字符串格式化
c++ 字符串格式化

本专题整合了c++字符串格式化用法、输出技巧、实践等等内容,阅读专题下面的文章了解更多详细内容。

9

2026.01.30

java 字符串格式化
java 字符串格式化

本专题整合了java如何进行字符串格式化相关教程、使用解析、方法详解等等内容。阅读专题下面的文章了解更多详细教程。

12

2026.01.30

python 字符串格式化
python 字符串格式化

本专题整合了python字符串格式化教程、实践、方法、进阶等等相关内容,阅读专题下面的文章了解更多详细操作。

4

2026.01.30

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

20

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

18

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

19

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

3

2026.01.29

Java空对象相关教程合集
Java空对象相关教程合集

本专题整合了Java空对象相关教程,阅读专题下面的文章了解更多详细内容。

6

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 9.8万人学习

CSS3 教程
CSS3 教程

共18课时 | 5万人学习

Rust 教程
Rust 教程

共28课时 | 5.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号