讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI聊天问答 Agent智能体 AI文本写作 AI绘画作图 AI设计工具 AI视频创作 AI音频制作 AI办公学习 AI编程开发 AI提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

为什么 Spark 慢？

花韻仙語

发布时间：2024-12-02 10:07:02

|

482人浏览过

|

来源于dev.to

转载

为什么 spark 慢？

从一个引人注目的标题“spark 为什么这么慢？”开始，值得注意的是，称 spark“慢”可能意味着多种含义。聚合速度慢吗？数据加载？存在不同的情况。此外，“spark”是一个广泛的术语，其性能取决于编程语言和使用上下文等因素。因此，在深入讨论之前，让我们将标题改进得更加精确。

由于我主要在 databricks 上使用 spark 和 python，因此我将进一步缩小范围。

优化后的标题将是：

“spark 的第一印象：‘听说它很快，但为什么感觉很慢？’初学者的视角”

写作动机（随意的想法）

作为广泛使用 pandas、numpy 和机器学习库的人，我钦佩 spark 通过并行和分布式处理处理大数据的能力。当我最终在工作中使用 spark 时，我对它看起来比 pandas 慢的场景感到困惑。不确定出了什么问题，我发现了一些见解并想与大家分享。

你的火花什么时候会变慢？

在进入主题之前

我们简单介绍一下spark的基本架构。

为什么 Spark 慢？

（集群模式概述）

spark 集群由执行实际处理的 工作节点和协调和计划执行的驱动程序节点组成。这种架构会影响下面讨论的所有内容，因此请记住这一点。

现在，进入要点。

1. 数据集不够大

spark 针对大规模数据处理进行了优化，但它也可以处理小型数据集。然而，看看这个基准：

为什么 Spark 慢？

（在单节点机器上对 apache spark 进行基准测试）

结果表明，对于 15gb 以下的数据集，pandas 在聚合任务中优于 spark。为什么？简而言之，spark 优化的开销超过了小数据集的好处。

该链接显示了 spark 并不慢的情况，但这些情况通常处于本地集群模式。对于独立设置，由于节点之间的网络通信开销，较小的数据集可能是一个缺点。

pandas：在一台机器上处理内存中的所有内容，无需网络或存储 i/o。
spark：使用 rdd（弹性分布式数据集），涉及 workers 之间的网络通信（如果分布式），并会在组织数据以进行并行处理时产生开销。

2. 理解惰性求值

spark 采用惰性求值，这意味着转换不会立即执行，而是推迟到某个操作（例如收集、计数、显示）触发计算为止。

示例（熊猫）：

Imagine By Magic Studio

Imagine By Magic Studio

AI图片生成器，用文字制作图片

下载

df = spark.read.table("tpch.lineitem").limit(1000).topandas()
df["l_tax_percentage"] = df["l_tax"] * 100
for l_orderkey, group_df in df.groupby("l_orderkey"):
    print(l_orderkey, group_df["l_tax_percentage"].mean())

执行时间：3.04秒

spark 中的等效项：

from pyspark.sql import functions as f
sdf = spark.read.table("tpch.lineitem").limit(1000)
sdf = sdf.withcolumn("l_tax_percentage", f.col("l_tax") * 100)

for row in sdf.select("l_orderkey").distinct().collect():
    grouped_sdf = sdf.filter(f.col("l_orderkey") == row.l_orderkey).groupby("l_orderkey").agg(
        f.mean("l_tax_percentage").alias("avg_l_tax_percentage")
    )
    print(grouped_sdf.show())

执行时间：3分钟后仍在运行。

为什么？

惰性求值：所有转换都会排队，并且仅在表演等动作期间执行。
driver 到 worker 的通信：收集和显示等操作涉及从 workers 到 driver 的数据传输，导致延迟。

spark 代码在 pandas 中有效地执行了此操作：

for l_orderkey, group_df in df.groupby("l_orderkey"):
    df["l_tax_percentage"] = df["l_tax"] * 100
    print(l_orderkey, group_df["l_tax_percentage"].mean())

通过使用 spark 的缓存或重构逻辑以最大程度地减少重复计算来避免此类模式。

3. 注意随机播放

https://spark.apache.org/docs/latest/rdd-programming-guide.html#shuffle-operations

随机播放 当数据在 workers 之间重新分配时发生，通常是在 groupbykey、join 或重新分区等操作期间。随机播放可能会很慢，原因是：

节点之间的网络通信。
跨分区数据的全局排序和聚合。

例如，拥有更多 worker 并不总能提高洗牌期间的性能。

32gb x 8 workers 可能比 64gb x 4 workers 慢，因为较少的 workers 会减少节点间通信。

结论

您觉得这有帮助吗？如果有效使用，spark 是一个出色的工具。除了加速大规模数据处理之外，spark 还以其可扩展的资源管理而大放异彩，尤其是在云中。

尝试 spark 来优化您的数据运营和管理！

相关文章

如何在 Linux/macOS 系统中全面查找所有 Python 解释器安装

Python asyncio.sleep怎么用_模拟异步非阻塞耗时操作切出控制权替代time.sleep()

Python多数元素怎么找_摩尔投票法O(1)空间寻找众数

Python爬虫重试机制怎么写_Tenacity库装饰器实现网络异常自动重试与退避策略

Python异步上下文管理器_async with使用与__aenter__及__aexit__魔法方法实现资源管理

相关标签:

python apache 架构分布式 numpy pandas spark apache https 重构

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：周末任务下一篇：AoC ‘- 日历史学家歇斯底里（C# 和 Python）#剧透

作者最新文章

如何精准裁剪 div 以精确覆盖图像区域

2026-03-12 15:29

vscode怎么选中同一个标签

2026-03-12 15:36

Laravel Blade 组件中图片路径失效的根源与正确解决方案

2026-03-12 15:43

如何在 Windows 上实现文件独占锁（Go 语言兼容方案）

2026-03-12 16:13

Laravel Blade 组件中图片路径失效的根源与解决方案

2026-03-12 16:24

《宿命残响》德国开发者起诉发行商不作为 M站91分JRPG

2026-03-12 16:35

如何基于子字符串去重数组中的字符串元素

2026-03-12 16:39

JavaScript 中数组与 TypedArray 的内存分配机制解析

2026-03-12 16:55

PHP 中动态变量名的正确用法：避免 $$ 误用与数组赋值陷阱

2026-03-12 17:13

《狼人：内在野兽》Steam版5月6日发售性感女主上阵

2026-03-12 17:31

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

更多

什么是分布式

什么是分布式

分布式是一种计算和数据处理的方式，将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容，供大家免费下载体验。

407

2023.08.11

分布式和微服务的区别

分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容，供大家免费下载体验。

251

2023.10.07

Python 时间序列分析与预测

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

80

2025.12.04

Python 数据清洗与预处理实战

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

32

2026.01.31

常用的数据库软件

常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1006

2023.11.02

apache是什么意思

apache是什么意思

Apache是Apache HTTP Server的简称，是一个开源的Web服务器软件。是目前全球使用最广泛的Web服务器软件之一，由Apache软件基金会开发和维护，Apache具有稳定、安全和高性能的特点，得益于其成熟的开发和广泛的应用实践，被广泛用于托管网站、搭建Web应用程序、构建Web服务和代理等场景。本专题为大家提供了Apache相关的各种文章、以及下载和课程，希望对各位有所帮助。

421

2023.08.23

apache启动失败

apache启动失败

Apache启动失败可能有多种原因。需要检查日志文件、检查配置文件等等。想了解更多apache启动的相关内容，可以阅读本专题下面的文章。

939

2024.01.16

Java 流式处理与 Apache Kafka 实战

Java 流式处理与 Apache Kafka 实战

本专题专注讲解 Java 在流式数据处理与消息队列系统中的应用，系统讲解 Apache Kafka 的基础概念、生产者与消费者模型、Kafka Streams 与 KSQL 流式处理框架、实时数据分析与监控，结合实际业务场景，帮助开发者构建高吞吐量、低延迟的实时数据流管道，实现高效的数据流转与处理。

173

2026.02.04

C# ASP.NET Core微服务架构与API网关实践

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

最新Python教程从入门到精通

最新Python教程从入门到精通

共4课时 | 22.5万人学习

Django 教程

Django 教程

共28课时 | 5万人学习

SciPy 教程

SciPy 教程

共10课时 | 1.9万人学习

最新文章

更多

Django Channels怎么用_实现实时聊天室与推送通知全流程

Python怎么打开文件_open()函数与r/w/a读写模式详解

如何在 PyYAML 中正确序列化 pathlib.Path 对象

Dash App 多下拉框联动失效的常见原因与修复方案

递归实现网格中未受保护单元格计数的正确范式

用递归模拟守卫视线：解决网格中未受保护单元格计数问题

递归实现网格中未受保护单元格计数的正确方法（DFS方向分解技巧）

如何正确存储并调用函数对象以实现按需执行

如何正确存储并调用函数对象以避免意外执行

如何在 Python for 循环中实现失败重试机制（不跳过当前元素）

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部