0

0

Spark专题系列(三):Spark运行模式

絕刀狂花

絕刀狂花

发布时间:2025-07-20 08:40:35

|

803人浏览过

|

来源于php中文网

原创

一:spark运行模式分类

Spark的运行模式可以分为三类:

本地模式(local),适用于演示或测试,通常在Shell命令行中运行。

独立模式(standalone),可以在一个集群中独立运行,利用Spark自身的资源调度方式。

Yarn/Mesos模式,运行在资源管理器上,例如Yarn或Mesos。

其中,Spark on Yarn又分为两种子模式:

  • Yarn-client模式
  • Yarn-cluster模式

二:Spark各运行模式的应用场景

1、本地模式:

  • 以多线程的方式在本地运行一个应用程序。

本地模式的分类包括:

Local:只启动一个executor。

Local[K]:启动K个executor。

Local[*]:启动与CPU数目相同的executor。

Magic AI Avatars
Magic AI Avatars

神奇的AI头像,获得200多个由AI制作的自定义头像。

下载

2、独立模式(Standalone):

  • 是一种独立的运行模式,具备完整的服务,可以独立部署在集群中,无需依赖其他资源管理系统。
  • 由master和slaves服务组成,最初master存在单点故障问题,后来通过zookeeper解决。
  • 各个节点上的资源被抽象成粗粒度的slot,slot的数量决定了能同时运行的task数量。

3、Spark on Yarn:

  • 在Yarn资源管理器框架上运行,由Yarn负责资源管理,而Spark负责任务调度和计算。

3.1、Spark Yarn-client模式:

  • 适用于交互和调试,客户端可以看到应用程序的输出。

Spark专题系列(三):Spark运行模式

3.2、Spark Yarn-cluster模式:

  • 通常用于生产环境,作业直接在Yarn上执行,客户端无法感知。
  • 在线上生产环境中,大多数采用YARN-cluster模式(除非你的大数据框架未使用Hadoop,可以考虑使用Mesos)。

Spark专题系列(三):Spark运行模式

三:Yarn-client与Yarn-cluster的区分

Yarn-client与Yarn-cluster的区分:

广义区分:

  • Yarn-client:适用于交互和调试,客户端可以看到应用程序的输出。
  • Yarn-cluster:通常用于生产环境。

深层次区分:

  1. Yarn-cluster和Yarn-client模式的区别主要在于Application Master进程的不同。
  2. 在Yarn-cluster模式下,driver运行在AM(Application Master)中,负责向YARN申请资源,并监督作业的运行状况。用户提交作业后,可以关闭客户端,作业将继续在YARN上运行。
  3. 在Yarn-client模式下,Application Master仅向YARN请求executor,客户端将与请求的container通信来调度它们的工作。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

765

2023.08.10

Python 多线程与异步编程实战
Python 多线程与异步编程实战

本专题系统讲解 Python 多线程与异步编程的核心概念与实战技巧,包括 threading 模块基础、线程同步机制、GIL 原理、asyncio 异步任务管理、协程与事件循环、任务调度与异常处理。通过实战示例,帮助学习者掌握 如何构建高性能、多任务并发的 Python 应用。

377

2025.12.24

java多线程相关教程合集
java多线程相关教程合集

本专题整合了java多线程相关教程,阅读专题下面的文章了解更多详细内容。

32

2026.01.21

C++多线程相关合集
C++多线程相关合集

本专题整合了C++多线程相关教程,阅读专题下面的的文章了解更多详细内容。

29

2026.01.21

C# 多线程与异步编程
C# 多线程与异步编程

本专题深入讲解 C# 中多线程与异步编程的核心概念与实战技巧,包括线程池管理、Task 类的使用、async/await 异步编程模式、并发控制与线程同步、死锁与竞态条件的解决方案。通过实际项目,帮助开发者掌握 如何在 C# 中构建高并发、低延迟的异步系统,提升应用性能和响应速度。

103

2026.02.06

hadoop是什么
hadoop是什么

hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。本专题为大家免费提供hadoop相关的文章、下载和课程。

217

2023.06.30

hadoop三大核心组件介绍
hadoop三大核心组件介绍

Hadoop的三大核心组件分别是:Hadoop Distributed File System(HDFS)、MapReduce和Yet Another Resource Negotiator(YARN)。想了解更多hadoop的相关内容,可以阅读本专题下面的文章。

414

2024.03.13

hadoop的核心
hadoop的核心

hadoop的核心由分布式文件系统 (hdfs) 和资源管理框架 (mapreduce) 组成。想了解更多hadoop的相关内容,可以阅读本专题下面的文章。

348

2024.05.16

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
NPM包管理工具精讲课程
NPM包管理工具精讲课程

共8课时 | 0.9万人学习

10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号