0

0

从 Java 应用向 Bash 脚本传递 Spark 提交参数的正确方法

花韻仙語

花韻仙語

发布时间:2025-10-02 19:47:01

|

540人浏览过

|

来源于php中文网

原创

从 java 应用向 bash 脚本传递 spark 提交参数的正确方法

本文旨在解决从 Java 应用程序向 Bash 脚本传递包含 Spark 提交配置的长字符串参数时可能遇到的问题。我们将深入探讨如何正确构造和传递参数,以避免常见的类加载错误,并确保 Spark 任务能够顺利执行。通过清晰的代码示例和详细的解释,你将学会如何有效地管理 Spark 配置,并在 Java 和 Bash 脚本之间安全地传递它们。

在将 Spark 任务的配置从 Java 应用程序传递到 Bash 脚本时,直接将包含所有配置的字符串作为参数传递可能会导致问题,尤其是当配置字符串很长且包含特殊字符时。常见的错误是 Error: Failed to load class,这通常表明 Spark 无法正确解析传递的配置。

解决此问题的关键在于确保 Bash 脚本正确接收和解释配置字符串。以下是一些推荐的方法和注意事项:

1. 使用 EOF (Here Document) 定义配置字符串

立即学习Java免费学习笔记(深入)”;

在 Bash 脚本中使用 EOF(End-of-File)标记定义配置字符串,可以避免转义和引号问题。

CONF=$(cat << EOF
--class com.at.es_parent_child.SegmentIcebergEsV2 \
--master yarn \
--deploy-mode client \
--queue llap \
--num-executors 3 \
--driver-memory 1024m \
--executor-memory 1024m \
--executor-cores 4 \
--name '[564889711]es_parent_child.[0].1668574353481' \
--conf spark.executor.extraClassPath=/etc/hbase/conf \
--conf spark.driver.extraClassPath=/etc/hbase/conf \
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer \
--conf spark.max.executor.failures=100 \
--conf spark.rdd.compress=true \
--conf spark.sql.debug.maxToStringFields=2000 \
--conf spark.sql.hive.convertMetastoreParquet=false \
--conf spark.default.parallelism=50 \
--conf spark.debug.maxToStringFields=2000 \
--conf hbase.defaults.for.version.skip=true \
--conf spark.yarn.executor.memoryOverhead=1024 \
--conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog \
--conf spark.sql.catalog.spark_catalog.type=hive \
--conf spark.sql.catalog.iceberg=org.apache.iceberg.spark.SparkCatalog \
--conf spark.sql.catalog.iceberg.type=hive \
--conf spark.sql.adaptive.coalescePartitions.enabled=true \
--files /etc/hbase/conf/hbase-site.xml,/usr/hdp/current/hive-client/conf/hive-site.xml
EOF
)

sudo -u cdpcore /bin/sh /build/iceberg/spark-3.0.1-bin-hadoop2.7/bin/spark-submit "$CONF" --jars $(echo $JAR_LIB/*.jar | tr ' ' ',') $JAR_MAIN "$2" $3 $4 $5 &

注意:

  • EOF 标记必须单独成行,且前后不能有任何空格或制表符。
  • 在定义配置字符串时,使用反斜杠 \ 进行换行,以提高可读性。
  • 确保 --name 参数中的方括号使用单引号括起来,以防止 Bash 解释为通配符。
  • 在调用 spark-submit 时,务必使用双引号将 $CONF 变量括起来,即 "$CONF",以防止单词分割。

2. 在 Java 中构建命令数组时,避免将所有配置放在一个字符串中

最佳实践是将每个配置选项作为数组中的一个单独元素传递。 这样可以避免复杂的字符串转义和引号问题。

String[] cmd = {
    "/bin/sh",
    System.getProperty("user.dir") + "/spark_job.sh",
    "--class", "com.at.es_parent_child.SegmentIcebergEsV2",
    "--master", "yarn",
    "--deploy-mode", "client",
    "--queue", "llap",
    "--num-executors", "3",
    "--driver-memory", "1024m",
    "--executor-memory", "1024m",
    "--executor-cores", "4",
    "--name", "[564889711]es_parent_child.[0].1668574353481",
    "--conf", "spark.executor.extraClassPath=/etc/hbase/conf",
    "--conf", "spark.driver.extraClassPath=/etc/hbase/conf",
    "--conf", "spark.serializer=org.apache.spark.serializer.KryoSerializer",
    "--conf", "spark.max.executor.failures=100",
    "--conf", "spark.rdd.compress=true",
    "--conf", "spark.sql.debug.maxToStringFields=2000",
    "--conf", "spark.sql.hive.convertMetastoreParquet=false",
    "--conf", "spark.default.parallelism=50",
    "--conf", "spark.debug.maxToStringFields=2000",
    "--conf", "hbase.defaults.for.version.skip=true",
    "--conf", "spark.yarn.executor.memoryOverhead=1024",
    "--conf", "spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog",
    "--conf", "spark.sql.catalog.spark_catalog.type=hive",
    "--conf", "spark.sql.catalog.iceberg=org.apache.iceberg.spark.SparkCatalog",
    "--conf", "spark.sql.catalog.iceberg.type=hive",
    "--conf", "spark.sql.adaptive.coalescePartitions.enabled=true",
    "--files", "/etc/hbase/conf/hbase-site.xml,/usr/hdp/current/hive-client/conf/hive-site.xml",
    zKUrl,
    "" + task.getPortalId(),
    task.getJobId(),
    "" + task.getIndexCode()
};

3. 使用配置文件

TTSMaker
TTSMaker

TTSMaker是一个免费的文本转语音工具,提供语音生成服务,支持多种语言。

下载

将 Spark 配置存储在单独的配置文件中,并在 Java 应用程序和 Bash 脚本中引用该文件。这可以简化参数传递,并使配置更易于管理。

Bash 脚本:

CONF_FILE="/path/to/spark-defaults.conf"
sudo -u cdpcore /bin/sh /build/iceberg/spark-3.0.1-bin-hadoop2.7/bin/spark-submit --properties-file "$CONF_FILE" --jars $(echo $JAR_LIB/*.jar | tr ' ' ',') $JAR_MAIN "$2" $3 $4 $5 &

Java 应用程序:

无需传递配置,只需确保 Bash 脚本中的 CONF_FILE 变量指向正确的配置文件。

4. 检查类路径

Error: Failed to load class 错误也可能是由于类路径问题引起的。 确保所有必需的 JAR 文件都包含在 Spark 驱动程序和执行器的类路径中。

总结

通过使用 EOF 定义配置字符串、将配置选项作为单独的数组元素传递,或使用配置文件,可以有效地解决从 Java 应用程序向 Bash 脚本传递 Spark 提交参数时遇到的问题。选择哪种方法取决于你的具体需求和偏好。 无论选择哪种方法,请务必仔细检查配置字符串的语法,并确保所有必需的 JAR 文件都包含在类路径中。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

492

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

382

2023.10.25

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1567

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

1228

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

1204

2024.04.29

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

37

2026.03.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 4.4万人学习

C# 教程
C# 教程

共94课时 | 11.2万人学习

Java 教程
Java 教程

共578课时 | 81.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号