从 Java 应用向 Bash 脚本传递 Spark 提交参数的正确方法

花韻仙語

发布时间：2025-10-02 19:47:01

540人浏览过

来源于php中文网

原创

从 java 应用向 bash 脚本传递 spark 提交参数的正确方法

本文旨在解决从 Java 应用程序向 Bash 脚本传递包含 Spark 提交配置的长字符串参数时可能遇到的问题。我们将深入探讨如何正确构造和传递参数，以避免常见的类加载错误，并确保 Spark 任务能够顺利执行。通过清晰的代码示例和详细的解释，你将学会如何有效地管理 Spark 配置，并在 Java 和 Bash 脚本之间安全地传递它们。

在将 Spark 任务的配置从 Java 应用程序传递到 Bash 脚本时，直接将包含所有配置的字符串作为参数传递可能会导致问题，尤其是当配置字符串很长且包含特殊字符时。常见的错误是 Error: Failed to load class，这通常表明 Spark 无法正确解析传递的配置。

解决此问题的关键在于确保 Bash 脚本正确接收和解释配置字符串。以下是一些推荐的方法和注意事项：

1. 使用 EOF (Here Document) 定义配置字符串

立即学习“Java免费学习笔记（深入）”；

在 Bash 脚本中使用 EOF（End-of-File）标记定义配置字符串，可以避免转义和引号问题。

CONF=$(cat << EOF
--class com.at.es_parent_child.SegmentIcebergEsV2 \
--master yarn \
--deploy-mode client \
--queue llap \
--num-executors 3 \
--driver-memory 1024m \
--executor-memory 1024m \
--executor-cores 4 \
--name '[564889711]es_parent_child.[0].1668574353481' \
--conf spark.executor.extraClassPath=/etc/hbase/conf \
--conf spark.driver.extraClassPath=/etc/hbase/conf \
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer \
--conf spark.max.executor.failures=100 \
--conf spark.rdd.compress=true \
--conf spark.sql.debug.maxToStringFields=2000 \
--conf spark.sql.hive.convertMetastoreParquet=false \
--conf spark.default.parallelism=50 \
--conf spark.debug.maxToStringFields=2000 \
--conf hbase.defaults.for.version.skip=true \
--conf spark.yarn.executor.memoryOverhead=1024 \
--conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog \
--conf spark.sql.catalog.spark_catalog.type=hive \
--conf spark.sql.catalog.iceberg=org.apache.iceberg.spark.SparkCatalog \
--conf spark.sql.catalog.iceberg.type=hive \
--conf spark.sql.adaptive.coalescePartitions.enabled=true \
--files /etc/hbase/conf/hbase-site.xml,/usr/hdp/current/hive-client/conf/hive-site.xml
EOF
)

sudo -u cdpcore /bin/sh /build/iceberg/spark-3.0.1-bin-hadoop2.7/bin/spark-submit "$CONF" --jars $(echo $JAR_LIB/*.jar | tr ' ' ',') $JAR_MAIN "$2" $3 $4 $5 &

注意:

EOF 标记必须单独成行，且前后不能有任何空格或制表符。
在定义配置字符串时，使用反斜杠 \ 进行换行，以提高可读性。
确保 --name 参数中的方括号使用单引号括起来，以防止 Bash 解释为通配符。
在调用 spark-submit 时，务必使用双引号将 $CONF 变量括起来，即 "$CONF"，以防止单词分割。

2. 在 Java 中构建命令数组时，避免将所有配置放在一个字符串中

最佳实践是将每个配置选项作为数组中的一个单独元素传递。这样可以避免复杂的字符串转义和引号问题。

String[] cmd = {
    "/bin/sh",
    System.getProperty("user.dir") + "/spark_job.sh",
    "--class", "com.at.es_parent_child.SegmentIcebergEsV2",
    "--master", "yarn",
    "--deploy-mode", "client",
    "--queue", "llap",
    "--num-executors", "3",
    "--driver-memory", "1024m",
    "--executor-memory", "1024m",
    "--executor-cores", "4",
    "--name", "[564889711]es_parent_child.[0].1668574353481",
    "--conf", "spark.executor.extraClassPath=/etc/hbase/conf",
    "--conf", "spark.driver.extraClassPath=/etc/hbase/conf",
    "--conf", "spark.serializer=org.apache.spark.serializer.KryoSerializer",
    "--conf", "spark.max.executor.failures=100",
    "--conf", "spark.rdd.compress=true",
    "--conf", "spark.sql.debug.maxToStringFields=2000",
    "--conf", "spark.sql.hive.convertMetastoreParquet=false",
    "--conf", "spark.default.parallelism=50",
    "--conf", "spark.debug.maxToStringFields=2000",
    "--conf", "hbase.defaults.for.version.skip=true",
    "--conf", "spark.yarn.executor.memoryOverhead=1024",
    "--conf", "spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog",
    "--conf", "spark.sql.catalog.spark_catalog.type=hive",
    "--conf", "spark.sql.catalog.iceberg=org.apache.iceberg.spark.SparkCatalog",
    "--conf", "spark.sql.catalog.iceberg.type=hive",
    "--conf", "spark.sql.adaptive.coalescePartitions.enabled=true",
    "--files", "/etc/hbase/conf/hbase-site.xml,/usr/hdp/current/hive-client/conf/hive-site.xml",
    zKUrl,
    "" + task.getPortalId(),
    task.getJobId(),
    "" + task.getIndexCode()
};

3. 使用配置文件

TTSMaker

TTSMaker是一个免费的文本转语音工具，提供语音生成服务，支持多种语言。

下载

将 Spark 配置存储在单独的配置文件中，并在 Java 应用程序和 Bash 脚本中引用该文件。这可以简化参数传递，并使配置更易于管理。

Bash 脚本：

CONF_FILE="/path/to/spark-defaults.conf"
sudo -u cdpcore /bin/sh /build/iceberg/spark-3.0.1-bin-hadoop2.7/bin/spark-submit --properties-file "$CONF_FILE" --jars $(echo $JAR_LIB/*.jar | tr ' ' ',') $JAR_MAIN "$2" $3 $4 $5 &

Java 应用程序：

无需传递配置，只需确保 Bash 脚本中的 CONF_FILE 变量指向正确的配置文件。

4. 检查类路径

Error: Failed to load class 错误也可能是由于类路径问题引起的。确保所有必需的 JAR 文件都包含在 Spark 驱动程序和执行器的类路径中。

总结

通过使用 EOF 定义配置字符串、将配置选项作为单独的数组元素传递，或使用配置文件，可以有效地解决从 Java 应用程序向 Bash 脚本传递 Spark 提交参数时遇到的问题。选择哪种方法取决于你的具体需求和偏好。无论选择哪种方法，请务必仔细检查配置字符串的语法，并确保所有必需的 JAR 文件都包含在类路径中。

怎么在Java中实现类的继承_extends关键字与单继承机制详解

如何精准提取 XML/HTML 中特定标签的纯文本内容（排除子元素文本）

Java里的java.util.Scanner读取控制台乱码怎么办_指定编码格式

如何实现Java的外部序列化接口Externalizable_精确控制读写过程

如何高效找出集合中缺失的元素

相关专题

scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

492

2023.10.18

500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

382

2023.10.25

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

760

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1567

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1228

2024.03.22

php中定义字符串的方式

php中定义字符串的方式：单引号；双引号；heredoc语法等等。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

1204

2024.04.29

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

热门下载

网站特效

网站源码

网站素材

前端模板