0

0

SLURM 并行处理:在多个文件上运行相同的 Python 脚本

心靈之曲

心靈之曲

发布时间:2025-09-23 18:13:22

|

931人浏览过

|

来源于php中文网

原创

slurm 并行处理:在多个文件上运行相同的 python 脚本

本文档旨在指导用户如何使用 SLURM 作业调度器在多个输入文件上并行运行同一个 Python 脚本。文章详细解释了 SLURM 脚本的编写,着重讲解了如何正确配置节点和任务数量,以及如何使用 srun 命令有效地分配任务到各个节点,以实现最大程度的并行化。此外,还介绍了使用 SLURM 作业数组的替代方案,并比较了两种方法的优缺点。

SLURM 脚本配置

在使用 SLURM 并行运行脚本时,正确配置 SLURM 脚本至关重要。以下是一些关键参数的解释:

  • --nodes: 指定要请求的节点数量。集群中每个节点的 CPU 数量取决于具体的硬件配置。
  • --ntasks: 指定要请求的总任务数量。
  • --ntasks-per-node: 指定每个节点上允许运行的最大任务数量。如果指定了 --ntasks,则此参数表示每个节点上允许的最大任务数;否则,它表示每个节点上运行的任务的确切数量。

为了避免节点超额订阅,建议使用 --ntasks 和 --cpus-per-task 参数,尤其是在同构集群中。

使用 srun 命令

srun 命令用于在 SLURM 分配的资源上立即运行作业。在 sbatch 脚本中,srun 允许用户从已分配的资源中选择用于运行任务。

立即学习Python免费学习笔记(深入)”;

以下是一个示例 SLURM 脚本,展示了如何使用 srun 在多个文件上并行运行 Python 脚本:

#!/bin/bash
#SBATCH --nodes=8
#SBATCH --ntasks-per-node=128

INPUT_DIR='path/to/input/dir'
OUTPUT_DIR='/path/to/output/dir'

# Read the file names into an array
INPUT_STEMS_FILE='/some/path/to/list/of/inputs.txt'
INPUT_STEMS=()
while IFS= read -r line; do
  INPUT_STEMS+=("$line")
done < <(tr -d '\r' < INPUT_STEMS_FILE)

for j in `seq 0 $(( ${#INPUT_STEMS[@]} - 1 ))`; do
  # Iterate over the indices for each of the N files

  # Round-robin allocation to nodes (0, 1, ..., 8, 0, 1, ...)
  NODE_NUMBER=$(($j % $SLURM_NNODES))

  # Dynamically generate filename
  INPUT_FILE_NAME="$INPUT_DIR/${INPUT_STEMS[$j]}.txt"
  OUTPUT_FILE_NAME="$OUTPUT_DIR/$j.txt"

  # Run a job on 1 task on 1 node, using the round-robin allocation.
  # The jobs run on different nodes, this way
  srun -N1 -n1 -w ${SLURM_NODELIST} --nodelist=$(hostname -s)$((NODE_NUMBER)) python_script.py --input $INPUT_FILE_NAME > $OUTPUT_FILE_NAME &
done

wait

代码解释:

  1. 读取输入文件列表: 脚本首先从 INPUT_STEMS_FILE 读取输入文件名,并将它们存储在 INPUT_STEMS 数组中。
  2. 循环遍历文件: 使用 for 循环遍历 INPUT_STEMS 数组中的每个文件。
  3. 循环分配节点: 使用取模运算 (%) 将任务以循环方式分配给各个节点。$SLURM_NNODES 变量包含分配的节点总数。
  4. 动态生成文件名: 根据循环索引 j 动态生成输入和输出文件名。
  5. 使用 srun 运行任务: srun 命令用于在指定的节点上运行 Python 脚本。
    • -N1: 指定每个任务使用 1 个节点。
    • -n1: 指定每个任务运行在 1 个核心上。
    • -w ${SLURM_NODELIST}: 限制任务只能在分配的节点上运行。
    • --nodelist=$(hostname -s)$((NODE_NUMBER)): 指定任务运行的节点。 hostname -s 获取当前节点的主机名,然后加上循环分配的节点编号。
    • python_script.py --input $INPUT_FILE_NAME > $OUTPUT_FILE_NAME: 运行 Python 脚本,并将输出重定向到指定的文件。
    • &: 将任务放入后台运行。
  6. wait 命令: wait 命令确保所有后台任务完成后脚本才会退出。

注意事项:

Android游戏框架AndEngine使用入门 WORD版
Android游戏框架AndEngine使用入门 WORD版

本文档主要讲述的是Android游戏框架AndEngine使用入门;AndEngine是一款以OpenGLES方式进行画面渲染的2D游戏引擎,可以运行在支持Android 1.6及以上版本的系统当中。应该说,相较前文介绍的Libgdx引擎,AndEngine拥有更多的游戏组件与扩展功能。并且与Libgdx不同,它在默认情况下已经可以支持中文,采用屏幕坐标系绘也更符合一般Android绘图习惯。希望本文档会给有需要的朋友带来帮助;感兴趣的朋友可以过来看看

下载
  • 确保 INPUT_DIR 和 OUTPUT_DIR 路径正确。
  • python_script.py 脚本必须能够处理单个输入文件并生成相应的输出文件。
  • 根据实际情况调整 --nodes 和 --ntasks-per-node 参数。
  • 这个脚本假设节点名称的格式是 -。如果你的集群节点命名方式不同,你需要相应地修改 --nodelist 参数。

使用 SLURM 作业数组

SLURM 作业数组是另一种并行处理多个任务的方法。使用作业数组,可以创建多个作业,每个作业处理一个输入文件。

优点:

  • 易于使用。
  • SLURM 会自动管理任务分配。

缺点:

  • 会创建大量的作业,可能对调度器造成压力。

以下是一个使用 SLURM 作业数组的示例脚本:

#!/bin/bash
#SBATCH --array=0-999

INPUT_DIR='path/to/input/dir'
OUTPUT_DIR='/path/to/output/dir'

INPUT_STEMS_FILE='/some/path/to/list/of/inputs.txt'

# Read the file names into an array
INPUT_STEMS=()
while IFS= read -r line; do
  INPUT_STEMS+=("$line")
done < <(tr -d '\r' < INPUT_STEMS_FILE)


TASK_ID=$SLURM_ARRAY_TASK_ID

INPUT_FILE_NAME="$INPUT_DIR/${INPUT_STEMS[$TASK_ID]}.txt"
OUTPUT_FILE_NAME="$OUTPUT_DIR/$TASK_ID.txt"

python_script.py --input $INPUT_FILE_NAME > $OUTPUT_FILE_NAME

代码解释:

  1. #SBATCH --array=0-999: 创建 1000 个作业,作业 ID 从 0 到 999。
  2. TASK_ID=$SLURM_ARRAY_TASK_ID: 获取当前作业的 ID。
  3. 根据 TASK_ID 动态生成输入和输出文件名。
  4. 运行 Python 脚本,并将输出重定向到指定的文件。

总结

本文档介绍了两种使用 SLURM 在多个文件上并行运行 Python 脚本的方法:使用 srun 命令和使用 SLURM 作业数组。选择哪种方法取决于具体的需求和集群配置。使用 srun 命令可以更精细地控制任务分配,而作业数组则更易于使用。无论选择哪种方法,都需要仔细配置 SLURM 脚本,以确保任务能够有效地并行运行。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
点击input框没有光标怎么办
点击input框没有光标怎么办

点击input框没有光标的解决办法:1、确认输入框焦点;2、清除浏览器缓存;3、更新浏览器;4、使用JavaScript;5、检查硬件设备;6、检查输入框属性;7、调试JavaScript代码;8、检查页面其他元素;9、考虑浏览器兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

186

2023.11.24

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

14

2026.01.30

c++ 字符串格式化
c++ 字符串格式化

本专题整合了c++字符串格式化用法、输出技巧、实践等等内容,阅读专题下面的文章了解更多详细内容。

9

2026.01.30

java 字符串格式化
java 字符串格式化

本专题整合了java如何进行字符串格式化相关教程、使用解析、方法详解等等内容。阅读专题下面的文章了解更多详细教程。

12

2026.01.30

python 字符串格式化
python 字符串格式化

本专题整合了python字符串格式化教程、实践、方法、进阶等等相关内容,阅读专题下面的文章了解更多详细操作。

4

2026.01.30

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

20

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

18

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

19

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

3

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号