0

0

Slurm 作业长时间挂起未完成的排查与环境一致性解决方案

聖光之護

聖光之護

发布时间:2026-01-15 12:32:03

|

234人浏览过

|

来源于php中文网

原创

Slurm 作业长时间挂起未完成的排查与环境一致性解决方案

本文详解 slurm 集群中 python 脚本“卡住不报错也不退出”的典型原因——本地与集群环境(尤其是 numpy/scipy/python 版本及 conda 环境)不一致,并提供可落地的版本对齐与隔离部署方案。

在 Slurm 集群上运行 Hugging Face Transformers 相关数据预处理脚本时,出现「本地 2 分钟完成,集群运行 4 小时无进展、最终被 time limit 强制终止」的现象,根本原因几乎总是环境不一致导致的隐式阻塞或兼容性降级,而非代码逻辑错误。

最典型的线索已在日志中明确暴露:

A NumPy version >=1.16.5 and <1.23.0 is required for this version of SciPy (detected version 1.24.4)

这说明:集群节点上的 numpy==1.24.4 与当前 scipy(很可能由旧版 transformers 或 datasets 间接依赖)存在ABI 不兼容。虽然 NumPy 通常向后兼容,但 1.24.x 移除了部分 C API 符号,某些科学计算库(尤其静态链接或混合编译的组件)可能陷入死锁、无限重试或静默挂起——表现为 dataset.map() 卡住、tokenizer 初始化延迟激增,且无异常抛出。

此外,警告信息:

The tokenizer class you load from this checkpoint is 'BertTokenizer'. 
The class this function is called from is 'RobertaTokenizerFast'.

虽不直接致死,但暗示模型/分词器路径混用(如用 BERT 的 tokenizer 加载 RoBERTa 模型),可能触发底层 tokenizers 库的非预期行为(如线程安全问题、共享内存初始化失败),在多核 Slurm 节点上更易暴露。

可靠解决路径:严格环境隔离 + 版本锁定

聚蜂消防BeesFPD
聚蜂消防BeesFPD

关注消防领域的智慧云平台

下载
  1. 本地验证最小可行环境
    在本地 Linux 创建纯净 Conda 环境,显式指定关键版本(与集群目标一致):

    conda create -n slurm-env python=3.8.18
    conda activate slurm-env
    pip install "numpy>=1.21.0,<1.23.0" "scipy>=1.7.0,<1.10.0" \
                "transformers==4.33.2" "datasets==2.14.6" "tokenizers==0.13.3"

    运行原脚本,确认耗时稳定在 2–3 分钟内。

  2. 集群端复现相同环境
    将环境导出为可复现的 YAML:

    conda env export --from-history > environment.yml

    上传至集群,在计算节点执行:

    conda env create -f environment.yml
    conda activate slurm-env
    # 验证关键包版本
    python -c "import numpy, scipy; print(numpy.__version__, scipy.__version__)"
  3. SLURM 脚本中显式激活环境
    避免依赖全局 PATH,确保每次作业使用纯净环境:

    #!/bin/bash
    #SBATCH --job-name=hf-preproc
    #SBATCH --time=00:10:00  # 合理预留时间(如 10 分钟)
    
    module load anaconda3  # 加载集群基础 Anaconda
    source $HOME/miniconda3/etc/profile.d/conda.sh
    conda activate slurm-env
    
    python your_script.py

⚠️ 关键注意事项

  • 勿跳过 --from-history:conda env export 默认包含构建信息(build hash),跨平台可能失效;--from-history 仅导出 conda install 和 pip install 显式命令,保证重建一致性。
  • 检查 datasets 的 num_proc 行为:dataset.map(..., batched=True) 默认启用多进程(num_proc=os.cpu_count())。若集群节点 CPU 核数远高于本地(如 64 核),而内存不足或共享文件系统(如 NFS)性能差,会导致进程创建卡顿。建议显式限制:
    mapped_dataset = dataset.map(
        lambda x: tokenizer(...), 
        batched=True, 
        num_proc=8  # 根据节点内存调整,避免 OOM
    )
  • 验证 tokenizer 路径一致性:确保 /data/home//raw_roberta/Roberta_Tokenizer 下存在 tokenizer_config.json 且 tokenizer_class 字段为 "RobertaTokenizerFast",而非 "BertTokenizer"。若混用,应统一使用 RoBERTa 对应的 tokenizer checkpoint。

通过以上步骤,90% 以上的 Slurm “假死”问题可被根治。核心原则是:HPC 环境必须视为不可信黑盒,一切依赖须显式声明、隔离部署、版本锁定——优雅的容错,始于严苛的确定性。

相关文章

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

753

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

636

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

618

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

707

2023.08.11

Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

0

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.2万人学习

Git 教程
Git 教程

共21课时 | 2.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号