PyTorch多GPU训练应优先使用DistributedDataParallel(DDP)而非DataParallel;需配合DistributedSampler、多进程DataLoader、显式设备绑定、rank=0单点保存等机制实现高效并行。

Python深度学习模型多GPU训练,核心不是“堆显卡”,而是让数据和计算真正并行起来——关键在数据并行(Data Parallelism),主流框架(PyTorch/TensorFlow)都原生支持,但配置不当反而拖慢速度甚至报错。
用torch.nn.DataParallel还是DistributedDataParallel?
DataParallel简单易上手,单进程多线程,适合快速验证;但它把所有GPU的梯度同步压在主卡(device 0)上,显存和通信瓶颈明显,4卡以上基本不推荐。DistributedDataParallel(DDP)才是生产级选择:多进程、每卡独立进程、梯度分片同步,显存更均衡、扩展性好、速度更快。
- PyTorch中优先用red">DDP,哪怕只用2张卡也建议起步就写DDP模式
- 启动方式不是直接运行脚本,而是用
torch.distributed.run或python -m torch.distributed.launch(旧版) - 每个进程需调用
torch.distributed.init_process_group(),指定backend(如'nccl')、rank和world_size
数据加载必须配合多GPU节奏
单个DataLoader喂不饱多卡——容易出现某卡等数据、其他卡空转。解决方案是用DistributedSampler + 多进程DataLoader:
- 训练时Dataset不打乱(shuffle=False),改由DistributedSampler内部按rank切分数据子集并打乱
- num_workers建议设为每个进程2–4个(不是全局),pin_memory=True加速主机到GPU传输
- batch_size指每个GPU上的批次大小(不是总batch),例如4卡、每卡bs=32 → 总有效bs=128
模型与数据都要显式挪到对应GPU
DDP下每个进程只管自己的GPU,忘记to(device)或误用cuda()会导致RuntimeError或静默失败:
立即学习“Python免费学习笔记(深入)”;
- 模型先.to(local_rank),再用
model = DDP(model, device_ids=[local_rank]) - 输入数据(x, y)也要
x = x.to(local_rank),不能只写.cuda() - loss.backward()前确保loss是标量且在当前GPU上;若需跨卡统计(如准确率),要用
torch.distributed.all_reduce()聚合
别忽略同步与保存细节
多进程下模型保存、日志、验证逻辑容易出错:
- 只让rank=0进程做模型保存、tensorboard写入、打印log,避免多进程重复写冲突
- 保存模型用
model.module.state_dict()(DDP包装后),而非model.state_dict() - 验证阶段可单卡运行(节省显存),也可用DDP验证——但需注意sampler的drop_last和epoch重置
基本上就这些。多GPU不是开关一开就快,而是要对齐数据流、设备绑定、进程通信三者节奏。调试时先跑通2卡DDP,确认loss下降、显存均匀、无卡空闲,再逐步加卡。不复杂但容易忽略细节。










