pytorch RANK
0
-
分布式训练training-operator和pytorch-distributed RANK变量不统一解决
目录正文dist_train.sh解决的思路有两个方向获得 NODE_RANK变量正文 我们在使用 training-operator 框架来实现 pytorch 分布式任务时,发现一个变量不统一的问题:在使用 pytorch 的分布式 launch 时,需要指定一个[详细]
2023-04-14 09:37 分类:开发