目录

Slurm

torchx.schedulers.slurm_scheduler 类SlurmSchedulersession_name: str[来源]

SlurmScheduler 是 slurm 的 TorchX 调度接口。TorchX 期望 slurm CLI 工具在本地安装并启用作业核算。

每个应用程序 def 都是通过 sbatch 使用异构作业调度的。 每个角色的每个副本都有一个唯一的 shell 脚本,该脚本使用其 resource allocations 和 args,然后使用 sbatch 来启动所有这些 一起。

日志将写入默认的 slurm 日志文件。

传递给它的任何计划程序选项都将作为 SBATCH 参数添加到每个副本中。

有关详细信息,请参阅:

$ torchx run --scheduler slurm utils.echo --msg hello
slurm://torchx_user/1234
$ torchx status slurm://torchx_user/1234
$ less slurm-1234.out
...
describeapp_id: str可选[torchx.schedulers.api.DescribeAppResponse][来源]

描述指定的应用程序。

返回

AppDef 描述,或者应用程序不存在。None

scheduledryrun_info - torchx.schedulers.slurm_scheduler.SlurmBatchRequest]str[来源]

相同,只是它需要一个 . 鼓励实现者实现此方法,而不是 直接实现 since 可以很简单 实施者:submitAppDryRunInfosubmitsubmit

dryrun_info = self.submit_dryrun(app, cfg)
return schedule(dryrun_info)

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源