分散式¶

作为分布式作业运行的应用程序的组件。许多本节中的组件是简单的拓扑结构，这意味着它们定义了分布式设置中节点的布局，并采用实际的每组节点（）运行的二进制文件。specs.Role

torchx.components.dist 的ddp（*script_args： str， image： str， entrypoint： str， rdzv_backend：可选[str] = 无，rdzv_endpoint：可选[str] = 无，资源：可选[str] = 无，nnodes： int = 1， nproc_per_node： int = 1， 名称： str = 'test-name'， 角色： str = 'worker'， env： Optional[Dict[str， str]] = None） → torchx.specs.api.AppDef [来源]¶

分布式数据并行风格的应用程序（一个角色，多副本）。使用 torch.distributed.run 启动和协调 pytorch 工作进程。

参数

script_args – 脚本参数。
image （图像） – 容器镜像。
entrypoint – 要在映像中运行的脚本或二进制文件。
rdzv_backend – 要使用的 Rendezvous 后端，可以在 RDZV 注册表文档中找到允许的值
rdzv_endpoint – 控制器终端节点。如果 rdzv_backend 是 etcd，则这是一个 etcd endpoint，如果是 c10d，则这是其中一个主机的 endpoint。
resource – 可选的命名资源标识符。resource 参数在本地调度程序上运行时被忽略。
nnodes – 节点数。
nproc_per_node – 每个节点的进程数。
name （名称） – 应用程序的名称。
role （角色） – ddp 角色的名称。
env – 环境变量。

返回

Torchx 应用防御

返回类型

规格。应用定义

分散式¶

文档

教程

资源