分布式¶
分布式作业应用程序的组件。本节中的许多组件只是拓扑结构,这意味着它们定义了分布式设置中节点的布局,并采用每个节点组(specs.Role)实际运行的二进制文件。
- torchx.components.dist.ddp(*script_args: str, image: str, entrypoint: str, rdzv_backend: Optional[str] = None, rdzv_endpoint: Optional[str] = None, resource: Optional[str] = None, nnodes: int = 1, nproc_per_node: int = 1, base_image: Optional[str] = None, name: str = 'test-name', role: str = 'worker', env: Optional[Dict[str, str]] = None) → torchx.specs.api.AppDef[source]¶
分布式数据并行应用(一个角色,多个副本)。
This uses Torch Elastic to manage the distributed workers.
- Parameters
script_args – 脚本参数。
图像 – 容器图像。
入口点 – 在镜像中运行的脚本或二进制文件。
rdzv_backend – 用于 rendezvous 后端,允许的值可以在 https://github.com/pytorch/pytorch/blob/master/torch/distributed/elastic/rendezvous/registry.py
rdzv_endpoint – 控制器端点。如果 rdzv_backend 是 etcd,这是 etcd 端点;如果是 c10d,则是其中一个主机的端点。
资源 – 可选的命名资源标识符。在本地调度器上运行时,资源参数将被忽略。
nnodes – 节点数量。
nproc_per_node – 数目每个节点上的进程。
名称 – 应用程序的名称。
base_image – 容器基础镜像(可选)。
角色 – 深度学习框架的名称。
环境 – 环境变量。
- Returns
Torchx 应用定义
- Return type