目录

分散式

作为分布式作业运行的应用程序的组件。许多 本节中的组件是简单的拓扑结构,这意味着它们定义了 分布式设置中节点的布局,并采用实际的 每组节点 () 运行的二进制文件。specs.Role

torchx.components.dist 的ddp*script_args strimage strentrypoint strrdzv_backend: 可选[str] = rdzv_endpoint可选[str] = 资源可选[str] = nnodes int = 1nproc_per_node: int = 1base_image 可选[str] = Nonename str = 'test-name'role str = 'worker'env 可选[Dict[strstr]] = Nonetorchx.specs.api.AppDef[source]

分布式数据并行风格的应用程序(一个角色,多副本)。

这将使用 Torch Elastic 来管理 分布式 worker。

参数
  • script_args – 脚本参数。

  • image (图像) – 容器镜像。

  • entrypoint – 要在映像中运行的脚本或二进制文件。

  • rdzv_backend – 要使用的 rendezvous 后端,可以在 https://github.com/pytorch/pytorch/blob/master/torch/distributed/elastic/rendezvous/registry.py 中找到允许的值

  • rdzv_endpoint – 控制器终端节点。如果 rdzv_backend 是 etcd,则这是一个 etcd endpoint,如果是 c10d,则这是其中一个主机的 endpoint。

  • resource – 可选的命名资源标识符。resource 参数 在本地调度程序上运行时被忽略。

  • nnodes – 节点数。

  • nproc_per_node – 每个节点的进程数。

  • name (名称) – 应用程序的名称。

  • base_image – 容器基础映像(不需要)。

  • role (角色) – ddp 角色的名称。

  • env – 环境变量。

返回

Torchx 应用防御

返回类型

规格。应用定义

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源