目录

分布式

分布式作业应用程序的组件。本节中的许多组件只是拓扑结构,这意味着它们定义了分布式设置中节点的布局,并采用每个节点组(specs.Role)实际运行的二进制文件。

torchx.components.dist.ddp(image: str, entrypoint: str, resource: Optional[str] = None, nnodes: int = 1, nproc_per_node: int = 1, base_image: Optional[str] = None, name: str = 'test_name', role: str = 'worker', env: Optional[Dict[str, str]] = None, *script_args: str)torchx.specs.api.AppDef[source]

分布式数据并行应用(一个角色,多个副本)。

Parameters
  • 图像 – 容器图像。

  • 入口点 – 在镜像中运行的脚本或二进制文件。

  • 资源 – 注册的命名资源。

  • nnodes – 节点数量。

  • nproc_per_node – 数目每个节点上的进程。

  • 名称 – 应用程序的名称。

  • base_image – 容器基础镜像(可选)。

  • 角色 – 深度学习框架的名称。

  • 脚本 – 主脚本。

  • 环境 – 环境变量。

  • script_args – 脚本参数。

Returns

Torchx 应用定义

Return type

specs.AppDef

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源