TorchX¶
TorchX 是一个用于快速构建和部署 ML 应用程序从研发到生产的 SDK。 它提供了各种内置组件,用于编码 MLOps 最佳实践并使 所有人都可以使用分布式训练和超参数优化等功能。 用户可以开始使用 TorchX,而无需增加设置成本,因为它支持流行的 已被广泛采用和部署的 ML 调度程序和管道编排器 在生产中。
没有两个生产环境是相同的。为了符合各种使用案例,TorchX 的 核心 API 允许在定义明确的扩展点进行大量自定义,因此即使是 大多数独特的应用程序都可以在不自定义整个垂直堆栈的情况下提供服务。

在 1-2-3 中¶
01 定义或选择从编写一个组件开始 – 一个 python 函数,该函数返回应用程序的 AppDef 对象。或者您可以选择其中一个内置组件。
02 作为作业运行定义或选择组件后,您可以通过在其中一个受支持的 Scheduler 中将其作为作业提交来运行它。TorchX 支持多种 流行的,例如 Kubernetes 和 SLURM,开箱即用。
03 转换为管道在生产环境中,组件通常作为工作流(又名管道)运行。
TorchX 组件可以通过torchx.pipelines
适配器。Pipelines 列出了现成支持的管道编排器。
文档¶
组件库¶
运行时库¶
Works With¶
调度程序
管道适配器
实验的¶
实验性功能