TorchX¶
TorchX 是一个 SDK,用于快速构建和部署从研发到生产环境的机器学习应用程序。 它提供了各种内置组件,这些组件编码了 MLOps 最佳实践,并使分布式训练和超参数优化等高级功能对所有用户都可访问。 由于支持流行的 ML 任务调度器和管道编排器,用户可以无需额外设置成本地开始使用 TorchX,这些工具已经在生产环境中广泛采用和部署。
没有两个生产环境是相同的。为了满足各种使用案例,TorchX的核心API允许在明确的扩展点上进行大量定制,因此即使是最独特的应用程序也可以通过不修改整个垂直栈来提供服务。
In 1-2-3¶
01 定义或选择 从编写一个组件开始 – 一个返回AppDef对象的Python函数,用于您的应用程序。或者您可以选择其中一个内置组件。
02 作为作业运行 一旦您定义或选择了一个组件,您可以运行它 通过将其提交为支持的调度器之一中的作业。TorchX原生支持几种 流行的调度器,例如Kubernetes和SLURM。
03 转换为流水线 在生产环境中,组件通常作为工作流(即流水线)运行。
TorchX 组件可以通过传递给 torchx.pipelines 适配器来转换为流水线阶段。流水线 列出了开箱即用的流水线编排器。
文档¶
组件库¶
运行时库¶
与以下内容配合使用¶
管道适配器
实验¶
实验性功能