TorchServe 工作流¶

TorchServe 可用于通过工作流 API 提供打包为 mar 文件和 Python 函数的 Pytorch 模型集成。

它利用基于 REST 的 API 进行工作流管理和预测。

使用 workflow-archive（.war）在 TorchServe 上提供工作流，其中包括以下内容：

工作流规范文件¶

工作流规范是一个 YAML 文件，它提供要执行的模型的详细信息和用于定义数据流的 DAG。

YAML 文件分为几个部分

models其中包括全局模型参数
m1,m2,m3将覆盖全局模型参数的所有相关模型参数
dag它描述了工作流的结构，哪些节点馈送到了哪些其他节点

例如

models:
    #global model params
    min-workers: 1
    max-workers: 4
    batch-size: 3
    max-batch-delay : 5000
    retry-attempts : 3
    timeout-ms : 5000
    m1:
       url : model1.mar #local or public URI
       min-workers: 1   #override the global params
       max-workers: 2
       batch-size: 4
     
    m2:
       url : model2.mar

    m3:
       url : model3.mar
       batch-size: 3

    m4:
      url : model4.mar
 
dag:
  pre_processing : [m1]
  m1 : [m2]
  m2 : [m3]
  m3 : [m4]
  m4 : [postprocessing]

工作流模型¶

工作流规范的部分定义工作流中使用的模型。它使用以下语法：models

models:
    <model_name>:
        url: <local or public url for mar file>

工作流模型属性¶

用户可以定义以下工作流模型属性：

性能	描述	默认值
最小工作程序	为每个工作流模型启动的最小工作线程数	1
最大工作线程	为每个工作流模型启动的最大工作线程数	1
批量大小	用于每个工作流模型的批处理大小	1
最大批处理延迟	TorchServe 等待每个工作流模型接收的最大批处理延迟时间`batch_size`请求数。	50 毫秒
重试尝试	失败时对特定工作流节点的重试尝试	1
超时毫秒	给定节点的超时（MilliSeconds）	10000

这些属性可以定义为每个模型的全局值，并且可以在工作流规范中的每个模型级别覆盖。有关更多详细信息，请参阅上面的示例。

工作流 DAG¶

用户可以使用工作流规范的部分定义工作流的数据流。它由节中定义的模型名称和 python 函数名称组成，这些名称在工作流存档的处理程序文件中实现。dagdagmodel

顺序 DAG¶

例如。

dag:
  function1 : [model1]
  model1 : [model2]
  model2 : [function2]

映射到此数据流

input -> function1 -> model1 -> model2 -> function2 -> output

并行 DAG¶

例如

dag:
  pre_processing: [model1, model2]
  model1: [aggregate_func]
  model2: [aggregate_func]

映射到此数据流

                          model1
                         /       \
input -> preprocessing ->         -> aggregate_func
                         \       /
                          model2

处理程序文件¶

处理程序文件（python）在工作流存档（.war）中提供，其中包含工作流 dag 中使用的所有函数。

例如。

def preprocess(data, context):
    pass

def postprocess(data, context):
    pass

已知问题¶

每个工作流 dag 节点（模型/函数）都将以字节形式接收输入
工作流模型/函数仅支持以下输出类型：String、Int、List、Dict of String、int、Json 可序列化对象、字节数组和 Torch 张量
不支持通过 API 进行工作流缩放/更新。用户需要取消注册工作流并重新注册所需的更改
工作流不支持快照，并且不会在工作流中捕获相关模型
不支持工作流版本控制
具有公共模型 URL 且已注册的 mar 文件名的工作流注册将失败。

TorchServe 工作流¶

工作流规范文件¶

工作流模型¶

工作流模型属性¶

工作流 DAG¶

顺序 DAG¶

并行 DAG¶

处理程序文件¶

已知问题¶

文档

教程

资源

TorchServe 工作流¶

工作流规范文件¶

工作流模型¶

工作流模型属性¶

工作流 DAG¶

顺序 DAG¶

并行 DAG¶

处理程序文件¶

相关文档¶

已知问题¶

文档

教程

资源