通过编写打包时使用的 Python 脚本来自定义 TorchServe 的行为 使用 Model Archiver 时的模型。TorchServe 在运行时执行此代码。
在将输入数据发送到模型以进行推理或 Captum 解释之前对其进行预处理
data - 来自传入请求的输入数据
context - 是 TorchServe 上下文。您可以使用以下信息进行自定义 model_name、model_dir、清单、batch_size、GPU 等。
从 BaseHandler 开始!¶
BaseHandler 实现了您需要的大部分功能。您可以从中派生一个新类,如示例和默认处理程序所示。大多数情况下,您只需覆盖 或 .preprocess
具有 level 入口点的自定义处理程序module
自定义处理程序文件必须定义一个模块级函数,该函数充当执行的入口点。 该函数可以具有任何名称,但它必须接受以下参数并返回预测结果。
# Create model object
model = None
def entry_point_function_name(data, context):
Works on data and context to create model object or process inference request.
Following sample demonstrates how model object can be initialized for jit mode.
Similarly you can do it for eager mode models.
:param data: Input data for prediction
:param context: context contains model server system properties
:return: prediction output
global model
if not data:
manifest = context.manifest
properties = context.system_properties
model_dir = properties.get("model_dir")
device = torch.device("cuda:" + str(properties.get("gpu_id")) if torch.cuda.is_available() else "cpu")
# Read model serialize/pt file
serialized_file = manifest['model']['serializedFile']
model_pt_path = os.path.join(model_dir, serialized_file)
if not os.path.isfile(model_pt_path):
raise RuntimeError("Missing the model.pt file")
model = torch.jit.load(model_pt_path)
#infer and return result
return model(data)
要求 TorchServe 扩展模型以增加后端 worker 的数量(通过请求完成 或带有选项的请求,或者在 TorchServe 启动期间使用选项 () 时,即提供要加载的模型)
PUT /models/{model_name}
POST /models
torchserve --start --models {model_name=model.mar}
TorchServe 收到请求。
POST /predictions/{model_name}
(1) 用于纵向扩展或缩减模型的工作线程。(2) 用作针对模型运行推理的标准方法。(1) 也称为模型加载时间。 通常,您希望模型初始化代码在模型加载时运行。 您可以在 TorchServe 管理 API 和 TorchServe 推理 API 中了解有关这些 API 和其他 TorchServe API 的更多信息
具有 level 入口点的自定义处理程序class
您可以通过具有任何名称的 class 来创建自定义处理程序,但它必须具有 an 和 method。initialize
注意 - 如果您计划在同一个 python 模块/文件中拥有多个类,请确保处理程序类是列表中的第一个
class ModelHandler(object):
A custom model handler implementation.
def __init__(self):
self._context = None
self.initialized = False
self.model = None
self.device = None
def initialize(self, context):
Invoke by torchserve for loading a model
:param context: context contains model server system properties
# load the model
self.manifest = context.manifest
properties = context.system_properties
model_dir = properties.get("model_dir")
self.device = torch.device("cuda:" + str(properties.get("gpu_id")) if torch.cuda.is_available() else "cpu")
# Read model serialize/pt file
serialized_file = self.manifest['model']['serializedFile']
model_pt_path = os.path.join(model_dir, serialized_file)
if not os.path.isfile(model_pt_path):
raise RuntimeError("Missing the model.pt file")
self.model = torch.jit.load(model_pt_path)
self.initialized = True
def handle(self, data, context):
Invoke by TorchServe for prediction request.
Do pre-processing of data, prediction using model and postprocessing of prediciton output
:param data: Input data for prediction
:param context: Initial context contains model server system properties.
:return: prediction output
pred_out = self.model.forward(data)
return pred_out
通过具有 level 入口点的自定义处理程序将自定义错误代码返回给用户。module
from ts.utils.util import PredictionException
def handle(data, context):
# Some unexpected error - returning error code 513
raise PredictionException("Some Prediction Error", 513)
通过具有 level 入口点的自定义处理程序将自定义错误代码返回给用户。class
from ts.torch_handler.base_handler import BaseHandler
from ts.utils.util import PredictionException
class ModelHandler(BaseHandler):
A custom model handler implementation.
def handle(self, data, context):
# Some unexpected error - returning error code 513
raise PredictionException("Some Prediction Error", 513)
从头开始为 Prediction and Explanations Request 编写自定义处理程序¶
您通常应该从 BaseHandler 派生,并且只覆盖其行为需要更改的方法!正如您在示例中看到的,大多数情况下,您只需要覆盖或preprocess
尽管如此,您可以从头开始编写一个类。下面是一个示例。基本上,它遵循典型的 Init-Pre-Infer-Post 模式来创建可维护的自定义处理程序。
# custom handler file
# model_handler.py
ModelHandler defines a custom model handler.
from ts.torch_handler.base_handler import BaseHandler
class ModelHandler(BaseHandler):
A custom model handler implementation.
def __init__(self):
self._context = None
self.initialized = False
self.explain = False
self.target = 0
def initialize(self, context):
Initialize model. This will be called during model loading time
:param context: Initial context contains model server system properties.
self._context = context
self.initialized = True
# load the model, refer 'custom handler class' above for details
def preprocess(self, data):
Transform raw input into model input data.
:param batch: list of raw requests, should match batch size
:return: list of preprocessed model input data
# Take the input data and make it inference ready
preprocessed_data = data[0].get("data")
if preprocessed_data is None:
preprocessed_data = data[0].get("body")
return preprocessed_data
def inference(self, model_input):
Internal inference methods
:param model_input: transformed model input data
:return: list of inference output in NDArray
# Do some inference call to engine here and return output
model_output = self.model.forward(model_input)
return model_output
def postprocess(self, inference_output):
Return inference result.
:param inference_output: list of inference output
:return: list of predict results
# Take output from network and post-process to desired format
postprocess_output = inference_output
return postprocess_output
def handle(self, data, context):
Invoke by TorchServe for prediction request.
Do pre-processing of data, prediction using model and postprocessing of prediciton output
:param data: Input data for prediction
:param context: Initial context contains model server system properties.
:return: prediction output
model_input = self.preprocess(data)
model_output = self.inference(model_input)
return self.postprocess(model_output)
有关详细信息,请参阅 waveglow_handler。
自定义处理程序的 Captum 解释¶
Torchserve 返回图像分类、文本分类和 BERT 模型的 Captum 解释。通过提出以下请求来实现:POST /explanations/{model_name}
解释是作为 base handler 的 explain_handle 方法的一部分编写的。基本处理程序调用此explain_handle_method。传递给 explain handle 方法的参数是预处理的数据和原始数据。它调用返回 captum 归因的自定义处理程序的 get insights 函数。用户应该编写自己的 get_insights 功能来获取解释
为了提供自定义处理程序,应在处理程序的 initialize 函数中初始化 captum 算法
用户可以在自定义处理程序中覆盖 explain_handle 函数。 用户应为自定义处理程序定义其get_insights方法以获取 Captum 归因。
上面的 ModelHandler 类应该具有以下具有 captum 功能的方法。
def initialize(self, context):
Load the model and its artifacts
self.lig = LayerIntegratedGradients(
captum_sequence_forward, self.model.bert.embeddings
def handle(self, data, context):
Invoke by TorchServe for prediction/explanation request.
Do pre-processing of data, prediction using model and postprocessing of prediction/explanations output
:param data: Input data for prediction/explanation
:param context: Initial context contains model server system properties.
:return: prediction/ explanations output
model_input = self.preprocess(data)
if not self._is_explain():
model_output = self.inference(model_input)
model_output = self.postprocess(model_output)
else :
model_output = self.explain_handle(model_input, data)
return model_output
# Present in the base_handler, so override only when neccessary
def explain_handle(self, data_preprocess, raw_data):
"""Captum explanations handler
data_preprocess (Torch Tensor): Preprocessed data to be used for captum
raw_data (list): The unprocessed data to get target from the request
dict : A dictionary response with the explanations response.
output_explain = None
inputs = None
target = 0
logger.info("Calculating Explanations")
row = raw_data[0]
if isinstance(row, dict):
logger.info("Getting data and target")
inputs = row.get("data") or row.get("body")
target = row.get("target")
if not target:
target = 0
output_explain = self.get_insights(data_preprocess, inputs, target)
return output_explain
def get_insights(self,**kwargs):
Functionality to get the explanations.
Called from the explain_handle method
TorchServe 具有以下默认处理程序。
如果需要,可以扩展上述处理程序以创建自定义处理程序。此外,还可以扩展 abstract base_handler。
要在 python 脚本中导入默认处理程序,请使用以下 import 语句。
from ts.torch_handler.<default_handler_name> import <DefaultHandlerClass>
以下是扩展默认 image_classifier 处理程序的自定义处理程序的示例。
from ts.torch_handler.image_classifier import ImageClassifier
class CustomImageClassifier(ImageClassifier):
def preprocess(self, data):
Overriding this method for custom preprocessing.
:param data: raw data to be transformed
:return: preprocessed data for model input
# custom pre-procsess code goes here
return data
TorchServe 从清单文件中标识自定义服务的入口点。
model-archiver 工具使您能够创建 TorchServe 可以提供的模型存档。
torch-model-archiver --model-name <model-name> --version <model_version_number> --handler model_handler[:<entry_point_function_name>] [--model-file <path_to_model_architecture_file>] --serialized-file <path_to_state_dict_file> [--extra-files <comma_seperarted_additional_files>] [--export-path <output-dir> --model-path <model_dir>] [--runtime python3]
[] 中的选项是可选的。
如果名称为 As in your handler module 或 handler is python class,则可以跳过handle
这将在 python3 运行时的目录中创建文件。该参数允许在运行时使用特定的 python 版本。
默认情况下,它使用系统的默认 python 发行版。<model-name>.mar
torch-model-archiver --model-name waveglow_synthesizer --version 1.0 --model-file waveglow_model.py --serialized-file nvidia_waveglowpyt_fp32_20190306.pth --handler waveglow_handler.py --extra-files tacotron.zip,nvidia_tacotron2pyt_fp32_20190306.pth
在多个 GPU 上处理模型执行¶
TorchServe 在 vCPU 或 GPU 上扩展后端工作程序。在多个 GPU 的情况下,TorchServe 以循环方式选择 GPU 设备,并将此设备 ID 传递给 context 对象中的模型处理程序。 用户应使用此 GPU ID 创建 pytorch 设备对象,以确保所有 worker 都不是在同一个 GPU 中创建的。 以下代码片段可用于模型处理程序,以创建 PyTorch 设备对象:
import torch
class ModelHandler(object):
A base Model handler implementation.
def __init__(self):
self.device = None
def initialize(self, context):
properties = context.system_properties
self.device = torch.device("cuda:" + str(properties.get("gpu_id")) if torch.cuda.is_available() else "cpu")
安装特定于模型的 python 依赖项¶
自定义模型/处理程序可能依赖于不同的 python 包,默认情况下,这些包不会作为设置的一部分进行安装。TorchServe
以下步骤允许用户提供要安装的自定义 python 包列表,以实现无缝模型服务。TorchServe