高级配置¶

TorchServe 的默认设置应该足以满足大多数使用案例的需求。但是，如果要自定义 TorchServe，可以使用本主题中描述的配置选项。

有三种方法可以配置 TorchServe。按优先级排序，它们是：

环境变量
命令行参数
配置文件

例如，环境变量的值会覆盖命令行参数和配置文件中的属性。命令行参数的值覆盖配置文件中的值。

环境变量¶

您可以通过设置以下环境变量来更改 TorchServe 行为：

JAVA_HOME
PYTHONPATH
TS_CONFIG_FILE
LOG_LOCATION
METRICS_LOCATION

注意：环境变量的优先级高于 command line 或 config.properties。环境变量的值将覆盖其他属性值。

命令行参数¶

在调用时使用以下命令行参数自定义 TorchServe 行为：torchserve

–ts-配置如果未设置环境变量，则 TorchServe 会加载指定的配置文件TS_CONFIG_FILE
–模型商店覆盖 config.properties 文件中的属性model_store
–模型覆盖 config.properties 中的属性load_models
–日志配置覆盖默认log4j2.xml
–前景在前台运行 TorchServe。如果此选项为 disabled，则 TorchServe 将在后台运行

有关命令行选项的更多详细信息，请参阅使用 TorchServe 为模型提供服务。torchserve

config.properties 文件¶

TorchServe 使用文件来存储配置。TorchServe 按优先级顺序使用以下命令来查找此文件：config.propertiesconfig.properties

如果设置了环境变量，则 TorchServe 会从环境变量指定的路径加载配置。TS_CONFIG_FILE
如果 parameter 传递给，则 TorchServe 会从参数指定的路径加载配置。--ts-configtorchserve
如果调用 TorchServe 的文件夹中有，则 TorchServe 会从当前工作目录加载文件。config.propertiestorchserveconfig.properties
如果未指定以上任何内容，则 TorchServe 会加载具有默认值的内置配置。

自定义 JVM 选项¶

要控制 TorchServe 前端内存占用，请在文件中配置 vmargs 属性config.properties

default： N/A，使用 JVM 默认选项

调整 JVM 选项以满足您的内存需求。

启动时加载模型¶

您可以通过设置和属性将 TorchServe 配置为在启动期间加载模型。以下值有效：model_storeload_models

load_models
- standalone：默认值：N/A，启动时不加载任何模型。
- all：加载中存在的所有模型。model_store
- model1.mar, model2.mar：从 . 加载指定 MAR 文件中的模型。model_store
- model1=model1.mar, model2=model2.mar：从中加载具有指定名称和 MAR 文件的模型。model_store
model_store
- standalone：默认值：N/A，从本地磁盘加载模型处于禁用状态。
- pathname：模型存储位置由的值指定。pathname

注意：如果指定，则 properties 将被命令行参数覆盖。model_storeload_models

配置 TorchServe 监听地址和端口¶

TorchServe 本身不支持身份验证。为避免未经授权的访问，TorchServe 默认只允许 localhost 访问。推理 API 正在侦听端口 8080。管理 API 正在侦听端口 8081。两者都需要 HTTP 请求。这些是默认端口。请参阅启用 SSL 以配置 HTTPS。

inference_address：推理 API 绑定地址。违约：http://127.0.0.1:8080
management_address：管理 API 绑定地址。违约：http://127.0.0.1:8081
metrics_address：指标 API 绑定地址。违约：http://127.0.0.1:8082
要对特定 IP 地址上的模型运行预测，请指定 IP 地址和端口。

# bind inference API to localhost with SSL enabled
inference_address=https://127.0.0.1:8443

# bind inference API to private network interfaces with SSL enabled
inference_address=https://172.16.1.10:8080

配置 TorchServe gRPC 侦听地址、端口和最大连接期限¶

默认情况下，推理 gRPC API 正在侦听端口 7070，管理 gRPC API 正在侦听 localhost 上的端口 7071。

要配置不同的地址，请使用以下属性

grpc_inference_address：推理 gRPC API IP 地址。默认值：127.0.0.1
grpc_management_address：管理 gRPC API IP 地址。默认值：127.0.0.1

要配置不同的端口，请使用以下属性

grpc_inference_port：推理 gRPC API 绑定端口。默认值：7070
grpc_management_port：管理 gRPC API 绑定端口。默认值：7071

配置最大连接期限（毫秒）

grpc_inference_max_connection_age_ms：推理 gRPC 最大连接时间。默认值：无限
grpc_management_max_connection_age_ms：管理 gRPC 最大连接时间。默认值：无限

配置最大连接期限宽限期（毫秒）

grpc_inference_max_connection_age_grace_ms：推理 gRPC 最大连接年龄宽限。默认值：无限
grpc_management_max_connection_age_grace_ms：管理 gRPC 最大连接年龄宽限。默认值：无限

启用 SSL¶

要启用 HTTPs，您可以将或 protocol 从 http 更改为 https。例如：。默认值为 443 端口，但您可以让 TorchServe 在您设置的任何端口上侦听以接受 https 请求。例如，要在端口 8443 上接收 https 流量，您可以使用：。inference_addressmanagement_addressmetrics_addressinference_address=https://127.0.0.1inference_address=https://127.0.0.1:8443

您还必须提供证书和私有密钥才能启用 SSL。TorchServe 支持两种配置 SSL 的方法：

使用密钥库：

keystore：密钥库文件位置。如果密钥库中存在多个私钥条目，则将使用第一个条目。
keystore_pass：密钥库密码。密码（如果适用）必须与密钥库密码相同。
keystore_type：密钥库的类型。默认值：PKCS12。

使用私钥/证书文件：

private_key_file：私钥文件位置。支持 PKCS8 和 OpenSSL 私钥。
certificate_file：X509 证书链文件位置。

例子¶

选项 1：使用密钥库;使用 Java 的 keytool 生成密钥库。请注意，该参数希望您创建自己的密码。storepass

keytool -genkey -keyalg RSA -alias ts -keystore keystore.p12 -storepass changeit -storetype PKCS12 -validity 3600 -keysize 2048 -dname "CN=www.MY_TS.com, OU=Cloud Service, O=model server, L=Palo Alto, ST=California, C=US"

在 config.properties 中配置以下属性：

inference_address=https://127.0.0.1:8443
management_address=https://127.0.0.1:8444
metrics_address=https://127.0.0.1:8445
keystore=keystore.p12
keystore_pass=changeit
keystore_type=PKCS12

选项 2：使用私钥/证书文件;使用 OpenSSL 生成自签名证书和密钥：

openssl req -x509 -nodes -days 365 -newkey rsa:2048 -keyout mykey.key -out mycert.pem

在 config.properties 中配置以下属性：

inference_address=https://127.0.0.1:8443
management_address=https://127.0.0.1:8444
metrics_address=https://127.0.0.1:8445
private_key_file=mykey.key
certificate_file=mycert.pem

首选直接缓冲液¶

配置参数 prefer_direct_buffer 控制模型服务器是否将使用 -XX：MaxDirectMemorySize 指定的直接内存。此参数仅适用于模型服务器，不会影响其他包对直接内存缓冲区的使用。默认值：false

prefer_direct_buffer=true

允许特定于模型的自定义 python 包。¶

自定义模型/处理程序可能依赖于不同的 python 包，默认情况下，这些包不会作为设置的一部分进行安装。用户可以提供一个 requirements.txt 文件，其中包含要安装的 python 包列表，以实现无缝的模型服务。配置参数控制模型服务器是否将使用模型存档随附的文件安装 python 包。默认值：falseTorchServeTorchServeinstall_py_dep_per_modelrequirements

install_py_dep_per_model=true

用户还可以在创建模型存档时使用标志提供 zip 或 tar.gz 格式的自定义 python 包，并在文件中输入文件名。--extra-filesrequirements

限制后端工作程序访问环境变量¶

环境变量可能包含敏感信息，例如 AWS 凭证。后端工作程序执行任意模型的自定义代码这可能会带来安全风险。TorchServe 提供了一个属性，允许您限制后端工作程序可以访问哪些环境变量。blacklist_env_vars

blacklist_env_vars：用于筛选出环境变量名称的正则表达式。默认：所有环境变量对后端工作人员可见。

限制 GPU 使用¶

默认情况下，TorchServe 使用所有可用的 GPU 进行推理。用于限制 GPU 的使用。number_of_gpu

number_of_gpu：TorchServe 可用于推理的最大 GPU 数。默认值：系统中所有可用的 GPU。

Nvidia control 可见性¶

设置 nvidia 环境变量。例如：

export CUDA_DEVICE_ORDER=“PCI_BUS_ID”
export CUDA_VISIBLE_DEVICES=“1,3”

启用指标 API¶

enable_metrics_api：启用或禁用指标 API，即它可以是或。默认值：true （Enabled）truefalse

配置模型¶

models：使用此选项可设置特定于模型的配置。该值以 json 格式显示。

{
    "modelName": {
        "version": {
            "parameterName1": parameterValue1,
            "parameterName2": parameterValue2,
            "parameterNameN": parameterValueN,
        }
    }
}

模型的参数在模型源代码中定义

minWorkers：模型的最小 worker 数
maxWorkers：模型的最大 worker 数
batchSize：模型的批量大小
maxBatchDelay：一个模型批次的最大延迟（以毫秒为单位）
startupTimeout：特定模型启动的超时时间（以秒为单位）。此设置优先于所有模型的默认超时default_startup_timeout
responseTimeout：特定模型响应的超时时间（以秒为单位）。此设置优先于所有模型的默认超时default_response_timeout
defaultVersion：模型的默认版本
marName：模型的 mar 文件名

模型的配置示例

models={\
  "noop": {\
    "1.0": {\
        "defaultVersion": true,\
        "marName": "noop.mar",\
        "minWorkers": 1,\
        "maxWorkers": 1,\
        "batchSize": 4,\
        "maxBatchDelay": 100,\
        "responseTimeout": 120\
    }\
  },\
  "vgg16": {\
    "1.0": {\
        "defaultVersion": true,\
        "marName": "vgg16.mar",\
        "minWorkers": 1,\
        "maxWorkers": 4,\
        "batchSize": 8,\
        "maxBatchDelay": 100,\
        "responseTimeout": 120\
    }\
  }\
}

从版本 0.8.0 开始，TorchServe 允许使用嵌入在 MAR 文件中的 YAML 文件进行模型配置。此 YAML 文件包含两个不同的部分，用于确定模型的配置方式：前端参数和后端参数。（查看详情)

前端参数由 TorchServe 的前端控制，并指定参数名称和默认值。TorchServe 现在使用优先级顺序来确定 frontend 中模型参数的最终值。具体来说，config.property 文件的优先级最低，其次是模型配置 YAML 文件，最后是 REST 或 gRPC 模型管理 API 的优先级最高。
后端参数完全由用户控制。用户自定义处理程序可以通过 context 对象的属性访问后端参数。例如，context.model_yaml_config[“pippy”][“rpc_timeout”]。model_yaml_config
用户可以通过在 YAML 文件的前端参数中定义 “deviceIds” 来为模型分配特定的 GPU 设备 ID。TorchServe 使用循环策略将设备 ID 分配给模型的工作程序。如果在 YAML 文件中指定，它将对列出的设备 ID 进行循环处理;否则，它将使用主机上所有可见的设备 ID。

其他属性¶

以下大多数属性都是为性能优化而设计的。调整这些数字将影响可伸缩性和吞吐量。

enable_envvars_config：启用通过环境变量配置 TorchServe。当此选项设置为 “true” 时，TorchServe 的所有静态配置也可以通过环境变量来实现。默认值：false
number_of_netty_threads：编号前端 netty 线程。这指定了前端 netty 服务器的子 EventLoopGroup 中的线程数。该组提供 EventLoops，用于处理来自已接受连接的 Netty Channel 事件（即推理和管理请求）。Default：JVM 可用的逻辑处理器数。
netty_client_threads：后端 netty 线程的数量。这指定了将推理响应写入前端的 WorkerThread EventLoopGroup 中的线程数。Default：JVM 可用的逻辑处理器数。
default_workers_per_model：要为启动时加载的每个模型创建的工作线程数。默认值：系统中的可用 GPU 或 JVM 可用的逻辑处理器数。
job_queue_size：前端在后端可以服务之前将排队的推理作业的数量。默认值：100。
async_logging：启用异步日志记录以提高吞吐量，如果启用此功能，日志输出可能会延迟。默认值：false。
default_response_timeout：超时（以秒为单位），用于所有模型后端工作程序，然后被视为无响应并重启。默认值：120 秒。
default_startup_timeout：指定允许模型后端工作程序初始化并准备就绪的最长时间（以秒为单位）。如果 worker 未能在此时间范围内启动，则视为无响应，并将重新启动。默认值：120 秒。
unregister_model_timeout：超时（以秒为单位），在清理进程时处理取消注册模型请求时使用，否则会将其视为无响应并发送错误响应。默认值：120 秒。
decode_input_request：当内容类型已知时，允许后端工作人员对请求进行解码的配置。如果此项设置为 “true”，则当内容类型为 “application/json” 时，后端工作程序会执行 “Bytearray to JSON object” 转换，并且当请求的 Content-Type 设置为 “text*” 时，后端 worker 将 “Bytearray to utf-8 string” 转换为 “utf-8 string”。默认值：true
initial_worker_port：这是自动将端口分配给 worker 进程的初始端口号。
model_store：模型存储目录的路径。
model_server_home：Torchserve 主目录。
max_request_size：Torchserve 接受的最大允许请求大小（以字节为单位）。默认值：6553500
max_response_size：Torchserve 发送的最大允许响应大小（以字节为单位）。默认值：6553500
limit_max_image_pixels：默认值为 true（使用默认 PIL。Image.MAX_IMAGE_PIXELS）的 PIXELS中。如果设置为 “false”，则设置 PIL。Image.MAX_IMAGE_PIXELS = 大型图像负载的后端默认视觉处理程序中没有。
allowed_urls：允许的源 URL 的逗号分隔正则表达式，可从中注册模型。默认值：（所有 URL 和本地文件系统）例如：要允许基本 URL 并使用以下正则表达式字符串file://.*|http(s)?://.*https://s3.amazonaws.com/https://torchserve.pytorch.org/allowed_urls=https://s3.amazonaws.com/.*,https://torchserve.pytorch.org/.*
- 出于安全原因，需要在 config.properties 中读取环境变量。use_env_allowed_urls=trueallowed_urls
workflow_store：工作流存储目录的路径。默认为 model store directory。
disable_system_metrics：设置为“true”时禁用系统指标收集。默认值为 “false”。
system_metrics_cmd：带有参数的自定义系统指标 python 脚本名称。例如：。默认值：空，这意味着 TorchServe 通过“ts/metrics/metric_collector.py –gpu $CUDA_VISIBLE_DEVICES”收集系统指标。ts/metrics/metric_collector.py --gpu 0

注意

上述所有配置属性都可以使用环境变量进行设置，如下所示。

在 config.properties 中设置为 trueenable_envvars_config
将环境变量导出为。TS_<PROPERTY_NAME>

例如：要设置inference_address属性，请运行 cmd 。export TS_INFERENCE_ADDRESS="http://127.0.0.1:8082"

高级配置¶

环境变量¶

命令行参数¶

config.properties 文件¶

自定义 JVM 选项¶

启动时加载模型¶

配置 TorchServe 监听地址和端口¶

配置 TorchServe gRPC 侦听地址、端口和最大连接期限¶

启用 SSL¶

例子¶

首选直接缓冲液¶

允许特定于模型的自定义 python 包。¶

限制后端工作程序访问环境变量¶

限制 GPU 使用¶

Nvidia control 可见性¶

启用指标 API¶

配置模型¶

其他属性¶

文档

教程

资源

高级配置¶

环境变量¶

命令行参数¶

config.properties 文件¶

自定义 JVM 选项¶

启动时加载模型¶

配置 TorchServe 监听地址和端口¶

配置 TorchServe gRPC 侦听地址、端口和最大连接期限¶

启用 SSL¶

例子¶

配置跨域资源共享 （CORS）¶

首选直接缓冲液¶

允许特定于模型的自定义 python 包。¶

限制后端工作程序访问环境变量¶

限制 GPU 使用¶

Nvidia control 可见性¶

启用指标 API¶

配置模型¶

其他属性¶

文档

教程

资源

配置跨域资源共享（CORS）¶