目录

模型集成

创建日期: 2023年3月15日 | 最后更新日期: 2024年1月16日 | 最后验证日期: 2024年11月5日

本教程说明了如何使用 torch.vmap 对模型进行向量化组合。

什么是模型集成?

模型集成是将多个模型的预测结果结合起来。 传统的方法是分别在一些输入上运行每个模型,然后结合它们的预测结果。然而,如果你运行的是相同架构的模型,那么可以使用 torch.vmap 将它们结合起来。vmap 是一个函数转换器,它将函数映射到输入张量的维度上。其中一个用例是通过向量化消除 for 循环并加速它们。

让我们通过一个简单的MLPs集成来演示如何做到这一点。

注意

本教程要求使用 PyTorch 2.0.0 或更高版本。

import torch
import torch.nn as nn
import torch.nn.functional as F
torch.manual_seed(0)

# Here's a simple MLP
class SimpleMLP(nn.Module):
    def __init__(self):
        super(SimpleMLP, self).__init__()
        self.fc1 = nn.Linear(784, 128)
        self.fc2 = nn.Linear(128, 128)
        self.fc3 = nn.Linear(128, 10)

    def forward(self, x):
        x = x.flatten(1)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x)
        x = F.relu(x)
        x = self.fc3(x)
        return x

让我们生成一批假数据,并假设我们正在处理一个MNIST数据集。因此,这些假图像的大小为28x28,我们有一个批量大小为64的小批量。此外,假设我们要结合10个不同模型的预测结果。

device = 'cuda'
num_models = 10

data = torch.randn(100, 64, 1, 28, 28, device=device)
targets = torch.randint(10, (6400,), device=device)

models = [SimpleMLP().to(device) for _ in range(num_models)]

我们有几种生成预测的方法。也许我们希望为每个模型提供不同的随机化的小批量数据。或者,也许我们希望同一个小批量数据通过每个模型运行(例如,如果我们正在测试不同模型初始化的效果)。

选项 1:每个模型使用不同的小批量数据

minibatches = data[:num_models]
predictions_diff_minibatch_loop = [model(minibatch) for model, minibatch in zip(models, minibatches)]

选项 2:相同的小批量

minibatch = data[0]
predictions2 = [model(minibatch) for model in models]

使用 vmap 进行集成向量化

让我们使用 vmap 来加速 for-loop。我们首先必须为模型准备 vmap

首先,让我们通过堆叠每个参数来合并模型的状态。例如,model[i].fc1.weight 的形状为 [784, 128];我们将堆叠每10个模型中的 .fc1.weight 以生成一个大权重,其形状为 [10, 784, 128]

PyTorch 提供了 torch.func.stack_module_state 一个方便的功能来完成这个任务。

from torch.func import stack_module_state

params, buffers = stack_module_state(models)

接下来,我们需要定义一个函数来vmap。该函数应根据给定的参数、缓冲区和输入,使用这些参数、缓冲区和输入运行模型。我们将使用torch.func.functional_call来帮助实现:

from torch.func import functional_call
import copy

# Construct a "stateless" version of one of the models. It is "stateless" in
# the sense that the parameters are meta Tensors and do not have storage.
base_model = copy.deepcopy(models[0])
base_model = base_model.to('meta')

def fmodel(params, buffers, x):
    return functional_call(base_model, (params, buffers), (x,))

选项 1:为每个模型使用不同的 minibatch 获取预测。

默认情况下,vmap 将函数应用于所有输入的第一个维度。使用 stack_module_state 后,每个 params 和缓冲区在前面增加了一个大小为‘num_models’的维度,而小批量数据也有一个大小为‘num_models’的维度。

print([p.size(0) for p in params.values()]) # show the leading 'num_models' dimension

assert minibatches.shape == (num_models, 64, 1, 28, 28) # verify minibatch has leading dimension of size 'num_models'

from torch import vmap

predictions1_vmap = vmap(fmodel)(params, buffers, minibatches)

# verify the ``vmap`` predictions match the
assert torch.allclose(predictions1_vmap, torch.stack(predictions_diff_minibatch_loop), atol=1e-3, rtol=1e-5)
[10, 10, 10, 10, 10, 10]

选项 2:使用相同的最小批次数据获取预测。

vmap 有一个 in_dims 参数,用于指定要映射的维度。 通过使用 None,我们告诉 vmap 我们希望同一个 minibatch 应用于所有的 10 模型。

predictions2_vmap = vmap(fmodel, in_dims=(0, 0, None))(params, buffers, minibatch)

assert torch.allclose(predictions2_vmap, torch.stack(predictions2), atol=1e-3, rtol=1e-5)

A quick note: 有关可以转换为vmap的函数类型存在限制。最佳的可转换函数是纯函数:输入参数决定输出结果的函数且没有副作用(例如,变异)。vmap无法处理任意Python数据结构的变异,但能够处理许多原地PyTorch操作。

性能

对性能数据感兴趣吗?这里就是数据的样子。

from torch.utils.benchmark import Timer
without_vmap = Timer(
    stmt="[model(minibatch) for model, minibatch in zip(models, minibatches)]",
    globals=globals())
with_vmap = Timer(
    stmt="vmap(fmodel)(params, buffers, minibatches)",
    globals=globals())
print(f'Predictions without vmap {without_vmap.timeit(100)}')
print(f'Predictions with vmap {with_vmap.timeit(100)}')
Predictions without vmap <torch.utils.benchmark.utils.common.Measurement object at 0x7fd43694c670>
[model(minibatch) for model, minibatch in zip(models, minibatches)]
  2.61 ms
  1 measurement, 100 runs , 1 thread
Predictions with vmap <torch.utils.benchmark.utils.common.Measurement object at 0x7fd43694ca90>
vmap(fmodel)(params, buffers, minibatches)
  894.99 us
  1 measurement, 100 runs , 1 thread

使用 vmap 可以获得很大的速度提升!

一般而言,使用 vmap 进行向量化应该比在 for 循环中运行函数更快,并且与手动批量处理相当。不过也有一些例外情况,比如我们可能还没有为特定操作实现 vmap 规则,或者底层内核没有针对旧硬件(GPU)进行优化。如果您遇到这些情况,请通过在 GitHub 上打开问题来告知我们。

脚本总运行时间: ( 0 分钟 0.896 秒)

通过 Sphinx-Gallery 生成的画廊

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源