torch.nn¶

这些是构建图的基本组件：

torch.nn

Parameter

一种被视为模块参数的张量。

UninitializedParameter

未初始化的参数。

UninitializedBuffer

一个未初始化的缓冲区。

容器 ¶

`Module`	所有神经网络模块的基础类。
`Sequential`	顺序容器。
`ModuleList`	包含子模块的列表。
`ModuleDict`	在字典中保存子模块。
`ParameterList`	以列表形式保存参数。
`ParameterDict`	以字典形式保存参数。

模块全局钩子

`register_module_forward_pre_hook`	为所有模块注册一个通用的前向预钩。
`register_module_forward_hook`	为所有模块注册一个全局前向钩子。
`register_module_backward_hook`	为所有模块注册一个通用的反向钩子。
`register_module_full_backward_pre_hook`	为所有模块注册一个通用的反向预钩。
`register_module_full_backward_hook`	为所有模块注册一个通用的反向钩子。
`register_module_buffer_registration_hook`	为所有模块注册一个通用的缓冲区注册钩子。
`register_module_module_registration_hook`	为所有模块注册一个通用的模块注册钩子。
`register_module_parameter_registration_hook`	为所有模块注册一个通用的参数注册钩子。

卷积层 ¶

`nn.Conv1d`	对由多个输入平面组成的一维输入信号应用卷积。
`nn.Conv2d`	对由多个输入平面组成的一维输入信号应用二维卷积。
`nn.Conv3d`	在多个输入平面组成的输入信号上应用三维卷积。
`nn.ConvTranspose1d`	在输入图像上应用一维转置卷积运算符，该图像由多个输入平面组成。
`nn.ConvTranspose2d`	在输入图像的多个输入平面之上应用二维转置卷积运算符。
`nn.ConvTranspose3d`	在输入图像上应用一个由多个输入平面组成的三维转置卷积运算符。
`nn.LazyConv1d`	一个带有懒初始化 `in_channels` 参数的 `torch.nn.Conv1d` 模块。
`nn.LazyConv2d`	一个带有懒初始化 `in_channels` 参数的 `torch.nn.Conv2d` 模块。
`nn.LazyConv3d`	一个带有懒初始化 `in_channels` 参数的 `torch.nn.Conv3d` 模块。
`nn.LazyConvTranspose1d`	一个带有懒初始化 `in_channels` 参数的 `torch.nn.ConvTranspose1d` 模块。
`nn.LazyConvTranspose2d`	一个带有懒初始化 `in_channels` 参数的 `torch.nn.ConvTranspose2d` 模块。
`nn.LazyConvTranspose3d`	一个带有懒初始化 `in_channels` 参数的 `torch.nn.ConvTranspose3d` 模块。
`nn.Unfold`	从批量输入张量中提取滑动局部块。
`nn.Fold`	将一组滑动局部块组合成一个大的包含张量。

池化层 ¶

`nn.MaxPool1d`	对由多个输入平面组成的一维输入信号应用最大池化操作。
`nn.MaxPool2d`	对由多个输入平面组成的一维输入信号应用二维最大池化。
`nn.MaxPool3d`	对由多个输入平面组成的空间信号应用三维最大池化操作。
`nn.MaxUnpool1d`	计算`MaxPool1d`的部分逆。
`nn.MaxUnpool2d`	计算`MaxPool2d`的部分逆。
`nn.MaxUnpool3d`	计算`MaxPool3d`的部分逆。
`nn.AvgPool1d`	对由多个输入平面组成的一维输入信号应用平均池化操作。
`nn.AvgPool2d`	对由多个输入平面组成的一维输入信号应用二维平均池化。
`nn.AvgPool3d`	对由多个输入平面组成的一组输入信号应用三维平均池化。
`nn.FractionalMaxPool2d`	对由多个输入平面组成的输入信号应用二维分数最大池化。
`nn.FractionalMaxPool3d`	对由多个输入平面组成的空间信号应用三维分数最大池化。
`nn.LPPool1d`	对由多个输入平面组成的一维输入信号应用幂平均池化操作。
`nn.LPPool2d`	对由多个输入平面组成的输入信号应用二维幂平均池化。
`nn.LPPool3d`	对由多个输入平面组成的输入信号应用三维幂平均池化。
`nn.AdaptiveMaxPool1d`	对由多个输入平面组成的一维输入信号应用自适应最大池化。
`nn.AdaptiveMaxPool2d`	对由多个输入平面组成的空间信号应用二维自适应最大池化。
`nn.AdaptiveMaxPool3d`	对由多个输入平面组成的空间信号应用三维自适应最大池化。
`nn.AdaptiveAvgPool1d`	对由多个输入平面组成的一维输入信号应用自适应平均池化操作。
`nn.AdaptiveAvgPool2d`	对由多个输入平面组成的一维输入信号应用二维自适应平均池化。
`nn.AdaptiveAvgPool3d`	对由多个输入平面组成的空间信号应用三维自适应平均池化。

填充层 ¶

`nn.ReflectionPad1d`	使用输入边界的数据反射来填充输入张量。
`nn.ReflectionPad2d`	使用输入边界的数据反射来填充输入张量。
`nn.ReflectionPad3d`	使用输入边界的数据反射来填充输入张量。
`nn.ReplicationPad1d`	使用输入边界复制来填充输入张量。
`nn.ReplicationPad2d`	使用输入边界复制来填充输入张量。
`nn.ReplicationPad3d`	使用输入边界复制来填充输入张量。
`nn.ZeroPad1d`	用零填充输入张量的边界。
`nn.ZeroPad2d`	用零填充输入张量的边界。
`nn.ZeroPad3d`	用零填充输入张量的边界。
`nn.ConstantPad1d`	用一个常量值填充输入张量的边界。
`nn.ConstantPad2d`	用一个常量值填充输入张量的边界。
`nn.ConstantPad3d`	用一个常量值填充输入张量的边界。
`nn.CircularPad1d`	使用输入边界循环填充对输入张量进行填充。
`nn.CircularPad2d`	使用输入边界循环填充对输入张量进行填充。
`nn.CircularPad3d`	使用输入边界循环填充对输入张量进行填充。

非线性激活（加权和，非线性）¶

`nn.ELU`	对元素应用指数线性单元（ELU）函数。
`nn.Hardshrink`	对元素应用硬收缩（Hardshrink）函数。
`nn.Hardsigmoid`	对元素进行逐点 HardSigmoid 函数运算。
`nn.Hardtanh`	对元素进行逐个应用 HardTanh 函数。
`nn.Hardswish`	对元素应用 Hardswish 函数。
`nn.LeakyReLU`	对元素进行逐个应用漏尾ReLU函数。
`nn.LogSigmoid`	对元素进行逐个应用Logsigmoid函数。
`nn.MultiheadAttention`	允许模型同时关注来自不同表示子空间的信息。
`nn.PReLU`	应用逐元素PReLU函数。
`nn.ReLU`	对元素应用整流线性单元函数。
`nn.ReLU6`	对元素进行逐点ReLU6函数运算。
`nn.RReLU`	应用元素级别的随机泄露修正线性单元函数。
`nn.SELU`	对元素进行逐个应用 SELU 函数。
`nn.CELU`	对元素应用CELU函数。
`nn.GELU`	应用高斯误差线性单元函数。
`nn.Sigmoid`	对元素进行逐个应用 Sigmoid 函数。
`nn.SiLU`	对元素应用 sigmoid 线性单元（SiLU）函数。
`nn.Mish`	对元素应用Mish函数。
`nn.Softplus`	对元素进行逐个Softplus函数运算。
`nn.Softshrink`	对元素进行逐点软收缩函数运算。
`nn.Softsign`	应用元素-wise Softsign 函数。
`nn.Tanh`	对元素进行逐点应用双曲正切（Tanh）函数。
`nn.Tanhshrink`	应用元素级别的Tanhshrink函数。
`nn.Threshold`	对输入张量的每个元素进行阈值处理。
`nn.GLU`	应用门控线性单元函数。

非线性激活函数（其他）¶

`nn.Softmin`	对 n 维输入张量应用 Softmin 函数。
`nn.Softmax`	对 n 维输入张量应用 Softmax 函数。
`nn.Softmax2d`	在每个空间位置上对特征应用 SoftMax。
`nn.LogSoftmax`	对 n 维输入张量应用 $\log(\text{Softmax}(x))$ 函数。
`nn.AdaptiveLogSoftmaxWithLoss`	高效的 softmax 近似。

归一化层 ¶

`nn.BatchNorm1d`	对 2D 或 3D 输入应用批处理归一化。
`nn.BatchNorm2d`	对 4D 输入应用批处理规范化。
`nn.BatchNorm3d`	对五维输入应用批处理规范化。
`nn.LazyBatchNorm1d`	一个具有惰性初始化的`torch.nn.BatchNorm1d`模块。
`nn.LazyBatchNorm2d`	一个具有惰性初始化的`torch.nn.BatchNorm2d`模块。
`nn.LazyBatchNorm3d`	一个具有惰性初始化的`torch.nn.BatchNorm3d`模块。
`nn.GroupNorm`	对输入的小批量数据应用组归一化。
`nn.SyncBatchNorm`	对N维输入应用批规范化。
`nn.InstanceNorm1d`	应用实例归一化。
`nn.InstanceNorm2d`	应用实例归一化。
`nn.InstanceNorm3d`	应用实例归一化。
`nn.LazyInstanceNorm1d`	一个带有懒初始化 `num_features` 参数的 `torch.nn.InstanceNorm1d` 模块。
`nn.LazyInstanceNorm2d`	一个带有懒初始化 `num_features` 参数的 `torch.nn.InstanceNorm2d` 模块。
`nn.LazyInstanceNorm3d`	一个带有懒初始化 `num_features` 参数的 `torch.nn.InstanceNorm3d` 模块。
`nn.LayerNorm`	对输入的小批量数据应用层归一化。
`nn.LocalResponseNorm`	对输入信号应用局部响应归一化。

循环层 ¶

`nn.RNNBase`	递归神经网络模块（RNN、LSTM、GRU）的基础类。
`nn.RNN`	将多层Elman RNN应用到输入序列中，具有 $\tanh$ 或 $\text{ReLU}$ 个非线性。
`nn.LSTM`	对输入序列应用多层长短期记忆（LSTM）循环神经网络（RNN）。
`nn.GRU`	对输入序列应用多层门控循环单元（GRU）RNN。
`nn.RNNCell`	具有 tanh 或 ReLU 非线性的 Elman RNN 单元。
`nn.LSTMCell`	一个长短期记忆（LSTM）单元。
`nn.GRUCell`	带门控的循环单元（GRU）细胞。

Transformer 层 ¶

`nn.Transformer`	一个Transformer模型。
`nn.TransformerEncoder`	TransformerEncoder 是由 N 个编码层组成的堆叠。
`nn.TransformerDecoder`	Transformer解码器由N个解码层组成。
`nn.TransformerEncoderLayer`	TransformerEncoderLayer 由自注意力机制和前馈网络组成。
`nn.TransformerDecoderLayer`	TransformerDecoderLayer 由自注意力层、多头注意力层和前馈网络组成。

线性层 ¶

`nn.Identity`	一个占位符身份运算符，不敏感于参数。
`nn.Linear`	对输入数据应用线性变换： $y = xA^T + b$ 。
`nn.Bilinear`	对传入的数据应用双线性变换： $y = x_1^T A x_2 + b$ 。
`nn.LazyLinear`	一个`torch.nn.Linear`模块，其中in_features被推断。

丢弃层 ¶

`nn.Dropout`	在训练过程中，以概率`p`随机将输入张量的一些元素置零。
`nn.Dropout1d`	随机将整个通道置零。
`nn.Dropout2d`	随机将整个通道置零。
`nn.Dropout3d`	随机将整个通道置零。
`nn.AlphaDropout`	对输入应用 Alpha Dropout。
`nn.FeatureAlphaDropout`	随机掩码整个通道。

稀疏层 ¶

`nn.Embedding`	一个简单的查找表，用于存储固定词典和大小的嵌入。
`nn.EmbeddingBag`	计算嵌入向量“袋”的和或平均值，而不实例化中间嵌入。

距离函数 ¶

`nn.CosineSimilarity`	返回 $x_1$ 和 $x_2$ 之间的余弦相似度，沿dim计算。
`nn.PairwiseDistance`	计算输入向量之间的成对距离，或者计算输入矩阵列之间的距离。

损失函数 ¶

`nn.L1Loss`	创建一个度量输入 $x$ 和目标 $y$ 之间平均绝对误差（MAE）的准则。
`nn.MSELoss`	创建一个度量标准，用于测量输入 $x$ 和目标 $y$ 中每个元素之间的均方误差（平方L2范数）。
`nn.CrossEntropyLoss`	此准则计算输入对数几率与目标之间的交叉熵损失。
`nn.CTCLoss`	连接主义时序分类损失。
`nn.NLLLoss`	对数似然损失的负值。
`nn.PoissonNLLLoss`	目标的泊松分布的对数似然损失。
`nn.GaussianNLLLoss`	高斯负对数似然损失。
`nn.KLDivLoss`	KL 散度损失。
`nn.BCELoss`	创建一个度量二元交叉熵的准则，用于衡量目标与输入概率之间的差异：
`nn.BCEWithLogitsLoss`	该损失结合了Sigmoid层和BCELoss到一个单一类别中。
`nn.MarginRankingLoss`	创建一个用于根据输入 $x1$ ， $x2$ ，两个1D小批量或0DTensors，以及1D小批量或0DTensor $y$ （包含1或-1）来衡量损失的标准。
`nn.HingeEmbeddingLoss`	计算给定输入张量 $x$ 和标签张量 $y$ （包含 1 或 -1）的损失。
`nn.MultiLabelMarginLoss`	创建一个优化准则，在输入 $x$ （一个2D小批量Tensor）和输出 $y$ （目标类索引的2DTensor）之间计算多分类多标签铰链损失（基于边际的损失）。
`nn.HuberLoss`	创建一个标准，当绝对元素误差低于 delta 时使用平方项，否则使用按 delta 缩放的 L1 项。
`nn.SmoothL1Loss`	创建一个标准，当绝对元素误差低于 beta 时使用平方项，否则使用 L1 项。
`nn.SoftMarginLoss`	创建一个优化准则，用于在输入张量 $x$ 和目标张量 $y$ （包含1或-1）之间进行两分类逻辑回归损失的优化。
`nn.MultiLabelSoftMarginLoss`	创建一个基于最大熵的多标签一对一损失优化标准，输入 $x$ 和目标 $y$ 的大小为 $(N, C)$ 。
`nn.CosineEmbeddingLoss`	创建一个度量损失的标准，给定输入张量 $x_1$ ， $x_2$ 和一个值为 1 或 -1 的 Tensor 标签 $y$ 。
`nn.MultiMarginLoss`	创建一个优化多分类铰链损失（基于 margin 的损失）的标准，该损失存在于输入 $x$ （一个 2D 小批量 Tensor）和输出 $y$ （这是一个目标类别索引的 1D 张量， $0 \leq y \leq \text{x.size}(1)-1$ ）之间：
`nn.TripletMarginLoss`	创建一个度量三元组损失的标准，给定输入张量 $x1$ ， $x2$ ， $x3$ 和一个大于 $0$ 的边界值。
`nn.TripletMarginWithDistanceLoss`	创建一个度量三元组损失的标准，给定输入张量 $a$ 、 $p$ 和 $n$ （分别表示锚点、正例和负例），并使用一个非负实值函数（"距离函数"）来计算锚点与正例之间的关系（"正向距离"）和锚点与负例之间的关系（"负向距离"）。

视觉层 ¶

`nn.PixelShuffle`	根据缩放因子重新排列张量中的元素。
`nn.PixelUnshuffle`	反向像素拼接操作。
`nn.Upsample`	对给定的多通道一维（时间）、二维（空间）或三维（体积）数据进行上采样。
`nn.UpsamplingNearest2d`	对由多个输入通道组成的一维输入信号应用二维最近邻上采样。
`nn.UpsamplingBilinear2d`	对由多个输入通道组成的一维输入信号应用二维双线性上采样。

洗牌层 ¶

nn.ChannelShuffle

对张量中的通道进行划分和重新排列。

数据并行层（多GPU，分布式）¶

`nn.DataParallel`	在模块级别实现数据并行化。
`nn.parallel.DistributedDataParallel`	实现基于`torch.distributed`的模块级数据并行分布。

工具 ¶

从torch.nn.utils模块：

用于裁剪参数梯度的工具函数。

clip_grad_norm_

对参数可迭代对象裁剪梯度范数。

clip_grad_norm

对参数可迭代对象裁剪梯度范数。

clip_grad_value_

对可迭代参数进行梯度裁剪，将其值限定在指定范围内。

用于将模块参数展平为单个向量以及从单个向量还原的工具函数。

parameters_to_vector

将参数的可迭代对象展平为单个向量。

vector_to_parameters

将向量的切片复制到参数的可迭代对象中。

用于融合包含批处理归一化模块的模块的工具函数。

`fuse_conv_bn_eval`	融合一个卷积模块和一个批归一化模块，形成一个新的单一卷积模块。
`fuse_conv_bn_weights`	融合卷积模块参数和批归一化模块参数为新的卷积模块参数。
`fuse_linear_bn_eval`	融合一个线性模块和一个批归一化模块为一个新的单一线性模块。
`fuse_linear_bn_weights`	融合线性模块参数和批归一化模块参数为新的线性模块参数。

用于转换模块参数内存格式的工具函数。

convert_conv2d_weight_memory_format

将 memory_format 中的 nn.Conv2d.weight 转换为 memory_format。

convert_conv3d_weight_memory_format

将memory_format中的nn.Conv3d.weight转换为memory_format。该转换递归应用于嵌套的nn.Module，包括module。

用于对模块参数应用和移除权重归一化的工具函数。

`weight_norm`	对给定模块中的参数应用权重归一化。
`remove_weight_norm`	移除模块的权重归一化重参数化。
`spectral_norm`	对给定模块中的参数应用谱归一化。
`remove_spectral_norm`	移除模块中的谱范数重新参数化。

初始化模块参数的工具函数。

skip_init

给定一个模块类对象和参数 args / kwargs，在不初始化参数/缓冲区的情况下实例化该模块。

用于修剪模块参数的工具类和函数。

`prune.BasePruningMethod`	用于创建新剪枝技术的抽象基类。
`prune.PruningContainer`	容器用于保存一系列迭代剪枝方法。
`prune.Identity`	一种实用的剪枝方法，不会剪枝任何单元，但会生成一个全为一的掩码来定义剪枝参数化。
`prune.RandomUnstructured`	随机修剪（当前未修剪的）张量中的单位。
`prune.L1Unstructured`	通过将具有最低 L1 范数的单元置零来修剪张量中的单元（当前未经过修剪）。
`prune.RandomStructured`	随机修剪张量中的整个通道（目前未被修剪）。
`prune.LnStructured`	根据张量通道的L`n`-范数修剪整个（当前未被修剪）通道。
`prune.CustomFromMask`
`prune.identity`	应用剪枝重新参数化而不修剪任何单元。
`prune.random_unstructured`	通过移除随机（当前未修剪）单元来修剪张量。
`prune.l1_unstructured`	通过移除 L1 范数最低的单元来修剪张量。
`prune.random_structured`	沿指定维度移除随机通道以修剪张量。
`prune.ln_structured`	通过删除指定维度上L`n`-范数最低的通道来修剪张量。
`prune.global_unstructured`	全局修剪与`parameters`中的所有参数对应的张量，通过应用指定的`pruning_method`。
`prune.custom_from_mask`	通过在`mask`中应用预先计算的掩码，修剪与`name`参数对应的张量，该参数位于`module`中。
`prune.remove`	从模块中移除剪枝重参数化，并从前向钩子中移除剪枝方法。
`prune.is_pruned`	通过查找剪枝预钩子来检查一个模块是否被剪枝。

使用新的参数化功能在torch.nn.utils.parameterize.register_parametrization()中实现的参数化。

`parametrizations.orthogonal`	对矩阵或矩阵批次应用正交或酉参数化。
`parametrizations.weight_norm`	对给定模块中的参数应用权重归一化。
`parametrizations.spectral_norm`	对给定模块中的参数应用谱归一化。

实用函数，用于对现有模块中的张量进行参数化。请注意，这些函数可以用于给定的参数或缓冲区，通过特定的函数从输入空间映射到参数化空间。它们不是将对象转换为参数的参数化方法。有关如何实现自己的参数化的更多信息，请参阅参数化教程。

`parametrize.register_parametrization`	在模块中为张量注册一个参数化。
`parametrize.remove_parametrizations`	移除模块中张量的参数化。
`parametrize.cached`	上下文管理器，启用在使用`register_parametrization()`注册的参数化中的缓存系统。
`parametrize.is_parametrized`	确定一个模块是否有参数化。

parametrize.ParametrizationList

一个顺序容器，用于保存和管理参数化torch.nn.Module的原始参数或缓冲区。

以无状态方式调用给定模块的工具函数。

stateless.functional_call

通过用提供的参数和缓冲区替换模块的参数和缓冲区来调用该模块的功能。

其他模块中的工具函数

`nn.utils.rnn.PackedSequence`	存储数据和一个打包序列的`batch_sizes`列表。
`nn.utils.rnn.pack_padded_sequence`	包装一个包含不同长度填充序列的张量。
`nn.utils.rnn.pad_packed_sequence`	填充一批长度不一的可变长度序列。
`nn.utils.rnn.pad_sequence`	用`padding_value`填充长度不一的张量列表。
`nn.utils.rnn.pack_sequence`	打包一个变长张量列表。
`nn.utils.rnn.unpack_sequence`	将 PackedSequence 展开为一列表示不同长度张量。
`nn.utils.rnn.unpad_sequence`	移除填充张量中的填充部分，将其转换为一组长度各异的张量列表。

`nn.Flatten`	将连续范围的维度展平为一个张量。
`nn.Unflatten`	将张量的一维展平，扩展到所需的形状。

量化函数 ¶

量化是指在低于浮点精度的位宽下执行计算和存储张量的技术。PyTorch 支持每张量和每通道非对称线性量化。要了解更多关于如何在 PyTorch 中使用量化函数的信息，请参阅量化文档。

惰性模块初始化 ¶

nn.modules.lazy.LazyModuleMixin

用于惰性初始化参数的模块的混入类，也称为“惰性模块”。

torch.nn¶

文档

教程

资源