torch.nn¶

以下是图形的基本构建块：

torch.nn

`Buffer`	一种不应被视为模型参数的 Tensor。
`Parameter`	一种 Tensor，将被视为 module 参数。
`UninitializedParameter`	未初始化的参数。
`UninitializedBuffer`	未初始化的缓冲区。

器皿 ¶

`Module`	所有神经网络模块的基类。
`Sequential`	顺序容器。
`ModuleList`	将子模块保存在列表中。
`ModuleDict`	在字典中保存子模块。
`ParameterList`	在列表中保存参数。
`ParameterDict`	在字典中保存参数。

Module 的全局钩子

`register_module_forward_pre_hook`	注册一个所有模块通用的正向预钩子。
`register_module_forward_hook`	为所有模块注册一个全局 forward hook。
`register_module_backward_hook`	注册一个所有模块通用的反向钩子。
`register_module_full_backward_pre_hook`	注册一个所有模块通用的向后预钩子。
`register_module_full_backward_hook`	注册一个所有模块通用的反向钩子。
`register_module_buffer_registration_hook`	注册一个所有模块通用的缓冲区注册钩子。
`register_module_module_registration_hook`	注册一个所有模块通用的模块注册钩子。
`register_module_parameter_registration_hook`	注册一个所有模块通用的参数注册钩子。

卷积层 ¶

`nn.Conv1d`	将 1D 卷积应用于由多个输入平面组成的输入信号。
`nn.Conv2d`	将 2D 卷积应用于由多个输入平面组成的输入信号。
`nn.Conv3d`	在由多个输入平面组成的输入信号上应用 3D 卷积。
`nn.ConvTranspose1d`	将 1D 转置卷积运算符应用于由多个输入平面组成的输入图像。
`nn.ConvTranspose2d`	将 2D 转置卷积运算符应用于由多个输入平面组成的输入图像。
`nn.ConvTranspose3d`	将 3D 转置卷积运算符应用于由多个输入平面组成的输入图像。
`nn.LazyConv1d`	一个`torch.nn.Conv1d`module 的参数的延迟初始化。`in_channels`
`nn.LazyConv2d`	一个`torch.nn.Conv2d`module 的参数的延迟初始化。`in_channels`
`nn.LazyConv3d`	一个`torch.nn.Conv3d`module 的参数的延迟初始化。`in_channels`
`nn.LazyConvTranspose1d`	一个`torch.nn.ConvTranspose1d`module 的参数的延迟初始化。`in_channels`
`nn.LazyConvTranspose2d`	一个`torch.nn.ConvTranspose2d`module 的参数的延迟初始化。`in_channels`
`nn.LazyConvTranspose3d`	一个`torch.nn.ConvTranspose3d`module 的参数的延迟初始化。`in_channels`
`nn.Unfold`	从批处理的输入张量中提取滑动局部块。
`nn.Fold`	将一组滑动的局部块组合成一个大的包含张量。

池化层 ¶

`nn.MaxPool1d`	在由多个输入平面组成的输入信号上应用 1D 最大池化。
`nn.MaxPool2d`	在由多个输入平面组成的输入信号上应用 2D 最大池化。
`nn.MaxPool3d`	在由多个输入平面组成的输入信号上应用 3D 最大池化。
`nn.MaxUnpool1d`	计算的偏逆。`MaxPool1d`
`nn.MaxUnpool2d`	计算的偏逆。`MaxPool2d`
`nn.MaxUnpool3d`	计算的偏逆。`MaxPool3d`
`nn.AvgPool1d`	在由多个输入平面组成的输入信号上应用 1D 平均池化。
`nn.AvgPool2d`	在由多个输入平面组成的输入信号上应用 2D 平均池化。
`nn.AvgPool3d`	在由多个输入平面组成的输入信号上应用 3D 平均池化。
`nn.FractionalMaxPool2d`	在由多个输入平面组成的输入信号上应用 2D 分数最大池化。
`nn.FractionalMaxPool3d`	在由多个输入平面组成的输入信号上应用 3D 分数最大池化。
`nn.LPPool1d`	在由多个输入平面组成的输入信号上应用 1D 功率平均池化。
`nn.LPPool2d`	在由多个输入平面组成的输入信号上应用 2D 功率平均池。
`nn.LPPool3d`	在由多个输入平面组成的输入信号上应用 3D 功率平均池化。
`nn.AdaptiveMaxPool1d`	在由多个输入平面组成的输入信号上应用 1D 自适应最大池化。
`nn.AdaptiveMaxPool2d`	在由多个输入平面组成的输入信号上应用 2D 自适应最大池化。
`nn.AdaptiveMaxPool3d`	在由多个输入平面组成的输入信号上应用 3D 自适应最大池化。
`nn.AdaptiveAvgPool1d`	在由多个输入平面组成的输入信号上应用 1D 自适应平均池化。
`nn.AdaptiveAvgPool2d`	在由多个输入平面组成的输入信号上应用 2D 自适应平均池化。
`nn.AdaptiveAvgPool3d`	在由多个输入平面组成的输入信号上应用 3D 自适应平均池化。

填充层 ¶

`nn.ReflectionPad1d`	使用输入边界的反射填充输入张量。
`nn.ReflectionPad2d`	使用输入边界的反射填充输入张量。
`nn.ReflectionPad3d`	使用输入边界的反射填充输入张量。
`nn.ReplicationPad1d`	使用输入边界的复制填充输入张量。
`nn.ReplicationPad2d`	使用输入边界的复制填充输入张量。
`nn.ReplicationPad3d`	使用输入边界的复制填充输入张量。
`nn.ZeroPad1d`	用零填充 input tensor 边界。
`nn.ZeroPad2d`	用零填充 input tensor 边界。
`nn.ZeroPad3d`	用零填充 input tensor 边界。
`nn.ConstantPad1d`	用常量值填充输入张量边界。
`nn.ConstantPad2d`	用常量值填充输入张量边界。
`nn.ConstantPad3d`	用常量值填充输入张量边界。
`nn.CircularPad1d`	使用输入边界的圆形填充来填充输入张量。
`nn.CircularPad2d`	使用输入边界的圆形填充来填充输入张量。
`nn.CircularPad3d`	使用输入边界的圆形填充来填充输入张量。

非线性激活（加权和、非线性）¶

`nn.ELU`	按元素应用 Exponential Linear Unit （ELU）函数。
`nn.Hardshrink`	按元素应用 Hard Shrinkage （Hardshrink）功能。
`nn.Hardsigmoid`	按元素应用 Hardsigmoid 函数。
`nn.Hardtanh`	按元素应用 HardTanh 函数。
`nn.Hardswish`	按元素应用 Hardswish 函数。
`nn.LeakyReLU`	按元素应用 LeakyReLU 函数。
`nn.LogSigmoid`	按元素应用 Logsigmoid 函数。
`nn.MultiheadAttention`	允许模型共同关注来自不同表示子空间的信息。
`nn.PReLU`	应用元素级 PReLU 函数。
`nn.ReLU`	按元素应用修正的线性单元函数。
`nn.ReLU6`	按元素应用 ReLU6 函数。
`nn.RReLU`	按元素应用随机泄漏整流线性单元函数。
`nn.SELU`	按元素应用 SELU 函数。
`nn.CELU`	按元素应用 CELU 函数。
`nn.GELU`	应用 Gaussian Error Linear Units 功能。
`nn.Sigmoid`	按元素应用 Sigmoid 函数。
`nn.SiLU`	按元素应用 Sigmoid 线性单元（SiLU）功能。
`nn.Mish`	按元素应用 Mish 函数。
`nn.Softplus`	按元素应用 Softplus 函数。
`nn.Softshrink`	按元素应用软收缩功能。
`nn.Softsign`	应用元素级 Softsign 函数。
`nn.Tanh`	按元素应用 Hyperbolic Chung （Tanh）函数。
`nn.Tanhshrink`	应用元素级 Tanhshrink 函数。
`nn.Threshold`	对输入 Tensor 的每个元素进行阈值设置。
`nn.GLU`	应用门控线性单元功能。

非线性激活（其他）¶

`nn.Softmin`	将 Softmin 函数应用于 n 维输入 Tensor。
`nn.Softmax`	将 Softmax 函数应用于 n 维输入 Tensor。
`nn.Softmax2d`	将 SoftMax 应用于每个空间位置的特征。
`nn.LogSoftmax`	应用 $\log(\text{Softmax}(x))$ 函数转换为 n 维输入 Tensor。
`nn.AdaptiveLogSoftmaxWithLoss`	高效的 softmax 近似。

归一化图层 ¶

`nn.BatchNorm1d`	对 2D 或 3D 输入应用批量归一化。
`nn.BatchNorm2d`	对 4D 输入应用批量归一化。
`nn.BatchNorm3d`	对 5D 输入应用批量归一化。
`nn.LazyBatchNorm1d`	一个`torch.nn.BatchNorm1d`模块。
`nn.LazyBatchNorm2d`	一个`torch.nn.BatchNorm2d`模块。
`nn.LazyBatchNorm3d`	一个`torch.nn.BatchNorm3d`模块。
`nn.GroupNorm`	对一小批输入应用组归一化。
`nn.SyncBatchNorm`	对 N 维输入应用批量归一化。
`nn.InstanceNorm1d`	应用实例标准化。
`nn.InstanceNorm2d`	应用实例标准化。
`nn.InstanceNorm3d`	应用实例标准化。
`nn.LazyInstanceNorm1d`	一个`torch.nn.InstanceNorm1d`module 的参数的延迟初始化。`num_features`
`nn.LazyInstanceNorm2d`	一个`torch.nn.InstanceNorm2d`module 的参数的延迟初始化。`num_features`
`nn.LazyInstanceNorm3d`	一个`torch.nn.InstanceNorm3d`module 的参数的延迟初始化。`num_features`
`nn.LayerNorm`	对一小批输入应用 Layer Normalization。
`nn.LocalResponseNorm`	对输入信号应用局部响应归一化。
`nn.RMSNorm`	对一小批输入应用均方根层归一化。

循环层 ¶

`nn.RNNBase`	RNN 模块的基类（RNN、LSTM、GRU）。
`nn.RNN`	应用多层 Elman RNN $\tanh$ 或 $\text{ReLU}$ nonlinearity 到 input 序列。
`nn.LSTM`	将多层长短期记忆（LSTM） RNN 应用于输入序列。
`nn.GRU`	将多层门控循环单元（GRU） RNN 应用于输入序列。
`nn.RNNCell`	具有 tanh 或 ReLU 非线性的 Elman RNN 单元。
`nn.LSTMCell`	较长的短期记忆（LSTM）单元。
`nn.GRUCell`	门控循环单元（GRU）单元。

变压器层 ¶

`nn.Transformer`	transformer 模型。
`nn.TransformerEncoder`	TransformerEncoder 是 N 个编码器层的堆栈。
`nn.TransformerDecoder`	TransformerDecoder 是 N 个解码器层的堆栈。
`nn.TransformerEncoderLayer`	TransformerEncoderLayer 由 self-attn 和前馈网络组成。
`nn.TransformerDecoderLayer`	TransformerDecoderLayer 由 self-attn、multi-head-attn 和前馈网络组成。

线性层 ¶

`nn.Identity`	不区分参数的占位符标识运算符。
`nn.Linear`	对传入数据应用仿射线性变换： $y = xA^T + b$ .
`nn.Bilinear`	将双线性变换应用于传入数据： $y = x_1^T A x_2 + b$ .
`nn.LazyLinear`	一个`torch.nn.Linear`模块，其中推断in_features。

Dropout 图层 ¶

`nn.Dropout`	在训练期间，使用 probability 将输入张量的某些元素随机归零。`p`
`nn.Dropout1d`	随机将整个通道清零。
`nn.Dropout2d`	随机将整个通道清零。
`nn.Dropout3d`	随机将整个通道清零。
`nn.AlphaDropout`	将 Alpha Dropout 应用于输入。
`nn.FeatureAlphaDropout`	随机遮罩整个通道。

稀疏层 ¶

`nn.Embedding`	一个简单的查找表，用于存储固定字典和大小的嵌入。
`nn.EmbeddingBag`	计算嵌入的 'bags' 的总和或平均值，而不实例化中间嵌入。

距离函数 ¶

`nn.CosineSimilarity`	返回之间的余弦相似度 $x_1$ 和 $x_2$ ，沿 dim 计算。
`nn.PairwiseDistance`	计算输入向量之间或输入矩阵列之间的成对距离。

损失函数 ¶

`nn.L1Loss`	创建一个标准，用于测量输入中每个元素之间的平均绝对误差（MAE） $x$ 和目标 $y$ .
`nn.MSELoss`	创建一个标准，用于测量输入中每个元素之间的均方误差（平方 L2 范数） $x$ 和目标 $y$ .
`nn.CrossEntropyLoss`	该准则计算 input logit 和 target 之间的交叉熵损失。
`nn.CTCLoss`	Connectionist Temporal Classification 损失。
`nn.NLLLoss`	负对数似然损失。
`nn.PoissonNLLLoss`	目标泊松分布的负对数似然损失。
`nn.GaussianNLLLoss`	高斯负对数似然损失。
`nn.KLDivLoss`	Kullback-Leibler 背离损失。
`nn.BCELoss`	创建一个标准，用于测量目标概率和输入概率之间的二进制交叉熵：
`nn.BCEWithLogitsLoss`	这种损失将 Sigmoid 层和 BCELoss 组合在一个类中。
`nn.MarginRankingLoss`	创建一个标准来衡量给定输入的损失 $x1$ , $x2$ 、两个 1D 小批量或 0D 张量，以及一个标签 1D 小批量或 0D 张量 $y$ （包含 1 或 -1）。
`nn.HingeEmbeddingLoss`	测量给定输入张量的损失 $x$ 和一个 labels 张量 $y$ （包含 1 或 -1）。
`nn.MultiLabelMarginLoss`	创建一个标准，用于优化输入之间的多类多分类铰链损失（基于边际的损失） $x$ （一个 2D 小批量 Tensor）和输出 $y$ （这是目标类索引的 2D 张量）。
`nn.HuberLoss`	创建一个条件，如果绝对元素误差低于 delta，则使用平方项，否则使用 delta 缩放的 L1 项。
`nn.SmoothL1Loss`	创建一个标准，如果绝对元素误差低于 beta，则使用平方项，否则使用 L1 项。
`nn.SoftMarginLoss`	创建一个标准，用于优化输入张量之间的两类分类 logistic loss $x$ 和目标张量 $y$ （包含 1 或 -1）。
`nn.MultiLabelSoftMarginLoss`	创建一个标准，该标准根据输入之间的最大熵优化多标签一对多损失 $x$ 和目标 $y$ 大小 $(N, C)$ .
`nn.CosineEmbeddingLoss`	创建一个标准来测量给定输入张量的损失 $x_1$ , $x_2$ 和一个 Tensor 标签 $y$ 值为 1 或 -1。
`nn.MultiMarginLoss`	创建一个标准，用于优化输入之间的多类分类铰链损失（基于边际的损失） $x$ （一个 2D 小批量 Tensor）和输出 $y$ （这是目标类索引的 1D 张量， $0 \leq y \leq \text{x.size}(1)-1$ ):
`nn.TripletMarginLoss`	创建一个标准，用于测量给定输入张量的三元组损失 $x1$ , $x2$ , $x3$ 以及值大于 $0$ .
`nn.TripletMarginWithDistanceLoss`	创建一个标准，用于测量给定输入张量的三元组损失 $a$ , $p$ 和 $n$ （分别表示锚点、正例和负例）和用于计算锚点和正例（“正距离”）和锚点和负例（“负距离”）之间的关系的非负实值函数（“距离函数”）。

Vision Layers ¶

`nn.PixelShuffle`	根据放大因子重新排列张量中的元素。
`nn.PixelUnshuffle`	反转 PixelShuffle作。
`nn.Upsample`	对给定的多通道 1D（时间）、2D（空间）或 3D（体积）数据进行上采样。
`nn.UpsamplingNearest2d`	将 2D 最近邻上采样应用于由多个输入通道组成的输入信号。
`nn.UpsamplingBilinear2d`	将 2D 双线性上采样应用于由多个输入通道组成的输入信号。

随机排列图层 ¶

nn.ChannelShuffle

划分和重新排列张量中的通道。

DataParallel Layers（多 GPU，分布式）¶

`nn.DataParallel`	在模块级别实现数据并行。
`nn.parallel.DistributedDataParallel`	基于模块级别实现分布式数据并行。`torch.distributed`

公用事业 ¶

从模块中：torch.nn.utils

用于剪辑参数渐变的实用函数。

`clip_grad_norm_`	裁剪参数可迭代对象的梯度范数。
`clip_grad_norm`	裁剪参数可迭代对象的梯度范数。
`clip_grad_value_`	将参数可迭代对象的渐变剪辑为指定值。
`get_total_norm`	计算张量的可迭代对象的范数。
`clip_grads_with_norm_`	在给定预先计算的总范数和所需的最大范数的情况下，缩放参数可迭代对象的梯度。

用于将 Module 参数展平和从单个向量展平和取消展平的实用函数。

parameters_to_vector

将参数的可迭代对象展平为单个 vector。

vector_to_parameters

将 vector 的切片复制到参数的可迭代对象中。

将 Module 与 BatchNorm 模块融合的 Utility 函数。

`fuse_conv_bn_eval`	将卷积模块和 BatchNorm 模块融合成一个新的卷积模块。
`fuse_conv_bn_weights`	将卷积模块参数和 BatchNorm 模块参数融合为新的卷积模块参数。
`fuse_linear_bn_eval`	将线性模块和 BatchNorm 模块融合成一个新的线性模块。
`fuse_linear_bn_weights`	将线性模块参数和 BatchNorm 模块参数融合为新的线性模块参数。

用于转换 Module 参数内存格式的 Utility 函数。

convert_conv2d_weight_memory_format

转换为 .memory_formatnn.Conv2d.weightmemory_format

convert_conv3d_weight_memory_format

转换为转换递归应用于嵌套，包括。memory_formatnn.Conv3d.weightmemory_formatnn.Modulemodule

用于从 Module 参数中应用和删除权重归一化的实用函数。

`weight_norm`	将权重标准化应用于给定模块中的参数。
`remove_weight_norm`	从模块中删除权重规范化重新参数化。
`spectral_norm`	将频谱归一化应用于给定模块中的参数。
`remove_spectral_norm`	从模块中删除光谱归一化重新参数化。

用于初始化 Module 参数的实用函数。

skip_init

给定一个模块类 object 和 args / kwargs，在不初始化参数/缓冲区的情况下实例化模块。

用于修剪 Module 参数的 Util 类和函数。

`prune.BasePruningMethod`	用于创建新修剪技术的抽象基类。
`prune.PruningContainer`	Container 保存一系列用于迭代修剪的修剪方法。
`prune.Identity`	实用程序修剪方法，不修剪任何单元，但生成带有 1 掩码的修剪参数化。
`prune.RandomUnstructured`	随机修剪张量中的（当前未修剪）单元。
`prune.L1Unstructured`	通过将具有最低 L1 范数的单元归零来修剪张量中的单元（当前未修剪）。
`prune.RandomStructured`	随机修剪张量中的整个（当前未修剪）通道。
`prune.LnStructured`	根据 L-norm 修剪张量中的整个（当前未修剪）通道。`n`
`prune.CustomFromMask`
`prune.identity`	应用修剪重新参数化，而不修剪任何单位。
`prune.random_unstructured`	通过删除随机（当前未修剪）单元来修剪张量。
`prune.l1_unstructured`	通过删除具有最低 L1 范数的单元来修剪张量。
`prune.random_structured`	通过删除沿指定维度的随机通道来修剪张量。
`prune.ln_structured`	通过删除沿指定维度具有最低 L 范数的通道来修剪张量。`n`
`prune.global_unstructured`	通过应用指定的 .`parameterspruning_method`
`prune.custom_from_mask`	通过在中应用预先计算的掩码来修剪与调用的参数对应的张量。`namemodulemask`
`prune.remove`	从模块中删除 pruning reparameterization，从 forward hook 中删除 pruning 方法。
`prune.is_pruned`	通过查找 pruning pre-hooks 来检查模块是否被修剪。

使用新的参数化功能实现参数化在。torch.nn.utils.parameterize.register_parametrization()

`parametrizations.orthogonal`	将正交或酉参数化应用于矩阵或一批矩阵。
`parametrizations.weight_norm`	将权重标准化应用于给定模块中的参数。
`parametrizations.spectral_norm`	将频谱归一化应用于给定模块中的参数。

用于在现有 Module 上参数化 Tensor 的实用函数。请注意，这些函数可用于参数化给定的 Parameter 或 Buffer 给定一个特定函数，该函数从输入空间映射到参数化空间。它们不是会转换的参数化将对象转换为参数。有关如何实现自己的参数化的更多信息，请参阅 Parametrizations 教程。

`parametrize.register_parametrization`	将参数化注册到模块中的张量。
`parametrize.remove_parametrizations`	删除模块中张量的参数化。
`parametrize.cached`	上下文管理器，该管理器在注册到的参数化中启用缓存系统。`register_parametrization()`
`parametrize.is_parametrized`	确定模块是否具有参数化。

parametrize.ParametrizationList

一个顺序容器，用于保存和管理参数化torch.nn.Module.

以无状态方式调用给定 Module 的 Utility 函数。

stateless.functional_call

通过将模块参数和缓冲区替换为提供的参数和缓冲区，对模块执行功能调用。

其他模块中的实用函数

`nn.utils.rnn.PackedSequence`	保存打包序列的数据和列表。`batch_sizes`
`nn.utils.rnn.pack_padded_sequence`	打包一个包含可变长度的填充序列的 Tensor。
`nn.utils.rnn.pad_packed_sequence`	填充一批可变长度序列。
`nn.utils.rnn.pad_sequence`	用 .`padding_value`
`nn.utils.rnn.pack_sequence`	打包可变长度 Tensor 的列表。
`nn.utils.rnn.unpack_sequence`	将 PackedSequence 解压缩到可变长度 Tensor 列表中。
`nn.utils.rnn.unpad_sequence`	Unpad 填充的 Tensor 到可变长度的 Tensor 列表中。

`nn.Flatten`	将连续范围的 dim 展平为张量。
`nn.Unflatten`	展开 tensor dim 并将其扩展为所需的形状。

量化函数 ¶

量化是指以低于浮点精度。PyTorch 支持每张量和每通道非对称线性量化。要了解有关如何在 PyTorch 中使用量化函数的更多信息，请参阅量化文档。

惰性模块初始化 ¶

nn.modules.lazy.LazyModuleMixin

一个用于延迟初始化参数的模块的 mixin，也称为 “lazy modules”。

别名 ¶

以下是中对应项的别名：torch.nn

nn.modules.normalization.RMSNorm

对一小批输入应用均方根层归一化。

torch.nn¶

文档

教程

资源