torch.nn.functional¶

卷积函数¶

`conv1d`	将 1D 卷积应用于由多个输入平面组成的输入信号。
`conv2d`	在由多个输入平面组成的输入图像上应用 2D 卷积。
`conv3d`	将 3D 卷积应用于由多个输入平面组成的输入图像。
`conv_transpose1d`	将 1D 转置卷积运算符应用于由多个输入平面组成的输入信号，有时也称为“反卷积”。
`conv_transpose2d`	将 2D 转置卷积运算符应用于由多个输入平面组成的输入图像，有时也称为“反卷积”。
`conv_transpose3d`	将 3D 转置卷积运算符应用于由多个输入平面组成的输入图像，有时也称为“反卷积”
`unfold`	从批处理的输入张量中提取滑动局部块。
`fold`	将一组滑动的局部块组合成一个大的 containing 张量。

池化函数¶

`avg_pool1d`	在由多个输入平面组成的输入信号上应用 1D 平均池化。
`avg_pool2d`	在中应用 2D 平均池化作 $kH \times kW$ 按步长划分的区域 $sH \times sW$ 步骤。
`avg_pool3d`	在中应用 3D 平均池化作 $kT \times kH \times kW$ 按步长划分的区域 $sT \times sH \times sW$ 步骤。
`max_pool1d`	在由多个输入平面组成的输入信号上应用 1D 最大池化。
`max_pool2d`	在由多个输入平面组成的输入信号上应用 2D 最大池化。
`max_pool3d`	在由多个输入平面组成的输入信号上应用 3D 最大池化。
`max_unpool1d`	计算的偏逆。`MaxPool1d`
`max_unpool2d`	计算的偏逆。`MaxPool2d`
`max_unpool3d`	计算的偏逆。`MaxPool3d`
`lp_pool1d`	在由多个 input 平面组成的 input 信号上应用 1D power-average pooling。
`lp_pool2d`	在由多个 input 平面组成的 input 信号上应用 2D power-average pooling。
`lp_pool3d`	在由多个输入平面组成的输入信号上应用 3D 功率平均池。
`adaptive_max_pool1d`	在由多个输入平面组成的输入信号上应用 1D 自适应最大池化。
`adaptive_max_pool2d`	在由多个输入平面组成的输入信号上应用 2D 自适应最大池化。
`adaptive_max_pool3d`	在由多个输入平面组成的输入信号上应用 3D 自适应最大池化。
`adaptive_avg_pool1d`	在由多个输入平面组成的输入信号上应用 1D 自适应平均池化。
`adaptive_avg_pool2d`	在由多个输入平面组成的输入信号上应用 2D 自适应平均池化。
`adaptive_avg_pool3d`	在由多个输入平面组成的输入信号上应用 3D 自适应平均池化。
`fractional_max_pool2d`	在由多个输入平面组成的输入信号上应用 2D 分数最大池化。
`fractional_max_pool3d`	在由多个输入平面组成的输入信号上应用 3D 分数最大池化。

注意力机制¶

这torch.nn.attention.biasmodule attention_biases包含旨在与 scaled_dot_product_attention。

scaled_dot_product_attention

scaled_dot_product_attention（query， key， value， attn_mask=None， dropout_p=0.0，

非线性激活函数¶

`threshold`	将阈值应用于输入 Tensor 的每个元素。
`threshold_`	的就地版本`threshold()`.
`relu`	按元素应用修正的线性单元函数。
`relu_`	的就地版本`relu()`.
`hardtanh`	按元素应用 HardTanh 函数。
`hardtanh_`	的就地版本`hardtanh()`.
`hardswish`	按元素应用 hardswish 函数。
`relu6`	应用元素级函数 $\text{ReLU6}(x) = \min(\max(0,x), 6)$ .
`elu`	按元素应用 Exponential Linear Unit （ELU）函数。
`elu_`	的就地版本`elu()`.
`selu`	按元素应用， $\text{SELU}(x) = scale * (\max(0,x) + \min(0, \alpha * (\exp(x) - 1)))$ 跟 $\alpha=1.6732632423543772848170429916717$ 和 $scale=1.0507009873554804934193349852946$ .
`celu`	按元素应用， $\text{CELU}(x) = \max(0,x) + \min(0, \alpha * (\exp(x/\alpha) - 1))$ .
`leaky_relu`	按元素应用， $\text{LeakyReLU}(x) = \max(0, x) + \text{negative\_slope} * \min(0, x)$
`leaky_relu_`	的就地版本`leaky_relu()`.
`prelu`	按元素应用函数 $\text{PReLU}(x) = \max(0,x) + \text{weight} * \min(0,x)$ 其中 weight 是一个可学习的参数。
`rrelu`	随机泄漏 ReLU。
`rrelu_`	的就地版本`rrelu()`.
`glu`	门控线性单元。
`gelu`	当 approximate 参数为 'none' 时，它会按元素应用函数 $\text{GELU}(x) = x * \Phi(x)$
`logsigmoid`	按元素应用 $\text{LogSigmoid}(x_i) = \log \left(\frac{1}{1 + \exp(-x_i)}\right)$
`hardshrink`	按元素应用硬收缩函数
`tanhshrink`	按元素应用， $\text{Tanhshrink}(x) = x - \text{Tanh}(x)$
`softsign`	按元素应用函数 $\text{SoftSign}(x) = \frac{x}{1 + \|x\|}$
`softplus`	按元素应用函数 $\text{Softplus}(x) = \frac{1}{\beta} * \log(1 + \exp(\beta * x))$ .
`softmin`	应用 softmin 函数。
`softmax`	应用 softmax 函数。
`softshrink`	按元素应用软收缩函数
`gumbel_softmax`	来自 Gumbel-Softmax 分布的样本（链接 1、链接 2）并选择性地离散化。
`log_softmax`	应用 softmax，后跟对数。
`tanh`	按元素应用， $\text{Tanh}(x) = \tanh(x) = \frac{\exp(x) - \exp(-x)}{\exp(x) + \exp(-x)}$
`sigmoid`	应用元素级函数 $\text{Sigmoid}(x) = \frac{1}{1 + \exp(-x)}$
`hardsigmoid`	按元素应用 Hardsigmoid 函数。
`silu`	按元素应用 Sigmoid 线性单元（SiLU）函数。
`mish`	按元素应用 Mish 函数。
`batch_norm`	对一批数据中的每个通道应用 Batch Normalization。
`group_norm`	对最近一定数量的维度应用 Group Normalization。
`instance_norm`	为批次中每个数据样本中的每个通道独立应用 Instance Normalization。
`layer_norm`	对最后一定数量的维度应用 Layer Normalization。
`local_response_norm`	对输入信号应用局部响应归一化。
`rms_norm`	应用均方根层归一化。
`normalize`	执行 $L_p$ 指定维度上输入的归一化。

线性函数¶

linear

对传入数据应用线性转换： $y = xA^T + b$ .

bilinear

将双线性变换应用于传入数据： $y = x_1^T A x_2 + b$

Dropout 函数¶

`dropout`	在训练期间，使用 probability 将输入张量的某些元素随机归零。`p`
`alpha_dropout`	将 Alpha dropout 应用于输入。
`feature_alpha_dropout`	随机屏蔽整个通道（通道是特征图）。
`dropout1d`	将整个通道随机归零（通道是 1D 特征图）。
`dropout2d`	将整个通道随机归零（通道是 2D 特征图）。
`dropout3d`	将整个通道随机归零（通道是 3D 特征图）。

稀疏函数¶

embedding

生成一个简单的查找表，该表在固定字典和大小中查找嵌入。

embedding_bag

计算嵌入袋的 sum、means 或 max。

one_hot

采用索引值为 shape 的 LongTensor，并返回一个 shape 的张量，该张量在任何地方都有零，但最后一个维度的索引与输入张量的相应值匹配时除外，在这种情况下，它将为 1。(*)(*, num_classes)

距离函数¶

pairwise_distance

看torch.nn.PairwiseDistance了解详情

cosine_similarity

返回和之间的余弦相似度，沿 dim 计算。x1x2

pdist

计算输入中每对行向量之间的 p-norm 距离。

损失函数¶

`binary_cross_entropy`	测量目标概率和输入概率之间的二进制交叉熵。
`binary_cross_entropy_with_logits`	计算目标和输入 logit 之间的二进制交叉熵。
`poisson_nll_loss`	泊松负对数似然损失。
`cosine_embedding_loss`	看`CosineEmbeddingLoss`了解详情。
`cross_entropy`	计算 input logits 和 target 之间的交叉熵损失。
`ctc_loss`	应用 Connectionist Temporal Classification 损失。
`gaussian_nll_loss`	高斯负对数似然损失。
`hinge_embedding_loss`	看`HingeEmbeddingLoss`了解详情。
`kl_div`	计算 KL 背离损失。
`l1_loss`	取均值元素绝对值差的函数。
`mse_loss`	测量元素均方误差。
`margin_ranking_loss`	看`MarginRankingLoss`了解详情。
`multilabel_margin_loss`	看`MultiLabelMarginLoss`了解详情。
`multilabel_soft_margin_loss`	看`MultiLabelSoftMarginLoss`了解详情。
`multi_margin_loss`	看`MultiMarginLoss`了解详情。
`nll_loss`	计算负对数似然损失。
`huber_loss`	计算 Huber 损失。
`smooth_l1_loss`	计算 Smooth L1 损失。
`soft_margin_loss`	看`SoftMarginLoss`了解详情。
`triplet_margin_loss`	计算给定输入张量和大于 0 的边际之间的三元组损失。
`triplet_margin_with_distance_loss`	使用自定义距离函数计算输入张量的三元组边距损失。

视觉功能¶

`pixel_shuffle`	在 shape 为 $(, C \times r^2, H, W)$ 转换为 shape 为 $(, C, H \times r, W \times r)$ ，其中 r 是。`upscale_factor`
`pixel_unshuffle`	反转`PixelShuffle`通过重新排列 shape 为 $(, C, H \times r, W \times r)$ 转换为 shape 为 $(, C \times r^2, H, W)$ ，其中 r 是。`downscale_factor`
`pad`	Pads 张量。
`interpolate`	对 input 进行 down/up 采样。
`upsample`	Upsample 输入。
`upsample_nearest`	使用最近邻的像素值对输入进行上采样。
`upsample_bilinear`	使用双线性上采样对输入进行上采样。
`grid_sample`	计算网格示例。
`affine_grid`	生成 2D 或 3D 流场（采样网格），给定一批仿射矩阵。`theta`

DataParallel 函数（多 GPU、分布式）¶

data_parallel¶

torch.nn.parallel.data_parallel

在 device_ids 中给出的 GPU 之间并行评估 module（input）。