目录

torch.nn.init

警告

该模块中的所有函数都旨在用于初始化神经网络参数,因此它们都在 torch.no_grad() 模式下运行,并且不会被autograd考虑。

torch.nn.init.calculate_gain(nonlinearity, param=None)[source]

返回给定非线性函数的推荐增益值。

值如下:

非线性

获得

线性 / 恒等

11

Conv{1,2,3}D

11

Sigmoid

11

双曲正切

53\frac{5}{3}

ReLU

2\sqrt{2}

Leaky Relu

21+negative_slope2\sqrt{\frac{2}{1 + \text{negative\_slope}^2}}

SELU

34\frac{3}{4}

警告

为了实现 自归一化神经网络, 你应该使用 nonlinearity='linear' 而不是 nonlinearity='selu'。 这使得初始权重的方差为 1 / N, 这是在前向传播中诱导稳定固定点所必需的。 相比之下,默认的 SELU 增益为了更稳定的梯度流 在矩形层中牺牲了归一化效果。

Parameters
  • 非线性函数 – 非线性函数 (nn.functional 名称)

  • param – 非线性函数的可选参数

示例

>>> gain = nn.init.calculate_gain('leaky_relu', 0.2)  # leaky_relu with negative_slope=0.2
torch.nn.init.uniform_(tensor, a=0.0, b=1.0, generator=None)[source]

用从均匀分布中抽取的值填充输入张量。

U(a,b)\mathcal{U}(a, b).

Parameters
  • 张量 (Tensor) – 一个n维的 torch.Tensor

  • a (float) – 均匀分布的下界

  • b (float) – 均匀分布的上限

  • 生成器 (可选[生成器]) – 用于采样的torch Generator(默认:None)

Return type

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.uniform_(w)
torch.nn.init.normal_(tensor, mean=0.0, std=1.0, generator=None)[source]

用从正态分布中抽取的值填充输入张量。

N(mean,std2)\mathcal{N}(\text{mean}, \text{std}^2).

Parameters
  • 张量 (Tensor) – 一个n维的 torch.Tensor

  • 均值 (浮点数) – 正态分布的均值

  • std (float) – 正态分布的标准差

  • 生成器 (可选[生成器]) – 用于采样的torch Generator(默认:None)

Return type

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.normal_(w)
torch.nn.init.constant_(tensor, val)[source]

用值 val\text{val} 填充输入张量。

Parameters
  • 张量 (Tensor) – 一个n维的 torch.Tensor

  • val (float) – 用于填充张量的值

Return type

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.constant_(w, 0.3)
torch.nn.init.ones_(tensor)[source]

用标量值 1 填充输入张量。

Parameters

张量 (Tensor) – 一个n维的 torch.Tensor

Return type

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.ones_(w)
torch.nn.init.zeros_(tensor)[source]

用标量值 0 填充输入张量。

Parameters

张量 (Tensor) – 一个n维的 torch.Tensor

Return type

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.zeros_(w)
torch.nn.init.eye_(tensor)[source]

用单位矩阵填充二维输入 Tensor

Linear 层中保留输入的身份,尽可能保留更多的输入。

Parameters

tensor – 一个2维的 torch.Tensor

示例

>>> w = torch.empty(3, 5)
>>> nn.init.eye_(w)
torch.nn.init.dirac_(tensor, groups=1)[source]

用狄拉克δ函数填充{3, 4, 5}维输入 Tensor

Convolutional 层中保留输入的恒等性,尽可能保留所有输入通道。当 groups>1 时,每组通道都保留恒等性

Parameters
  • tensor – 一个 {3, 4, 5} 维的 torch.Tensor

  • groups (int, 可选) – 卷积层中的组数 (默认值: 1)

示例

>>> w = torch.empty(3, 16, 5, 5)
>>> nn.init.dirac_(w)
>>> w = torch.empty(3, 24, 5, 5)
>>> nn.init.dirac_(w, 3)
torch.nn.init.xavier_uniform_(tensor, gain=1.0, generator=None)[source]

使用Xavier均匀分布为输入 Tensor 填充值。

该方法在 Understanding the difficulty of training deep feedforward neural networks - Glorot, X. & Bengio, Y. (2010) 中有所描述。 生成的张量将包含从 U(a,a)\mathcal{U}(-a, a) 采样的值,其中

a=gain×6fan_in+fan_outa = \text{gain} \times \sqrt{\frac{6}{\text{fan\_in} + \text{fan\_out}}}

也称为 Glorot 初始化。

Parameters
  • 张量 (Tensor) – 一个n维的 torch.Tensor

  • 增益 (浮点数) – 可选的比例因子

  • 生成器 (可选[生成器]) – 用于采样的torch Generator(默认:None)

Return type

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.xavier_uniform_(w, gain=nn.init.calculate_gain('relu'))
torch.nn.init.xavier_normal_(tensor, gain=1.0, generator=None)[source]

使用Xavier正态分布填充输入 Tensor 的值。

该方法在 Understanding the difficulty of training deep feedforward neural networks - Glorot, X. & Bengio, Y. (2010) 中有所描述。生成的张量 将从 N(0,std2)\mathcal{N}(0, \text{std}^2) 中采样值

std=gain×2fan_in+fan_out\text{std} = \text{gain} \times \sqrt{\frac{2}{\text{fan\_in} + \text{fan\_out}}}

也称为 Glorot 初始化。

Parameters
  • 张量 (Tensor) – 一个n维的 torch.Tensor

  • 增益 (浮点数) – 可选的比例因子

  • 生成器 (可选[生成器]) – 用于采样的torch Generator(默认:None)

Return type

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.xavier_normal_(w)
torch.nn.init.kaiming_uniform_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu', generator=None)[source]

使用Kaiming均匀分布为输入 Tensor 填充值。

该方法在 Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification - He, K. 等人 (2015) 中有所描述。 生成的张量将包含从 U(bound,bound)\mathcal{U}(-\text{bound}, \text{bound}) 采样的值,其中

bound=gain×3fan_mode\text{bound} = \text{gain} \times \sqrt{\frac{3}{\text{fan\_mode}}}

也称为 He 初始化。

Parameters
  • 张量 (Tensor) – 一个n维的 torch.Tensor

  • a (float) – 在此层之后使用的整流器的负斜率(仅在使用 'leaky_relu' 时使用)

  • mode (str) – 要么 'fan_in' (默认) 或者 'fan_out'. 选择 'fan_in' 保留前向传播中权重方差的大小。选择 'fan_out' 保留反向传播中的大小。

  • 非线性函数 (str) – 非线性函数(nn.functional名称), 建议仅与 'relu''leaky_relu' 一起使用(默认值)。

  • 生成器 (可选[生成器]) – 用于采样的torch Generator(默认:None)

示例

>>> w = torch.empty(3, 5)
>>> nn.init.kaiming_uniform_(w, mode='fan_in', nonlinearity='relu')
torch.nn.init.kaiming_normal_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu', generator=None)[source]

使用Kaiming正态分布填充输入 Tensor 的值。

该方法在 Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification - He, K. 等人 (2015) 中有所描述。 生成的张量将包含从 N(0,std2)\mathcal{N}(0, \text{std}^2) 采样的值,其中

std=gainfan_mode\text{std} = \frac{\text{gain}}{\sqrt{\text{fan\_mode}}}

也称为 He 初始化。

Parameters
  • 张量 (Tensor) – 一个n维的 torch.Tensor

  • a (float) – 在此层之后使用的整流器的负斜率(仅在使用 'leaky_relu' 时使用)

  • mode (str) – 要么 'fan_in' (默认) 或者 'fan_out'. 选择 'fan_in' 保留前向传播中权重方差的大小。选择 'fan_out' 保留反向传播中的大小。

  • 非线性函数 (str) – 非线性函数(nn.functional名称), 建议仅与 'relu''leaky_relu' 一起使用(默认值)。

  • 生成器 (可选[生成器]) – 用于采样的torch Generator(默认:None)

示例

>>> w = torch.empty(3, 5)
>>> nn.init.kaiming_normal_(w, mode='fan_out', nonlinearity='relu')
torch.nn.init.trunc_normal_(tensor, mean=0.0, std=1.0, a=-2.0, b=2.0, generator=None)[source]

用截断正态分布中抽取的值填充输入张量。

这些值实际上是从正态分布 N(mean,std2)\mathcal{N}(\text{mean}, \text{std}^2) 中抽取的, 超出 [a,b][a, b] 范围的值会被重新绘制,直到它们落在范围内为止。用于生成随机值的方法在 ameanba \leq \text{mean} \leq b 时效果最佳。

Parameters
  • 张量 (Tensor) – 一个n维的 torch.Tensor

  • 均值 (浮点数) – 正态分布的均值

  • std (float) – 正态分布的标准差

  • a (float) – 最小截止值

  • b (float) – 最大截止值

  • 生成器 (可选[生成器]) – 用于采样的torch Generator(默认:None)

Return type

张量

示例

>>> w = torch.empty(3, 5)
>>> nn.init.trunc_normal_(w)
torch.nn.init.orthogonal_(tensor, gain=1, generator=None)[source]

用(半)正交矩阵填充输入 Tensor

描述于 Exact solutions to the nonlinear dynamics of learning in deep linear neural networks - Saxe, A. 等人 (2013)。输入张量必须至少有 2 个维度,对于具有多于 2 个维度的张量,后面的维度将被展平。

Parameters
  • tensor – 一个n维的torch.Tensor,其中 n2n \geq 2

  • gain – 可选的缩放因子

  • 生成器 (可选[生成器]) – 用于采样的torch Generator(默认:None)

示例

>>> w = torch.empty(3, 5)
>>> nn.init.orthogonal_(w)
torch.nn.init.sparse_(tensor, sparsity, std=0.01, generator=None)[source]

将2D输入 Tensor 填充为稀疏矩阵。

非零元素将从正态分布 N(0,0.01)\mathcal{N}(0, 0.01) 中抽取,如 Deep learning via Hessian-free optimization - Martens, J. (2010) 所述。

Parameters
  • 张量 – 一个n维的 torch.Tensor

  • 稀疏性 – 每一列中设置为零的元素比例

  • std – 用于生成非零值的正态分布的标准差

  • 生成器 (可选[生成器]) – 用于采样的torch Generator(默认:None)

示例

>>> w = torch.empty(3, 5)
>>> nn.init.sparse_(w, sparsity=0.1)

文档

访问 PyTorch 的全面开发人员文档

查看文档

教程

获取面向初学者和高级开发人员的深入教程

查看教程

资源

查找开发资源并解答您的问题

查看资源