torch.nn.init¶

警告

此模組中的所有函式都旨在用於初始化神經網路參數，因此它們都在 torch.no_grad() 模式下運行，並且不會被自動微分考慮在內。

torch.nn.init.calculate_gain(nonlinearity, param=None)[原始碼]¶

返回給定非線性函數的建議增益值。

值如下

非線性	增益
線性 / 恆等	$1$
Conv{1,2,3}D	$1$
Sigmoid	$1$
Tanh	$\frac{5}{3}$
ReLU	$\sqrt{2}$
Leaky Relu	$\sqrt{\frac{2}{1 + \text{negative\_slope}^2}}$
SELU	$\frac{3}{4}$

警告

為了實作自我正規化神經網路，您應該使用 nonlinearity='linear' 來取代 nonlinearity='selu'。這會使初始權重的變異數為 1 / N，這對於在前向傳播中誘發穩定的不動點是必要的。相比之下，SELU 的預設增益犧牲了正規化的效果，以在矩形層中獲得更穩定的梯度流。

參數

nonlinearity - 非線性函數（nn.functional 名稱）
param - 非線性函數的可選參數

範例

>>> gain = nn.init.calculate_gain('leaky_relu', 0.2)  # leaky_relu with negative_slope=0.2

torch.nn.init.uniform_(tensor, a=0.0, b=1.0, generator=None)[source]¶

使用從均勻分佈中提取的值填充輸入張量。

$\mathcal{U}(a, b)$ .

參數

tensor (Tensor) - 一個 n 維的 torch.Tensor
a (float) - 均勻分佈的下界
b (float) - 均勻分佈的上界
generator (Optional[Generator]) - 用于取樣的 torch 生成器（默認值：None）

返回類型

Tensor

範例

>>> w = torch.empty(3, 5)
>>> nn.init.uniform_(w)

torch.nn.init.normal_(tensor, mean=0.0, std=1.0, generator=None)[source]¶

使用從正態分佈中提取的值填充輸入張量。

$\mathcal{N}(\text{mean}, \text{std}^2)$ .

參數

tensor (Tensor) - 一個 n 維的 torch.Tensor
mean (float) - 正態分佈的均值
std (float) - 正態分佈的標準差
generator (Optional[Generator]) - 用于取樣的 torch 生成器（默認值：None）

返回類型

Tensor

範例

>>> w = torch.empty(3, 5)
>>> nn.init.normal_(w)

torch.nn.init.constant_(tensor, val)[source]¶

使用值 $\text{val}$ 填充輸入張量。

參數

tensor (Tensor) - 一個 n 維的 torch.Tensor
val (float) - 用於填充張量的值

返回類型

Tensor

範例

>>> w = torch.empty(3, 5)
>>> nn.init.constant_(w, 0.3)

torch.nn.init.ones_(tensor)[source]¶

使用純量值 1 填充輸入張量。

參數: tensor (Tensor) - 一個 n 維的 torch.Tensor
返回類型: Tensor

範例

>>> w = torch.empty(3, 5)
>>> nn.init.ones_(w)

torch.nn.init.zeros_(tensor)[source]¶

使用純量值 0 填充輸入張量。

參數: tensor (Tensor) - 一個 n 維的 torch.Tensor
返回類型: Tensor

範例

>>> w = torch.empty(3, 5)
>>> nn.init.zeros_(w)

torch.nn.init.eye_(tensor)[source]¶

使用單位矩陣填充二維輸入 Tensor。

在 Linear 層中保留輸入的身份，盡可能保留盡可能多的輸入。

參數: tensor - 一個二維的 torch.Tensor

範例

>>> w = torch.empty(3, 5)
>>> nn.init.eye_(w)

torch.nn.init.dirac_(tensor, groups=1)[source]¶

使用狄拉克 δ 函數填充 {3、4、5} 維輸入 Tensor。

在 Convolutional 層中保留輸入的身份，盡可能保留盡可能多的輸入通道。如果 groups>1，則每組通道都保留身份

參數

tensor - 一個 {3、4、5} 維的 torch.Tensor
groups (int, optional) - 卷積層中的組數（默認值：1）

範例

>>> w = torch.empty(3, 16, 5, 5)
>>> nn.init.dirac_(w)
>>> w = torch.empty(3, 24, 5, 5)
>>> nn.init.dirac_(w, 3)

torch.nn.init.xavier_uniform_(tensor, gain=1.0, generator=None)[source]¶

使用 Xavier 均勻分佈填充輸入 Tensor。

該方法在 Understanding the difficulty of training deep feedforward neural networks - Glorot, X. & Bengio, Y. (2010) 中有描述。得到的張量將具有從 $\mathcal{U}(-a, a)$ 中取樣的值，其中

a = \text{gain} \times \sqrt{\frac{6}{\text{fan\_in} + \text{fan\_out}}}

也稱為 Glorot 初始化。

參數

tensor (Tensor) - 一個 n 維的 torch.Tensor
gain (浮點數) – 可選的縮放因子
generator (Optional[Generator]) - 用于取樣的 torch 生成器（默認值：None）

返回類型

Tensor

範例

>>> w = torch.empty(3, 5)
>>> nn.init.xavier_uniform_(w, gain=nn.init.calculate_gain('relu'))

torch.nn.init.xavier_normal_(tensor, gain=1.0, generator=None)[原始碼]¶

使用 Xavier 常態分佈的值填入輸入張量。

該方法在理解訓練深度前饋神經網路的難度 - Glorot、X. 和 Bengio、Y. (2010) 中有所描述。產生的張量將具有從 $\mathcal{N}(0, \text{std}^2)$ 中採樣的值，其中

\text{std} = \text{gain} \times \sqrt{\frac{2}{\text{fan\_in} + \text{fan\_out}}}

也稱為 Glorot 初始化。

參數

tensor (Tensor) - 一個 n 維的 torch.Tensor
gain (浮點數) – 可選的縮放因子
generator (Optional[Generator]) - 用于取樣的 torch 生成器（默認值：None）

返回類型

Tensor

範例

>>> w = torch.empty(3, 5)
>>> nn.init.xavier_normal_(w)

torch.nn.init.kaiming_uniform_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu', generator=None)[原始碼]¶

使用 Kaiming 均勻分佈的值填入輸入張量。

該方法在深入研究整流器：在 ImageNet 分類上超越人類水平的表現 - He、K. 等人 (2015) 中有所描述。產生的張量將具有從 $\mathcal{U}(-\text{bound}, \text{bound})$ 中採樣的值，其中

\text{bound} = \text{gain} \times \sqrt{\frac{3}{\text{fan\_mode}}}

也稱為 He 初始化。

參數

tensor (Tensor) - 一個 n 維的 torch.Tensor
a (浮點數) – 此層之後使用的整流器的負斜率（僅與 'leaky_relu' 一起使用）
mode (字串) – 'fan_in'（默認）或 'fan_out'。選擇 'fan_in' 會在正向傳遞中保留權重方差的大小。選擇 'fan_out' 會在反向傳遞中保留大小。
nonlinearity (字串) – 非線性函數（nn.functional 名稱），建議僅與 'relu' 或 'leaky_relu'（默認）一起使用。
generator (Optional[Generator]) - 用于取樣的 torch 生成器（默認值：None）

範例

>>> w = torch.empty(3, 5)
>>> nn.init.kaiming_uniform_(w, mode='fan_in', nonlinearity='relu')

torch.nn.init.kaiming_normal_(tensor, a=0, mode='fan_in', nonlinearity='leaky_relu', generator=None)[原始碼]¶

使用 Kaiming 常態分佈的值填入輸入張量。

此方法在 Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification - He, K. et al. (2015) 中有所描述。產生的張量將具有從 $\mathcal{N}(0, \text{std}^2)$ 取樣的數值，其中

\text{std} = \frac{\text{gain}}{\sqrt{\text{fan\_mode}}}

也稱為 He 初始化。

參數

tensor (Tensor) - 一個 n 維的 torch.Tensor
a (浮點數) – 此層之後使用的整流器的負斜率（僅與 'leaky_relu' 一起使用）
mode (字串) – 'fan_in'（默認）或 'fan_out'。選擇 'fan_in' 會在正向傳遞中保留權重方差的大小。選擇 'fan_out' 會在反向傳遞中保留大小。
nonlinearity (字串) – 非線性函數（nn.functional 名稱），建議僅與 'relu' 或 'leaky_relu'（默認）一起使用。
generator (Optional[Generator]) - 用于取樣的 torch 生成器（默認值：None）

範例

>>> w = torch.empty(3, 5)
>>> nn.init.kaiming_normal_(w, mode='fan_out', nonlinearity='relu')

torch.nn.init.trunc_normal_(tensor, mean=0.0, std=1.0, a=-2.0, b=2.0, generator=None)[source]¶

使用從截斷常態分佈中提取的值填充輸入張量。

這些值實際上是從常態分佈 $\mathcal{N}(\text{mean}, \text{std}^2)$ 中提取的，其中超出 $[a, b]$ 的值會被重新提取，直到它們在邊界內為止。當 $a \leq \text{mean} \leq b$ 時，用於生成隨機值的方法效果最佳。

參數

tensor (Tensor) - 一個 n 維的 torch.Tensor
mean (float) - 正態分佈的均值
std (float) - 正態分佈的標準差
**a** (*float*) – 最小截止值
**b** (*float*) – 最大截止值
generator (Optional[Generator]) - 用于取樣的 torch 生成器（默認值：None）

返回類型

Tensor

範例

>>> w = torch.empty(3, 5)
>>> nn.init.trunc_normal_(w)

torch.nn.init.orthogonal_(tensor, gain=1, generator=None)[source]¶

使用（半）正交矩陣填充輸入張量。

在 Exact solutions to the nonlinear dynamics of learning in deep linear neural networks - Saxe, A. et al. (2013) 中有所描述。輸入張量必須至少有 2 個維度，對於具有 2 個以上維度的張量，尾隨維度將被展平。

參數

**tensor** – 一個 n 維 torch.Tensor，其中 $n \geq 2$
**gain** – 可選的縮放因子
generator (Optional[Generator]) - 用于取樣的 torch 生成器（默認值：None）

範例

>>> w = torch.empty(3, 5)
>>> nn.init.orthogonal_(w)

torch.nn.init.sparse_(tensor, sparsity, std=0.01, generator=None)[source]¶

將二維輸入張量填充為稀疏矩陣。

非零元素將從常態分佈 $\mathcal{N}(0, 0.01)$ 中提取，如 Deep learning via Hessian-free optimization - Martens, J. (2010) 中所述。

參數

**tensor** – 一個 n 維 torch.Tensor
**sparsity** – 每列中要設置為零的元素的比例
**std** – 用於生成非零值的常態分佈的標準差
generator (Optional[Generator]) - 用于取樣的 torch 生成器（默認值：None）

範例

>>> w = torch.empty(3, 5)
>>> nn.init.sparse_(w, sparsity=0.1)

torch.nn.init¶

文件

教程

資源