RMSNorm¶

類 torch.nn.RMSNorm(normalized_shape, eps=None, elementwise_affine=True, device=None, dtype=None)[原始檔][原始檔]¶

在輸入的小批次資料上應用均方根層歸一化 (Root Mean Square Layer Normalization)。

此層實現了論文 Root Mean Square Layer Normalization 中描述的操作。

y_i = \frac{x_i}{\mathrm{RMS}(x)} * \gamma_i, \quad \text{where} \quad \text{RMS}(x) = \sqrt{\epsilon + \frac{1}{n} \sum_{i=1}^{n} x_i^2}

均方根（RMS）是在最後 D 個維度上計算的，其中 D 是 normalized_shape 的維度。例如，如果 normalized_shape 是 (3, 5)（一個二維形狀），則均方根是在輸入的最後 2 個維度上計算的。

引數

normalized_shape (int 或 list 或 torch.Size) –
輸入形狀，對應預期的輸入尺寸

$[* \times \text{normalized\_shape}[0] \times \text{normalized\_shape}[1] \times \ldots \times \text{normalized\_shape}[-1]]$
如果使用單個整數，則將其視為單元素列表，此模組將對最後一個維度進行歸一化，該維度預計具有該特定尺寸。
eps (可選[float]) – 新增到分母上的值，用於數值穩定性。預設值：torch.finfo(x.dtype).eps()
elementwise_affine (bool) – 一個布林值，當設定為 True 時，此模組具有可學習的逐元素仿射引數，初始化為全一（用於權重）。預設值：True。

形狀

示例

>>> rms_norm = nn.RMSNorm([2, 3])
>>> input = torch.randn(2, 2, 3)
>>> rms_norm(input)

關於此模組的額外資訊。

執行前向傳播。

根據在 __init__ 中使用的初始化方式重置引數。

文件