SmoothL1Loss¶

class torch.nn.SmoothL1Loss(size_average=None, reduce=None, reduction='mean', beta=1.0)[source][source]¶

建立一個損失準則，當逐元素的絕對誤差小於 beta 時使用平方項，否則使用 L1 項。與 torch.nn.MSELoss 相比，它對異常值不那麼敏感，在某些情況下可以防止梯度爆炸（例如，參見 Ross Girshick 的論文 Fast R-CNN）。

對於大小為 $N$ 的批次，未降維的損失可以描述為

\ell(x, y) = L = \{l_1, ..., l_N\}^T

其中

l_n = \begin{cases} 0.5 (x_n - y_n)^2 / beta, & \text{if } |x_n - y_n| < beta \\ |x_n - y_n| - 0.5 * beta, & \text{otherwise } \end{cases}

如果 reduction 不是 none，則

\ell(x, y) = \begin{cases} \operatorname{mean}(L), & \text{if reduction} = \text{`mean';}\\ \operatorname{sum}(L), & \text{if reduction} = \text{`sum'.} \end{cases}

注意

Smooth L1 損失可以看作是精確的 L1Loss，但將 $|x - y| < beta$ 部分替換為一個二次函式，使得在 $|x - y| = beta$ 處的斜率為 1。二次曲線段平滑了 $|x - y| = 0$ 附近的 L1 損失。

注意

Smooth L1 損失與 HuberLoss 密切相關，等價於 $huber(x, y) / beta$ （注意 Smooth L1 的 beta 超引數在 Huber 損失中也稱為 delta）。這導致了以下差異

當 beta -> 0 時，Smooth L1 損失收斂於 L1Loss，而 HuberLoss 收斂於常數 0 損失。當 beta 為 0 時，Smooth L1 損失等價於 L1 損失。
當 beta -> $+\infty$ 時，Smooth L1 損失收斂於常數 0 損失，而 HuberLoss 收斂於 MSELoss。
對於 Smooth L1 損失，當 beta 變化時，損失函式的 L1 部分斜率始終為 1。對於 HuberLoss，L1 部分的斜率為 beta。

引數

size_average (bool, optional) – 已棄用（參見 reduction）。預設情況下，損失按批次中每個損失元素進行平均。請注意，對於某些損失，每個樣本有多個元素。如果欄位 size_average 設定為 False，則損失將改為按每個 mini-batch 求和。當 reduce 為 False 時忽略此引數。預設值: True
reduce (bool, optional) – 已棄用（參見 reduction）。預設情況下，根據 size_average 對每個 mini-batch 的觀測值進行平均或求和。當 reduce 為 False 時，改為返回每個批次元素的損失，並忽略 size_average。預設值: True
reduction (str, optional) – 指定應用於輸出的降維方式: 'none' | 'mean' | 'sum'。'none': 不應用降維；'mean': 輸出的總和將除以輸出中的元素數量；'sum': 輸出將求和。注意: size_average 和 reduce 正在被棄用，在此期間，指定這兩個引數中的任何一個都將覆蓋 reduction。預設值: 'mean'
beta (float, optional) – 指定在 L1 損失和 L2 損失之間切換的閾值。該值必須是非負的。預設值: 1.0

形狀

文件