TanhNormal¶
- class torchrl.modules.TanhNormal(loc: torch.Tensor, scale: torch.Tensor, upscale: Union[torch.Tensor, Number] = 5.0, low: Union[torch.Tensor, Number] = - 1.0, high: Union[torch.Tensor, Number] = 1.0, event_dims: int | None = None, tanh_loc: bool = False, safe_tanh: bool = True)[原始碼]¶
實現具有位置縮放的 TanhNormal 分佈。
位置縮放可以防止在應用
TanhTransform時位置離 0 “太遠”,但最終會導致數值不穩定的樣本和較差的梯度計算(例如,梯度爆炸)。 實際上,透過位置縮放,位置根據以下公式計算:\[loc = tanh(loc / upscale) * upscale.\]- 引數:
loc (torch.Tensor) – 正態分佈位置引數
scale (torch.Tensor) – 正態分佈 sigma 引數(方差的平方根)
upscale (torch.Tensor 或 number) –
公式中的 ‘a’ 縮放因子
\[loc = tanh(loc / upscale) * upscale.\]low (torch.Tensor 或 number, 可選) – 分佈的最小值。 預設為 -1.0;
high (torch.Tensor 或 number, 可選) – 分佈的最大值。 預設為 1.0;
event_dims (int, 可選) – 描述動作的維度數。 預設為 1。將
event_dims設定為0將導致對數機率與輸入具有相同的形狀,1將減少(對...求和)最後一個維度,2最後兩個等等。tanh_loc (bool, 可選) – 如果
True,則上述公式用於位置縮放,否則保留原始值。 預設為False;safe_tanh (bool, 可選) – 如果
True,則以“安全”的方式完成 Tanh 轉換,以避免數值溢位。 這目前會與torch.compile()中斷。
- property mean¶
返回分佈的平均值。
- property mode¶
返回分佈的眾數。
- property support¶
返回表示此分佈支援的
Constraint物件。