AdditiveGaussianModule¶

class torchrl.modules.AdditiveGaussianModule(*args, **kwargs)[source]¶

加性高斯 PO 模組。

引數：

spec (TensorSpec) – 用於取樣動作的規格。取樣到的動作在探索後將被投影到有效動作空間。
sigma_init (scalar, optional) – 初始 sigma 值。預設值: 1.0
sigma_end (scalar, optional) – 最終 sigma 值。預設值: 0.1
annealing_num_steps (int, optional) – sigma 達到 sigma_end 值所需的步數。預設值: 1000
mean (float, optional) – 每個輸出元素正態分佈的均值。預設值: 0.0
std (float, optional) – 每個輸出元素正態分佈的標準差。預設值: 1.0

關鍵字引數：

action_key (NestedKey, optional) – 如果策略模組有多個輸出鍵，其輸出規格將是複合型別 (Composite)。需要知道在哪裡找到動作規格 (action spec)。預設值: “action”
safe (bool) – 如果為 True，超出動作規格範圍的動作將根據 TensorSpec.project 啟發式演算法投影到空間中。預設值: False
device (torch.device, optional) – 儲存緩衝區的裝置。

注意

在訓練迴圈中包含對 step() 的呼叫來更新探索因子 (exploration factor) 至關重要。由於很難捕捉到這種遺漏，如果省略此呼叫，將不會引發警告或異常！

forward(tensordict: TensorDictBase) → TensorDictBase[source]¶

定義每次呼叫時執行的計算。

應由所有子類覆蓋此方法。

注意

雖然前向傳播 (forward pass) 的邏輯需要在本函式中定義，但之後應呼叫 Module 例項而不是本函式本身，因為前者負責執行已註冊的鉤子 (hooks)，而後者會默默忽略它們。

step(frames: int = 1) → None[source]¶

sigma 衰減的一步。

在對本方法呼叫 self.annealing_num_steps 次後，後續呼叫將無效 (no-op)。

文件