快捷方式

AdditiveGaussianModule

class torchrl.modules.AdditiveGaussianModule(*args, **kwargs)[source]

加性高斯 PO 模組。

引數:
  • spec (TensorSpec) – 用於取樣動作的規格。取樣到的動作在探索後將被投影到有效動作空間。

  • sigma_init (scalar, optional) – 初始 sigma 值。預設值: 1.0

  • sigma_end (scalar, optional) – 最終 sigma 值。預設值: 0.1

  • annealing_num_steps (int, optional) – sigma 達到 sigma_end 值所需的步數。預設值: 1000

  • mean (float, optional) – 每個輸出元素正態分佈的均值。預設值: 0.0

  • std (float, optional) – 每個輸出元素正態分佈的標準差。預設值: 1.0

關鍵字引數:
  • action_key (NestedKey, optional) – 如果策略模組有多個輸出鍵,其輸出規格將是複合型別 (Composite)。需要知道在哪裡找到動作規格 (action spec)。預設值: “action”

  • safe (bool) – 如果為 True,超出動作規格範圍的動作將根據 TensorSpec.project 啟發式演算法投影到空間中。預設值: False

  • device (torch.device, optional) – 儲存緩衝區的裝置。

注意

在訓練迴圈中包含對 step() 的呼叫來更新探索因子 (exploration factor) 至關重要。由於很難捕捉到這種遺漏,如果省略此呼叫,將不會引發警告或異常!

forward(tensordict: TensorDictBase) TensorDictBase[source]

定義每次呼叫時執行的計算。

應由所有子類覆蓋此方法。

注意

雖然前向傳播 (forward pass) 的邏輯需要在本函式中定義,但之後應呼叫 Module 例項而不是本函式本身,因為前者負責執行已註冊的鉤子 (hooks),而後者會默默忽略它們。

step(frames: int = 1) None[source]

sigma 衰減的一步。

在對本方法呼叫 self.annealing_num_steps 次後,後續呼叫將無效 (no-op)。

引數:

frames (int) – 自上一步以來的幀數。預設為 1

文件

訪問全面的 PyTorch 開發者文件

檢視文件

教程

獲取面向初學者和高階開發者的深入教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源