目錄

快捷方式

DreamerValueLoss¶

class torchrl.objectives.DreamerValueLoss(*args, **kwargs)[source]¶

Dreamer 值函式損失。

計算 Dreamer 值函式模型的損失。值函式損失計算的是預測值與 lambda 目標之間的差。

參考：https://arxiv.org/abs/1912.01603。

引數：

value_model (TensorDictModule) – 值函式模型。
value_loss (str, optional) – 用於計算值函式損失的損失函式。預設為 "l2"。
discount_loss (bool, optional) – 如果為 True，則損失會使用 gamma 折扣因子進行折扣。預設為 False。
gamma (float, optional) – gamma 折扣因子。預設為 0.99。

default_keys¶: _AcceptedKeys 的別名

forward(fake_data) → Tensor[source]¶

它被設計用於讀取輸入的 TensorDict 並返回另一個包含命名為“loss*”的損失鍵的 tensordict。

將損失分解到其組成部分後，訓練器就可以在整個訓練過程中記錄各種損失值。輸出 tensordict 中存在的其他標量也將被記錄。

引數：: tensordict – 包含計算損失所需值的輸入 tensordict。
返回：: 一個新的不含批次維度的 tensordict，其中包含各種命名為“loss*”的損失標量。損失必須以此名稱返回，因為訓練器會在反向傳播之前讀取它們，這一點至關重要。

文件

獲取 PyTorch 全面開發者文件

檢視文件

教程

獲取適合初學者和高階開發者的深入教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源