快捷方式

DreamerActorLoss

class torchrl.objectives.DreamerActorLoss(*args, **kwargs)[原始碼]

Dreamer Actor 損失。

計算 Dreamer actor 的損失。actor 損失計算為負的平均 lambda 回報。

參考: https://arxiv.org/abs/1912.01603

引數:
  • actor_model (TensorDictModule) – actor 模型。

  • value_model (TensorDictModule) – value 模型。

  • model_based_env (DreamerEnv) – 基於模型的環境。

  • imagination_horizon (int, 可選) – 模型展開的步數。預設為 15

  • discount_loss (bool, 可選) – 如果為 True,則損失會使用 gamma 折扣因子進行折算。預設為 False

default_keys

_AcceptedKeys 的別名

forward(tensordict: TensorDict) Tuple[TensorDict, TensorDict][原始碼]

它旨在讀取輸入的 TensorDict 並返回另一個包含命名為“loss*”的損失鍵的 tensordict。

將損失分解為其組成部分,然後可以由訓練器用於在整個訓練過程中記錄各種損失值。輸出 tensordict 中存在的其他標量也將被記錄。

引數:

tensordict – 包含計算損失所需值的輸入 tensordict。

返回:

一個新的不帶批處理維度(batch dimension)的 tensordict,其中包含各種將被命名為“loss*”的損失標量。損失以這個名稱返回至關重要,因為它們將在反向傳播(backpropagation)之前由訓練器讀取。

make_value_estimator(value_type: Optional[ValueEstimators] = None, **hyperparams)[原始碼]

價值函式構造器。

如果需要非預設的價值函式,必須使用此方法構建。

引數:
  • value_type (ValueEstimators) – 一個 ValueEstimators 列舉型別,指示要使用的價值函式。如果未提供,將使用儲存在 default_value_estimator 屬性中的預設值。生成的價值估計器類將被註冊到 self.value_type 中,以便將來進行細化。

  • **hyperparams – 用於價值函式的超引數。如果未提供,將使用 default_value_kwargs() 指示的值。

示例

>>> from torchrl.objectives import DQNLoss
>>> # initialize the DQN loss
>>> actor = torch.nn.Linear(3, 4)
>>> dqn_loss = DQNLoss(actor, action_space="one-hot")
>>> # updating the parameters of the default value estimator
>>> dqn_loss.make_value_estimator(gamma=0.9)
>>> dqn_loss.make_value_estimator(
...     ValueEstimators.TD1,
...     gamma=0.9)
>>> # if we want to change the gamma value
>>> dqn_loss.make_value_estimator(dqn_loss.value_type, gamma=0.9)

文件

訪問全面的 PyTorch 開發者文件

檢視文件

教程

獲取針對初學者和高階開發者的深入教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源