DistributionalDQNLoss¶

class torchrl.objectives.DistributionalDQNLoss(*args, **kwargs)[source]¶

一個分散式DQN損失類。

分散式DQN使用一個價值網路，該網路在折扣回報的離散支撐集上輸出價值分佈（與常規DQN不同，常規DQN的價值網路輸出的是折扣回報的單個點預測）。

有關分散式DQN的更多詳細資訊，請參閱“強化學習的分佈視角”（A Distributional Perspective on Reinforcement Learning），連結為https://arxiv.org/pdf/1707.06887.pdf

引數:

value_network (DistributionalQValueActor 或 nn.Module) – 分散式Q價值運算元。

gamma (標量) –

回報計算的折扣因子。..注意

Unlike :class:`DQNLoss`, this class does not currently support
custom value functions. The next value estimation is always
bootstrapped.

delay_value (布林值) – 是否將價值網路複製到一個新的目標價值網路以建立雙重DQN（double DQN）
priority_key (字串, 可選) – [已棄用，請改用 .set_keys(priority_key=priority_key)] 在新增到此 ReplayBuffer 的 TensorDict 中，假定優先順序儲存在該鍵下。這應在取樣器型別為 PrioritizedSampler 時使用。預設為 "td_error"。
reduction (字串, 可選) – 指定應用於輸出的歸約方式："none" | "mean" | "sum"。"none": 不應用歸約，"mean": 輸出的總和將除以輸出元素的數量，"sum": 輸出將被求和。預設值："mean"。

default_keys¶: _AcceptedKeys 的別名

forward(input_tensordict: TensorDictBase) → TensorDict[source]¶

它旨在讀取輸入的 TensorDict 並返回另一個以“loss*”命名的損失鍵的 tensordict。

將損失分解到其組成部分後，訓練器就可以在訓練過程中記錄各種損失值。輸出 tensordict 中存在的其他標量也會被記錄。

引數:: tensordict – 包含計算損失所需值的輸入 tensordict。
返回:: 一個沒有批次維度的新 tensordict，其中包含各種損失標量，這些標量將命名為“loss*”。損失必須以此名稱返回，因為它們將在反向傳播前由訓練器讀取，這一點至關重要。

make_value_estimator(value_type: Optional[ValueEstimators] = None, **hyperparams)[source]¶

價值函式構造器。

如果需要非預設的價值函式，則必須使用此方法構建。

引數:

value_type (ValueEstimators) – 一個 ValueEstimators 列舉型別，指示要使用的價值函式。如果未提供，則將使用儲存在 default_value_estimator 屬性中的預設值。生成的價值估計器類將註冊到 self.value_type 中，以供將來細化。
**hyperparams – 用於價值函式的超引數。如果未提供，將使用 default_value_kwargs() 指示的值。

示例

>>> from torchrl.objectives import DQNLoss
>>> # initialize the DQN loss
>>> actor = torch.nn.Linear(3, 4)
>>> dqn_loss = DQNLoss(actor, action_space="one-hot")
>>> # updating the parameters of the default value estimator
>>> dqn_loss.make_value_estimator(gamma=0.9)
>>> dqn_loss.make_value_estimator(
...     ValueEstimators.TD1,
...     gamma=0.9)
>>> # if we want to change the gamma value
>>> dqn_loss.make_value_estimator(dqn_loss.value_type, gamma=0.9)

DistributionalDQNLoss¶

文件

教程

資源