SoftUpdate¶

class torchrl.objectives.SoftUpdate(loss_module: Union['DQNLoss', 'DDPGLoss', 'SACLoss', 'REDQLoss', 'TD3Loss'], *, eps: float = None, tau: Optional[float] = None)[source]¶

用於 Double DQN/DDPG 中目標網路軟更新的類。

這在論文“CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING”中提出，https://arxiv.org/pdf/1509.02971.pdf

必須指定且僅指定一個衰減因子（tau 或 eps）。

引數：

loss_module (DQNLoss or DDPGLoss) – 需要更新目標網路的損失模組。

eps (scalar) –

更新方程中的 epsilon：.. math

\theta_t = \theta_{t-1} * \epsilon + \theta_t * (1-\epsilon)

與 tau 互斥。

tau (scalar) – Polyak tau。它等於 1-eps，並與 eps 互斥。

SoftUpdate¶

文件

教程

資源