快捷方式

RewardNormalizer

torchrl.trainers.RewardNormalizer(decay: float = 0.999, scale: float = 1.0, eps: Optional[float] = None, log_pbar: bool = False, reward_key=None)[源]

獎勵歸一化器鉤子。

引數:
  • decay (float, 可選) – 指數移動平均衰減引數。預設為 0.999

  • scale (float, 可選) – 獎勵歸一化後用於相乘的比例因子。預設為 1.0。

  • eps (Optional[float], 可選) – 用於防止數值下溢的 epsilon 微擾值。預設為 torch.finfo(DEFAULT_DTYPE).eps,其中 DEFAULT_DTYPE=torch.get_default_dtype()

  • reward_key (strtuple, 可選) – 在輸入批次中查詢獎勵的鍵。預設為 ("next", "reward")

示例

>>> reward_normalizer = RewardNormalizer()
>>> trainer.register_op("batch_process", reward_normalizer.update_reward_stats)
>>> trainer.register_op("process_optim_batch", reward_normalizer.normalize_reward)
register(trainer: Trainer, name: str = 'reward_normalizer')[源]

在訓練器中的預設位置註冊該鉤子。

引數:
  • trainer (Trainer) – 必須註冊該鉤子的訓練器。

  • name (str) – 鉤子的名稱。

注意

要在非預設位置註冊該鉤子,請使用 register_op()

文件

訪問 PyTorch 的綜合開發者文件

檢視文件

教程

獲取面向初學者和高階開發者的深度教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源