快捷方式

RewardClipping

torchrl.envs.transforms.RewardClipping(clamp_min: float = None, clamp_max: float = None, in_keys: Sequence[NestedKey] | None = None, out_keys: Sequence[NestedKey] | None = None)[source]

將獎勵擷取在 clamp_minclamp_max 之間。

引數:
  • clip_min (標量) — 結果獎勵的最小值。

  • clip_max (標量) — 結果獎勵的最大值。

transform_reward_spec(reward_spec: TensorSpec) TensorSpec[source]

變換獎勵規格(spec),使結果規格與變換對映匹配。

引數:

reward_spec (TensorSpec) — 變換前的規格

返回:

變換後的預期規格

文件

訪問 PyTorch 的全面開發者文件

檢視文件

教程

獲取面向初學者和高階開發者的深度教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源