ConstantKLController¶ class torchrl.data.ConstantKLController(*, kl_coef: float = None, model: nn.Module | None = None)[source]¶ 恆定 KL 控制器。 該控制器保持固定的係數,無論使用什麼值進行更新。 關鍵詞引數: kl_coef (float) – 計算獎勵時用於乘以 KL 的係數。 model (nn.Module, optional) – 需要控制的包裝模型。必須具有屬性 "kl_coef">。如果提供,"kl_coef" 將被就地更新。