快捷方式

LogValidationReward

class torchrl.trainers.LogValidationReward(*, record_interval: int, record_frames: int, frame_skip: int = 1, policy_exploration: TensorDictModule, environment: Optional[EnvBase] = None, exploration_type: InteractionType = InteractionType.RANDOM, log_keys: Optional[List[Union[str, Tuple[str]]]] = None, out_keys: Optional[Dict[Union[str, Tuple[str]], str]] = None, suffix: Optional[str] = None, log_pbar: bool = False, recorder: Optional[EnvBase] = None)[source]

Trainer 的記錄器鉤子。

引數:
  • record_interval (int) – 兩次呼叫記錄器進行測試之間的總最佳化步數。

  • record_frames (int) – 在測試期間要記錄的幀數。

  • frame_skip (int) – 環境中使用的幀跳數。告知訓練器每次迭代跳過的幀數非常重要,否則幀數統計可能會被低估。對於日誌記錄,此引數對於標準化獎勵也很重要。最後,為了比較不同 frame_skip 的不同執行結果,必須對幀數和獎勵進行標準化。預設為 1

  • policy_exploration (ProbabilisticTDModule) –

    一個用於

    1. 更新探索噪聲排程的策略例項;

    2. 在記錄器上測試策略。

    鑑於此例項既用於探索又用於呈現策略效能,因此應該可以透過呼叫 set_exploration_type(ExplorationType.DETERMINISTIC) 上下文管理器來關閉探索行為。

  • environment (EnvBase) – 用於測試的環境例項。

  • exploration_type (ExplorationType, optional) – 用於策略的探索模式。預設情況下,不使用探索,使用的值為 ExplorationType.DETERMINISTIC。設定為 ExplorationType.RANDOM 可啟用探索

  • log_keys (sequence of str or tuples or str, optional) – 在 tensordict 中讀取用於日誌記錄的鍵。預設為 [("next", "reward")]

  • out_keys (Dict[str, str], optional) – 一個字典,將 log_keys 對映到它們在日誌中的名稱。預設為 {("next", "reward"): "r_evaluation"}

  • suffix (str, optional) – 要錄製影片的字尾。

  • log_pbar (bool, optional) – 如果為 True,則獎勵值將記錄在進度條上。預設為 False

register(trainer: Trainer, name: str = 'recorder')[source]

在預設位置將鉤子註冊到訓練器中。

引數:
  • trainer (Trainer) – 必須註冊鉤子的訓練器。

  • name (str) – 鉤子的名稱。

注意

要在非預設位置註冊鉤子,請使用 register_op()

文件

查閱 PyTorch 的全面開發者文件

檢視文件

教程

獲取面向初學者和高階開發者的深度教程

檢視教程

資源

查詢開發者資源並獲取問題解答

檢視資源