WorldModelWrapper¶ class torchrl.modules.tensordict_module.WorldModelWrapper(*args, **kwargs)[source]¶ 世界模型包裝器。 該模組封裝了轉移模型和獎勵模型。轉移模型用於預測一個假想的世界狀態。獎勵模型用於預測假想轉移的獎勵。 引數: transition_model (TensorDictModule) – 生成新世界狀態的轉移模型。 reward_model (TensorDictModule) – 讀取世界狀態並返回獎勵的獎勵模型。 get_reward_operator() → TensorDictModule[source]¶ 返回一個獎勵操作器,該操作器將世界狀態對映到獎勵。 get_transition_model_operator() → TensorDictModule[source]¶ 返回一個轉移操作器,該操作器將觀測值對映到世界狀態,或將當前世界狀態對映到下一個世界狀態。