RoboHiveEnv¶
- torchrl.envs.RoboHiveEnv(*args, **kwargs)[原始碼]¶
RoboHive gym 環境的一個封裝器。
RoboHive 是一個環境/任務集合,這些環境/任務使用 MuJoCo 物理引擎進行模擬,並透過 OpenAI-Gym API 暴露出來。
Github: https://github.com/vikashplus/robohive/
文件: https://github.com/vikashplus/robohive/wiki
論文: https://arxiv.org/abs/2310.06828
警告
RoboHive 需要 gym 0.13。
- 引數:
env_name (str) – 要構建的環境名稱。必須是
available_envs中的一個categorical_action_encoding (bool, 可選) – 如果
True,分類 specs 將轉換為等價的 TorchRL 型別 (torchrl.data.Categorical),否則將使用獨熱編碼 (torchrl.data.OneHot)。預設為False。
- 關鍵字引數:
from_pixels (bool, 可選) – 如果
True,將嘗試從環境中返回畫素觀察結果。預設情況下,這些觀察結果將寫入"pixels"條目下。使用的方法因 gym 版本而異,可能涉及wrappers.pixel_observation.PixelObservationWrapper。預設為False。pixels_only (bool, 可選) – 如果
True,僅返回畫素觀察結果(預設寫入輸出 tensordict 的"pixels"條目下)。如果False,則當from_pixels=True時,將同時返回觀察結果(例如,狀態)和畫素。預設為True。from_depths (bool, 可選) – 如果
True,將嘗試從環境中返回深度觀察結果。預設情況下,這些觀察結果將寫入"depths"條目下。需要from_pixels為True。預設為False。frame_skip (int, 可選) – 如果提供,指示重複同一動作的步數。返回的觀察結果將是序列中的最後一個觀察結果,而獎勵將是這些步數中獎勵的總和。
device (torch.device, 可選) – 如果提供,資料將轉換為該裝置上的張量。預設為
torch.device("cpu")。batch_size (torch.Size, 可選) –
RoboHiveEnv僅支援torch.Size([]),因為此類中不支援向量化環境。要同時執行多個環境,請參閱ParallelEnv。allow_done_after_reset (bool, 可選) – 如果
True,則允許環境在呼叫reset()後立即達到終止狀態。預設為False。
- 變數:
available_envs (list) – 可用於構建的環境列表。
示例
>>> from torchrl.envs import RoboHiveEnv >>> env = RoboHiveEnv(RoboHiveEnv.available_envs[0]) >>> env.rollout(3)