LMHeadActorValueOperator¶
- class torchrl.modules.tensordict_module.LMHeadActorValueOperator(*args, **kwargs)[原始碼]¶
從類似 huggingface 的 *LMHeadModel 構建 Actor-Value 運算子。
此方法
接收類似 huggingface 的 *LMHeadModel 作為輸入
提取最終的線性層,並將其用作 actor_head 的基礎層,然後新增取樣層
使用通用 transformer 作為通用模型
新增一個線性 critic
- 引數:
base_model – 一個 torch 模型,由 .transformer 模型和 .lm_head 線性層組成