OnlineDTLoss¶

class torchrl.objectives.OnlineDTLoss(*args, **kwargs)[source]¶

Online Decision Transformer 損失函式的 TorchRL 實現。

載於《Online Decision Transformer》 “Online Decision Transformer” <https://arxiv.org/abs/2202.05607>

引數：

actor_network (ProbabilisticActor) – 隨機 actor

關鍵字引數：

alpha_init (float, 可選) – 初始熵乘數。預設值為 1.0。
min_alpha (float, 可選) – alpha 的最小值。預設值為 None (無最小值)。
max_alpha (float, 可選) – alpha 的最大值。預設值為 None (無最大值)。
fixed_alpha (bool, 可選) – 如果為 True，alpha 將固定為其初始值。否則，alpha 將被最佳化以匹配 ‘target_entropy’ 值。預設值為 False。
target_entropy (float 或 str, 可選) – 隨機策略的目標熵。預設值為 “auto”，此時目標熵計算為 -prod(n_actions)。
samples_mc_entropy (int) – 用於估計熵的樣本數量
reduction (str, 可選) – 指定應用於輸出的歸約方法："none" | "mean" | "sum"。"none": 不應用歸約，"mean": 輸出的總和將除以輸出中的元素數量，"sum": 輸出將被求和。預設值："mean"。

forward(tensordict: TensorDictBase = None) → TensorDictBase[source]¶: 計算 Online Decision Transformer 的損失。

文件