常見的 PyTorch 錯誤和解決方案¶

梯度相關錯誤 [新手]¶

新手在從頭編寫強化學習演算法時經常面臨梯度相關問題。典型的訓練迴圈通常可以概括如下：

obs = env.reset()

for _ in range(n_training_steps):
    # STEP 1: data collection
    # Get a new datapoint "online"
    observations = []
    actions = []
    others = []
    for _ in range(n_data_per_training):
        with torch.no_grad():
            action = policy(obs)
        obs, *other = env.step(action)
        observations.append(obs)
        actions.append(action)
        others.append(other)
    replay_buffer.extend(observations, actions, others)

    # STEP 2: loss and optimization
    # => compute loss "offline"
    loss = loss_fn(replay_buffer.sample(batch_size))

    loss.backward()
    optim.step()
    optim.zero_grad()

一系列錯誤源於試圖透過由 no_grad() 上下文管理器修飾的策略操作進行反向傳播。實際上，此操作（在大多數情況下）不應是任何計算圖的一部分。相反，所有可微分操作應在 loss_fn(...) 抽象中執行。總的來說，在強化學習領域，應該注意區分哪些應視為不可微分的“資料”（例如，環境互動、優勢函式和回報計算、PPO 中的“分母”對數機率），哪些應視為可微分的損失結果（例如，價值誤差、PPO 中的“分子”對數機率）。

與這種誤解相關的常見錯誤如下：

RuntimeError: Trying to backward through the graph a second time (or directly access saved tensors after they have already been freed). 此錯誤通常出現在計算圖中的資料點在損失函式中被使用了兩次之後。一些使用者試圖透過呼叫 loss.backward(retain_graph=True) 來修復此問題，但這將導致本列表中的下一個錯誤。 相關的 PyTorch 錯誤討論
- 此處
- 此處
RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation 此錯誤通常在使用者透過設定 retain_graph=True 標誌來修復第一個錯誤後出現。正確的做法是，需要在 loss_fn 中重新計算需要進行微分的操作。另一個常見原因是兩個模組使用共享計算圖進行更新（例如策略和評論家）。在這種情況下，應該使用 retain_graph=True 標誌，儘管需要小心，因為這可能會將一個損失的梯度累積到另一個損失上。一般來說，更好的做法是為每個損失單獨重新計算每個中間值，同時從特定圖中排除不必要的引數，即使某些子模組的前向呼叫是相同的。 相關的 PyTorch 錯誤討論
- 此處
- 此處
演算法不學習 / param.grad 為 0 或 None。演算法不學習可能有多種原因。首先要檢查的是引數梯度的值，其範數應嚴格非負。 相關的 PyTorch 錯誤討論
- 此處

我的訓練太慢了 [新手 / 中級]¶

在某些情況下，眾所周知強化學習是 CPU 密集型的。即使並行執行少量環境，透過在叢集上請求比您正在處理的環境數量更多的核心（例如兩倍），您也會看到巨大的速度提升。對於需要渲染的環境尤其如此（即使它們是在 GPU 上渲染的）。
訓練速度取決於幾個因素，沒有一種萬能的解決方案適用於所有問題。常見的瓶頸是：
- 資料收集：模擬器速度可能會影響效能，後續的資料轉換也是如此。加速環境互動通常透過向量化（如果模擬器支援，例如 Brax 和其他基於 Jax 的模擬器）或並行化（在 gym 和其他庫中不恰當地稱為向量化環境）來實現。在 TorchRL 中，轉換通常可以在裝置上執行。
- 經驗回放緩衝區儲存和取樣：如果底層操作需要大量的記憶體操作或繁瑣的索引（例如使用優先順序經驗回放緩衝區），將條目儲存到經驗回放緩衝區可能會耗時。如果資料不是連續儲存且/或執行了耗時的堆疊或連線操作，取樣也可能花費相當長的時間。TorchRL 在這些情況下提供了高效的連續儲存解決方案以及高效的寫入和取樣解決方案。
- 優勢計算：計算優勢函式也可能構成計算瓶頸，因為這些通常是使用簡單的 for 迴圈編寫的。如果效能分析表明此操作耗時較長，請考慮改用我們完全向量化的解決方案。
- 損失計算：損失計算和最佳化步驟經常佔用了相當一部分計算時間。一些技術可以加速此過程。例如，如果使用了多個目標網路，使用向量化對映和函數語言程式設計（透過 functorch）而不是遍歷模型配置，可以顯著提高速度。

常見 bug¶

對於與 mujoco 相關的 bug（包括 DeepMind Control suite 和其他庫），請參考 MUJOCO_INSTALLATION 檔案。
ValueError: bad value(s) in fds_to_keep：這可能有多種原因。在 torchrl 中常見的一個原因是，您試圖在程序之間傳送一個作為另一個張量檢視的張量。例如，當在程序之間傳送張量 b = tensor.expand(new_shape) 時，對原始內容的引用將丟失（因為 expand 操作保留了對原始張量的引用）。要除錯此問題，請查詢此類操作（view, permute, expand 等），並在呼叫函式後呼叫 clone() 或 contiguous()。

常見的 PyTorch 錯誤和解決方案¶

我的訓練太慢了 [新手 / 中級]¶

常見 bug¶

文件

教程

資源