MultiAgentMLP¶

class torchrl.modules.MultiAgentMLP(n_agent_inputs: int | None, n_agent_outputs: int, n_agents: int, *, centralized: bool | None = None, share_params: bool | None = None, device: Optional[DEVICE_TYPING] = None, depth: Optional[int] = None, num_cells: Optional[Union[Sequence, int]] = None, activation_class: Optional[Type[nn.Module]] = <class 'torch.nn.modules.activation.Tanh'>, use_td_params: bool = True, **kwargs)[source]¶

多 agent MLP。

這是一個可用於多 agent 上下文的 MLP。例如，用作策略或價值函式。請參閱 examples/multiagent 獲取示例。

它期望輸入形狀為 (*B, n_agents, n_agent_inputs)，並返回形狀為 (*B, n_agents, n_agent_outputs) 的輸出。

如果 share_params 為 True，所有 agent 將使用同一個 MLP 進行前向傳播（同質策略）。否則，每個 agent 將使用不同的 MLP 處理其輸入（異質策略）。

如果 centralized 為 True，每個 agent 將使用所有 agent 的輸入計算其輸出（一個 agent 的輸入數量將是 n_agent_inputs * n_agents）。否則，每個 agent 只使用其自己的資料作為輸入。

引數:

n_agent_inputs (int 或 None) – 每個 agent 的輸入數量。如果為 None，輸入數量將在第一次呼叫時延遲例項化。
n_agent_outputs (int) – 每個 agent 的輸出數量。
n_agents (int) – agent 數量。

關鍵字引數:

centralized (bool) – 如果 centralized 為 True，每個 agent 將使用所有 agent 的輸入計算其輸出（一個 agent 的輸入數量將是 n_agent_inputs * n_agents）。否則，每個 agent 只使用其自己的資料作為輸入。
share_params (bool) – 如果 share_params 為 True，所有 agent 將使用同一個 MLP 進行前向傳播（同質策略）。否則，每個 agent 將使用不同的 MLP 處理其輸入（異質策略）。
device (str 或 toech.device, optional) – 建立模組的裝置。
depth (int, optional) – 網路的深度。深度為 0 將生成一個具有所需輸入和輸出大小的單層線性網路。深度為 1 將建立 2 個線性層等。如果沒有指定深度，深度資訊應包含在 num_cells 引數中（見下文）。如果 num_cells 是可迭代物件且指定了深度，兩者應匹配：len(num_cells) 必須等於 depth。預設值：3。
num_cells (int 或 Sequence[int], optional) – 輸入層和輸出層之間的每個層的單元數量。如果提供一個整數，每個層將具有相同數量的單元。如果提供一個可迭代物件，線性層的 out_features 將與 num_cells 的內容匹配。預設值：32。
activation_class (Type[nn.Module]) – 將使用的啟用函式類。預設值：nn.Tanh。
use_td_params (bool, optional) – 如果為 True，引數可以在 self.params 中找到，它是一個 TensorDictParams 物件（繼承自 TensorDict 和 nn.Module）。如果為 False，引數包含在 self._empty_net 中。綜合來看，這兩種方法應該大致相同但不互換：例如，使用 use_td_params=True 建立的 state_dict 不能在 use_td_params=False 時使用。
**kwargs – 可傳遞給 torchrl.modules.models.MLP 以自定義 MLP。

注意

要使用 torch.nn.init 模組初始化 MARL 模組引數，請參閱 get_stateful_net() 和 from_stateful_net() 方法。

示例

>>> from torchrl.modules import MultiAgentMLP
>>> import torch
>>> n_agents = 6
>>> n_agent_inputs=3
>>> n_agent_outputs=2
>>> batch = 64
>>> obs = torch.zeros(batch, n_agents, n_agent_inputs)
>>> # instantiate a local network shared by all agents (e.g. a parameter-shared policy)
>>> mlp = MultiAgentMLP(
...     n_agent_inputs=n_agent_inputs,
...     n_agent_outputs=n_agent_outputs,
...     n_agents=n_agents,
...     centralized=False,
...     share_params=True,
...     depth=2,
... )
>>> print(mlp)
MultiAgentMLP(
  (agent_networks): ModuleList(
    (0): MLP(
      (0): Linear(in_features=3, out_features=32, bias=True)
      (1): Tanh()
      (2): Linear(in_features=32, out_features=32, bias=True)
      (3): Tanh()
      (4): Linear(in_features=32, out_features=2, bias=True)
    )
  )
)
>>> assert mlp(obs).shape == (batch, n_agents, n_agent_outputs)
Now let's instantiate a centralized network shared by all agents (e.g. a centalised value function)
>>> mlp = MultiAgentMLP(
...     n_agent_inputs=n_agent_inputs,
...     n_agent_outputs=n_agent_outputs,
...     n_agents=n_agents,
...     centralized=True,
...     share_params=True,
...     depth=2,
... )
>>> print(mlp)
MultiAgentMLP(
  (agent_networks): ModuleList(
    (0): MLP(
      (0): Linear(in_features=18, out_features=32, bias=True)
      (1): Tanh()
      (2): Linear(in_features=32, out_features=32, bias=True)
      (3): Tanh()
      (4): Linear(in_features=32, out_features=2, bias=True)
    )
  )
)
We can see that the input to the first layer is n_agents * n_agent_inputs,
this is because in the case the net acts as a centralized mlp (like a single huge agent)
>>> assert mlp(obs).shape == (batch, n_agents, n_agent_outputs)
Outputs will be identical for all agents.
Now we can do both examples just shown but with an independent set of parameters for each agent
Let's show the centralized=False case.
>>> mlp = MultiAgentMLP(
...     n_agent_inputs=n_agent_inputs,
...     n_agent_outputs=n_agent_outputs,
...     n_agents=n_agents,
...     centralized=False,
...     share_params=False,
...     depth=2,
... )
>>> print(mlp)
MultiAgentMLP(
  (agent_networks): ModuleList(
    (0-5): 6 x MLP(
      (0): Linear(in_features=3, out_features=32, bias=True)
      (1): Tanh()
      (2): Linear(in_features=32, out_features=32, bias=True)
      (3): Tanh()
      (4): Linear(in_features=32, out_features=2, bias=True)
    )
  )
)
We can see that this is the same as in the first example, but now we have 6 MLPs, one per agent!
>>> assert mlp(obs).shape == (batch, n_agents, n_agent_outputs)

MultiAgentMLP¶

文件

教程

資源