快捷方式

分詞器

class torchrl.envs.transforms.Tokenizer(in_keys: Sequence[NestedKey], out_keys: Sequence[NestedKey], in_keys_inv: Sequence[NestedKey] | None = None, out_keys_inv: Sequence[NestedKey] | None = None, *, tokenizer: transformers.PretrainedTokenizerBase = None, use_raw_nontensor: bool = False, additional_tokens: List[str] | None = None, skip_special_tokens: bool = True, add_special_tokens: bool = False, padding: bool = True, max_length: int | None = None)[源]

對指定的輸入應用分詞操作。

引數:
  • in_keys (sequence of NestedKey) – 分詞操作輸入的鍵。

  • out_keys (sequence of NestedKey) – 分詞操作輸出的鍵。

  • in_keys_inv (sequence of NestedKey, 可選) – 在逆向呼叫期間分詞操作輸入的鍵。

  • out_keys_inv (sequence of NestedKey, 可選) – 在逆向呼叫期間分詞操作輸出的鍵。

關鍵字引數:
  • tokenizer (transformers.PretrainedTokenizerBasestr, 可選) – 要使用的分詞器。如果為 None,則預設為“bert-base-uncased”。如果提供字串,應為預訓練分詞器的名稱。

  • use_raw_nontensor (bool, 可選) – 如果為 False,則在呼叫分詞函式之前,從 NonTensorData/NonTensorStack 輸入中提取資料。如果為 True,則直接將原始 NonTensorData/NonTensorStack 輸入提供給分詞函式,該函式必須支援這些輸入。預設為 False

  • additional_tokens (List[str], 可選) – 要新增到分詞器詞彙表中的附加詞元列表。

注意

此 transform 可用於將輸出字串轉換為詞元,也可用於將詞元化的動作或狀態轉換回字串。如果環境具有字串狀態規範 (state-spec),則轉換後的版本將具有詞元化狀態規範。如果它是字串動作規範 (action spec),則會生成詞元化動作規範。

transform_input_spec(input_spec: Composite) Composite[源]

轉換輸入規範,使結果規範與 transform 對映匹配。

引數:

input_spec (TensorSpec) – transform 前的規範

返回:

transform 後的預期規範

transform_output_spec(output_spec: Composite) Composite[源]

轉換輸出規範,使結果規範與 transform 對映匹配。

此方法通常無需修改。應使用 transform_observation_spec()transform_reward_spec()transform_full_done_spec() 實現更改。 :param output_spec: transform 前的規範 :type output_spec: TensorSpec

返回:

transform 後的預期規範

文件

查閱 PyTorch 的全面開發者文件

檢視文件

教程

獲取面向初學者和高階開發者的深入教程

檢視教程

資源

查詢開發資源並獲得問題的解答

檢視資源