• 文件 >
  • torchao.quantization
快捷方式

torchao.quantization

主要量化 API

quantize_

使用 config 轉換模型中線性模組的權重,模型會被原地修改

autoquant

自動量化是一個過程,它可以在一組潛在的 qtensor 子類中,識別出對模型每一層進行量化的最快方式。

quantize_ 的量化 API

int4_weight_only

Int4WeightOnlyConfig 的別名

int8_weight_only

Int8WeightOnlyConfig 的別名

int8_dynamic_activation_int4_weight

Int8DynamicActivationInt4WeightConfig 的別名

int8_dynamic_activation_int8_weight

Int8DynamicActivationInt8WeightConfig 的別名

uintx_weight_only

UIntXWeightOnlyConfig 的別名

gemlite_uintx_weight_only

GemliteUIntXWeightOnlyConfig 的別名

intx_quantization_aware_training

IntXQuantizationAwareTrainingConfig 的別名

float8_weight_only

Float8WeightOnlyConfig 的別名

float8_dynamic_activation_float8_weight

Float8DynamicActivationFloat8WeightConfig 的別名

float8_static_activation_float8_weight

Float8StaticActivationFloat8WeightConfig 的別名

fpx_weight_only

FPXWeightOnlyConfig 的別名

量化原語

choose_qparams_affine

引數 input:

fp32, bf16, fp16 輸入張量

choose_qparams_affine_with_min_max

choose_qparams_affine() 運算元的一種變體,它直接傳入 min_val 和 max_val,而不是從單個輸入中匯出它們。

choose_qparams_affine_floatx

quantize_affine

引數 input:

原始的 float32、float16 或 bfloat16 張量

quantize_affine_floatx

將 float32 高精度浮點張量量化為低精度浮點數,並將結果轉換為未打包的浮點格式,格式為 00SEEEMM(對於 fp6_e3m2),其中 S 表示符號位,e 表示指數位,m 表示尾數位

dequantize_affine

引數 input:

量化張量,應與 dtype dtype 引數匹配

dequantize_affine_floatx

choose_qparams_and_quantize_affine_hqq

fake_quantize_affine

用於量化感知訓練 (QAT) 的通用偽量化運算元。

fake_quantize_affine_cachemask

用於量化感知訓練 (QAT) 的通用偽量化運算元。

safe_int_mm

執行安全的整數矩陣乘法,考慮了 torch.compile、cublas 和回退情況下的不同路徑。

int_scaled_matmul

執行縮放的整數矩陣乘法。

MappingType

浮點數如何對映到整數

ZeroPointDomain

指示 zero_point 是在整數域還是浮點域中的列舉

TorchAODType

PyTorch 核心中尚不存在的資料型別的佔位符。

其他

to_linear_activation_quantized

swap_linear_with_smooth_fq_linear

將模型中的線性層替換為其等效的 SmoothFakeDynamicallyQuantizedLinear 層。

smooth_fq_linear_to_inference

透過計算每個 SmoothFakeDynamicallyQuantizedLinear 層的 smoothquant 比例來準備模型進行推理。

文件

訪問 PyTorch 的全面開發者文件

檢視文件

教程

獲取面向初學者和進階開發者的深入教程

檢視教程

資源

查詢開發資源並獲得問題解答

檢視資源