torchao.quantization¶

主要量化 API¶

`quantize_`	使用 config 轉換模型中線性模組的權重，模型會被原地修改
`autoquant`	自動量化是一個過程，它可以在一組潛在的 qtensor 子類中，識別出對模型每一層進行量化的最快方式。

`int4_weight_only`	`Int4WeightOnlyConfig` 的別名
`int8_weight_only`	`Int8WeightOnlyConfig` 的別名
`int8_dynamic_activation_int4_weight`	`Int8DynamicActivationInt4WeightConfig` 的別名
`int8_dynamic_activation_int8_weight`	`Int8DynamicActivationInt8WeightConfig` 的別名
`uintx_weight_only`	`UIntXWeightOnlyConfig` 的別名
`gemlite_uintx_weight_only`	`GemliteUIntXWeightOnlyConfig` 的別名
`intx_quantization_aware_training`	`IntXQuantizationAwareTrainingConfig` 的別名
`float8_weight_only`	`Float8WeightOnlyConfig` 的別名
`float8_dynamic_activation_float8_weight`	`Float8DynamicActivationFloat8WeightConfig` 的別名
`float8_static_activation_float8_weight`	`Float8StaticActivationFloat8WeightConfig` 的別名
`fpx_weight_only`	`FPXWeightOnlyConfig` 的別名

`choose_qparams_affine`	引數 input: fp32, bf16, fp16 輸入張量
`choose_qparams_affine_with_min_max`	是 `choose_qparams_affine()` 運算元的一種變體，它直接傳入 min_val 和 max_val，而不是從單個輸入中匯出它們。
`choose_qparams_affine_floatx`
`quantize_affine`	引數 input: 原始的 float32、float16 或 bfloat16 張量
`quantize_affine_floatx`	將 float32 高精度浮點張量量化為低精度浮點數，並將結果轉換為未打包的浮點格式，格式為 00SEEEMM（對於 fp6_e3m2），其中 S 表示符號位，e 表示指數位，m 表示尾數位
`dequantize_affine`	引數 input: 量化張量，應與 dtype dtype 引數匹配
`dequantize_affine_floatx`
`choose_qparams_and_quantize_affine_hqq`
`fake_quantize_affine`	用於量化感知訓練 (QAT) 的通用偽量化運算元。
`fake_quantize_affine_cachemask`	用於量化感知訓練 (QAT) 的通用偽量化運算元。
`safe_int_mm`	執行安全的整數矩陣乘法，考慮了 torch.compile、cublas 和回退情況下的不同路徑。
`int_scaled_matmul`	執行縮放的整數矩陣乘法。
`MappingType`	浮點數如何對映到整數
`ZeroPointDomain`	指示 zero_point 是在整數域還是浮點域中的列舉
`TorchAODType`	PyTorch 核心中尚不存在的資料型別的佔位符。

`to_linear_activation_quantized`
`swap_linear_with_smooth_fq_linear`	將模型中的線性層替換為其等效的 SmoothFakeDynamicallyQuantizedLinear 層。
`smooth_fq_linear_to_inference`	透過計算每個 SmoothFakeDynamicallyQuantizedLinear 層的 smoothquant 比例來準備模型進行推理。