torchao.quantization¶
主要量化 API¶
使用 config 轉換模型中線性模組的權重,模型會被原地修改 |
|
自動量化是一個過程,它可以在一組潛在的 qtensor 子類中,識別出對模型每一層進行量化的最快方式。 |
quantize_ 的量化 API¶
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
量化原語¶
|
|
是 |
|
|
|
將 float32 高精度浮點張量量化為低精度浮點數,並將結果轉換為未打包的浮點格式,格式為 00SEEEMM(對於 fp6_e3m2),其中 S 表示符號位,e 表示指數位,m 表示尾數位 |
|
|
|
用於量化感知訓練 (QAT) 的通用偽量化運算元。 |
|
用於量化感知訓練 (QAT) 的通用偽量化運算元。 |
|
執行安全的整數矩陣乘法,考慮了 torch.compile、cublas 和回退情況下的不同路徑。 |
|
執行縮放的整數矩陣乘法。 |
|
浮點數如何對映到整數 |
|
指示 zero_point 是在整數域還是浮點域中的列舉 |
|
PyTorch 核心中尚不存在的資料型別的佔位符。 |
其他¶
將模型中的線性層替換為其等效的 SmoothFakeDynamicallyQuantizedLinear 層。 |
|
透過計算每個 SmoothFakeDynamicallyQuantizedLinear 層的 smoothquant 比例來準備模型進行推理。 |