ConvTranspose3d¶
- class torch.nn.ConvTranspose3d(in_channels, out_channels, kernel_size, stride=1, padding=0, output_padding=0, groups=1, bias=True, dilation=1, padding_mode='zeros', device=None, dtype=None)[source][source]¶
對由多個輸入平面組成的輸入影像應用三維轉置卷積運算。轉置卷積運算元將每個輸入值與可學習的核進行逐元素相乘,並對所有輸入特徵平面的輸出進行求和。
此模組可視為 Conv3d 關於其輸入的梯度。它也稱為分數步長卷積(fractionally-strided convolution)或反捲積(deconvolution)(儘管它並非真正的反捲積操作,因為它不計算卷積的真逆)。更多資訊請參見此處的視覺化以及《Deconvolutional Networks》論文。
此模組支援 TensorFloat32。
在某些 ROCm 裝置上,使用 float16 輸入時,此模組在反向傳播時將使用不同的精度。
stride控制互相關的步長。padding控制輸入的每個維度的兩側隱式零填充的數量,填充點數為dilation * (kernel_size - 1) - padding。詳見下方注意事項。output_padding控制輸出形狀單側增加的額外尺寸。詳見下方注意事項。dilation控制核點之間的間距;也稱為 à trous 演算法。這較難描述,但此處的連結對dilation的作用有很好的視覺化說明。groups控制輸入與輸出之間的連線。in_channels和out_channels都必須能被groups整除。例如,當 groups=1 時,所有輸入都與所有輸出進行卷積。
當 groups=2 時,該操作等價於並行放置兩個卷積層,每個層處理一半的輸入通道併產生一半的輸出通道,隨後將兩者拼接。
當 groups=
in_channels時,每個輸入通道都與其自身的濾波器組進行卷積(濾波器數量為 )。
引數
kernel_size,stride,padding,output_padding可以是一個單獨的
int型別值 – 此時,深度、高度和寬度維度都使用相同的值一個由三個 int 組成的
tuple– 此時,第一個 int 用於深度維度,第二個 int 用於高度維度,第三個 int 用於寬度維度
注意
引數
padding實際在輸入的兩側各添加了dilation * (kernel_size - 1) - padding數量的零填充。這樣設定是為了使Conv3d和ConvTranspose3d在使用相同引數初始化時,在輸入和輸出形狀方面互為逆操作。然而,當stride > 1時,Conv3d會將多個輸入形狀對映到同一個輸出形狀。 提供output_padding是為了透過有效增加計算出的輸出形狀單側尺寸來解決這種歧義。請注意,output_padding僅用於確定輸出形狀,並不會在輸出上實際新增零填充。注意
在某些情況下,當輸入張量在 CUDA 裝置上且使用 CuDNN 時,該運算元可能會選擇非確定性演算法以提高效能。如果不需要這樣,您可以嘗試透過設定
torch.backends.cudnn.deterministic = True來使操作具有確定性(可能會以效能為代價)。更多資訊請參見可復現性。- 引數
- 形狀
輸入: 或
輸出: 或 ,其中
- 變數
示例
>>> # With square kernels and equal stride >>> m = nn.ConvTranspose3d(16, 33, 3, stride=2) >>> # non-square kernels and unequal stride and with padding >>> m = nn.ConvTranspose3d(16, 33, (3, 5, 2), stride=(2, 1, 1), padding=(0, 4, 2)) >>> input = torch.randn(20, 16, 10, 50, 100) >>> output = m(input)