Fold¶

class torch.nn.Fold(output_size, kernel_size, dilation=1, padding=0, stride=1)[源][源]¶

將一組滑動的區域性塊組合成一個大的包含張量。

考慮一個包含滑動區域性塊（例如影像塊）的批次 input 張量，其形狀為 $(N, C \times \prod(\text{kernel\_size}), L)$ ，其中 $N$ 是批次維度， $C \times \prod(\text{kernel\_size})$ 是塊內的值數量（一個塊有 $\prod(\text{kernel\_size})$ 個空間位置，每個位置包含一個 $C$ 通道向量）， $L$ 是塊的總數量。（這與 Unfold 的輸出形狀完全相同。）此操作透過對重疊的值求和，將這些區域性塊組合到形狀為 $(N, C, \text{output\_size}[0], \text{output\_size}[1], \dots)$ 的大 output 張量中。與 Unfold 類似，引數必須滿足

L = \prod_d \left\lfloor\frac{\text{output\_size}[d] + 2 \times \text{padding}[d] % - \text{dilation}[d] \times (\text{kernel\_size}[d] - 1) - 1}{\text{stride}[d]} + 1\right\rfloor,

其中 $d$ 表示所有空間維度。

output_size 描述了包含滑動區域性塊的大張量的空間形狀。當多個輸入形狀對映到相同數量的滑動塊時（例如，stride > 0 時），它有助於解決歧義。

padding、stride 和 dilation 引數指定了如何檢索滑動塊。

stride 控制滑動塊的步長。
padding 控制在重塑之前，每個維度在兩側新增 padding 數量的隱式零填充。
dilation 控制核點之間的間距；也稱為 à trous 演算法。這很難描述，但這個連結有一個很好的視覺化展示了 dilation 的作用。

引數

output_size (int 或 tuple) – 輸出張量空間維度（即 output.sizes()[2:]）的形狀
kernel_size (int 或 tuple) – 滑動塊的大小
dilation (int 或 tuple, 可選) – 控制鄰域內元素步長的引數。預設值: 1
padding (int 或 tuple, 可選) – 在輸入兩側新增的隱式零填充數量。預設值: 0
stride (int 或 tuple) – 輸入空間維度中滑動塊的步長。預設值: 1

如果 output_size、kernel_size、dilation、padding 或 stride 是 int 或長度為 1 的 tuple，則其值將應用於所有空間維度。
對於兩個輸出空間維度的情況，此操作有時稱為 col2im。

注意

Fold 透過對所有包含塊中的所有值求和來計算結果大張量中的每個組合值。Unfold 透過從大張量複製來提取區域性塊中的值。因此，如果塊重疊，它們不是彼此的逆運算。

通常，摺疊 (folding) 和展開 (unfolding) 操作之間的關係如下。考慮使用相同引數建立的 Fold 和 Unfold 例項

>>> fold_params = dict(kernel_size=..., dilation=..., padding=..., stride=...)
>>> fold = nn.Fold(output_size=..., **fold_params)
>>> unfold = nn.Unfold(**fold_params)

那麼對於任何（支援的）input 張量，以下等式成立

fold(unfold(input)) == divisor * input

其中 divisor 是一個僅取決於 input 形狀和 dtype 的張量

>>> input_ones = torch.ones(input.shape, dtype=input.dtype)
>>> divisor = fold(unfold(input_ones))

當 divisor 張量不包含零元素時，fold 和 unfold 操作互為逆運算（常數因子除外）。

警告

目前，僅支援非批次 (3D) 或批次 (4D) 影像狀輸出張量。

形狀

輸入: $(N, C \times \prod(\text{kernel\_size}), L)$ 或 $(C \times \prod(\text{kernel\_size}), L)$
輸出: $(N, C, \text{output\_size}[0], \text{output\_size}[1], \dots)$ 或 $(C, \text{output\_size}[0], \text{output\_size}[1], \dots)$ 如上所述

示例

>>> fold = nn.Fold(output_size=(4, 5), kernel_size=(2, 2))
>>> input = torch.randn(1, 3 * 2 * 2, 12)
>>> output = fold(input)
>>> output.size()
torch.Size([1, 3, 4, 5])

Fold¶

文件

教程

資源