Convolution is convolution; it’s NOT dot product

May 20, 2019 3 分钟阅读

我真的是出离愤怒。我不知道最开始把 convolution 看做 dot product 的人是怎么想的！有 convolution 的公式不用，非要用这么蹩脚的 intuition？而且明显 convolution 和 Hadamard product 的关系更大一点呢，咋没见人提？

本文主要参考：

1-D ConvolutionPermalink

首先 convolution 不是限定于 matrix 间、也不是限定于 tensor 间的运算，它其实是两个 functions 之间的运算：

(f * g) (t) \overset{Δ}{=} \int_{- \infty}^{\infty} f (τ) g (t - τ) d τ

在 engineering 领域也有 $f (t) * g (t)$ 的写法。

因为 $(f * g) (t) = (g * f) (t)$ ，所以也可以有：

(f * g) (t) \overset{Δ}{=} \int_{- \infty}^{\infty} f (t - τ) g (τ) d τ

物理上的一个 intuition 是：if signal $f (t)$ is applied to an LTI (linear time-invariant) system with impluse response $g (t)$ , the final output is $f (t) * g (t)$ .

For complex-valued functions $f$ , $g$ defined on $Z$ , the discrete convolution of $f$ and $g$ is:

(f * g) (n) = \sum_{m} f (m) g (n - m)

2-D ConvolutionPermalink

一般有：

(f * g) (x, y) = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} f (σ, τ) g (x - σ, y - τ) d σ d τ

如果 $f$ , $g$ 是 discrete functions，则有：

(f * g) (x, y) = \sum_{σ} \sum_{τ} f (σ, τ) g (x - σ, y - τ)

Matrix 2-D Convolution for Image Processing / Image & KernelPermalink

如果我们把 matrix $A$ 看做其自身 indice 的函数 (所以自然是 discrete 的函数) (而不是把 matrix $A$ 看做是关于 vector $x$ 的函数)，比如最基本的：

A (i, j) = A_{i, j}

where $0 \leq i < m, 0 \leq j < n$ . 那么两个 matrice 也可以做 convolution (以下下标都从 0 记起)。

但是要注意在 image processing 领域，这个 matrix 的函数式写法没有这么简单。一般有一个 image matrix $A_{m_{A} \times n_{A}}$ ，一个 kernel matrix $K_{m_{K} \times n_{K}}$ ， $m_{K} < m_{A}, n_{K} < n_{A}$ 。然后我们有函数：

\begin{aligned} f_{A} (i, j) & = A_{m_{K} + i, n_{K} + j} \\ f_{K} (i, j) & = K_{i, j}^{H V} = K_{m_{K} - i, n_{K} - j} \end{aligned}

where $K^{H V} = J K J$ and $J$ is the anti-diagonal “identity” matrix (或者看成是 row-reversed identity matrix) like $[\begin{matrix} 0 & 1 \\ 1 & 0 \end{matrix}]$ .

$J K$ 的作用是将 $K$ 上下翻转 (horizontally flip)
$K J$ 的作用是将 $K$ 左右翻转 (vertically flip)

如果有 matrix $C = f_{A} * f_{K}$ ，那么有：

\begin{aligned} C (i, j) & = \sum_{i^{'}} \sum_{j^{'}} f_{K} (i^{'}, j^{'}) f_{A} (i - i^{'}, j - j^{'}) \\ = \sum_{i^{'}} \sum_{j^{'}} K_{m_{K} - i^{'}, n_{K} - j^{'}} A_{m_{K} - i^{'} + i, n_{K} - j^{'} + j} \end{aligned}

注意，如果下标从 1 开始计的话，上面的下标都要 +1
另外，参考 kernel method 的思想，实际应用中我们并不需要构造 $f_{A}$ 和 $f_{K}$ ，直接写出 $C (i, j) = \sum_{i^{'}} \sum_{j^{'}} K_{?, ?} A_{?, ?}$ 的形式拿来用就好了

考虑个具体的例子，假设 $K_{2 \times 2}, A_{3 \times 3}$ ，则 $C = (f_{A} * f_{K})$ 有：

\begin{aligned} C (0, 0) & = \sum_{i^{'}} \sum_{j^{'}} K_{2 - i^{'}, 2 - j^{'}} A_{2 - i^{'}, 2 - j^{'}} \\ = K_{0, 0} A_{0, 0} + K_{0, 1} A_{0, 1} + K_{1, 0} A_{1, 0} + K_{1, 1} A_{1, 1} \\ C (0, 1) & = \sum_{i^{'}} \sum_{j^{'}} K_{2 - i^{'}, 2 - j^{'}} A_{2 - i^{'}, 3 - j^{'}} \\ = K_{0, 0} A_{0, 1} + K_{0, 1} A_{0, 2} + K_{1, 0} A_{1, 1} + K_{1, 1} A_{1, 2} \\ C (1, 0) & = \sum_{i^{'}} \sum_{j^{'}} K_{2 - i^{'}, 2 - j^{'}} A_{3 - i^{'}, 2 - j^{'}} \\ = K_{0, 0} A_{1, 0} + K_{0, 1} A_{1, 1} + K_{1, 0} A_{2, 0} + K_{1, 1} A_{2, 1} \\ C (1, 1) & = \sum_{i^{'}} \sum_{j^{'}} K_{2 - i^{'}, 2 - j^{'}} A_{3 - i^{'}, 3 - j^{'}} \\ = K_{0, 0} A_{1, 1} + K_{0, 1} A_{1, 2} + K_{1, 0} A_{2, 1} + K_{1, 1} A_{2, 2} \end{aligned}

这个例子给出了一个很直观的 intuition：

把 kernel $K$ 覆盖在 image $A$ 之上， $K_{0, 0}$ 对齐到 $A_{0, 0}$ (左上角对齐)
移动 kernel $K$ 使 $K_{0, 0}$ 对齐到 $A_{i, j}$ ，假设覆盖到的 image $A$ 的部分是 $A_{i : i + m_{K}, j : j + n_{K}}$
那么 $C (i, j) = sum (K ⊙ A_{i : i + m_{K}, j : j + n_{K}})$ (sum of Hadamard product)
- 我再次强调一遍，这不是 dot product！

很明显我们可以把 $C$ 看做一个 matrix $C_{i, j} = C (i, j)$ 。最后考虑下这个 matrix $C$ 的 size：

\begin{array}{r} 0 \leq i^{'} < m_{K} \\ 0 \leq j^{'} < n_{K} \\ 0 \leq m_{K} - i^{'} + i < m_{A} \\ 0 \leq m_{K} - i^{'} + i < n_{A} \end{array}

进而有：

\begin{array}{r} 0 \leq i < m_{A} - m_{K} \\ 0 \leq j < n_{A} - n_{K} \end{array}

所以 matrix $C$ 最大的 size 只可能是 $(m_{A} - m_{K} + 1) \times (n_{A} - n_{K} + 1)$

X Facebook LinkedIn Bluesky

Convolution is convolution; it’s NOT dot product

1-D ConvolutionPermalink

2-D ConvolutionPermalink

Matrix 2-D Convolution for Image Processing / Image & KernelPermalink

分享

留下评论

猜您还喜欢

LL(0) vs. LL(1) Grammars: From Single-String to Flexible Repetition

Lark’s implementation of computing FIRST and FOLLOW sets

LL(1) Parsing

Top-Down Parsers: Recursive Descent, Predictive, and More