Cross Entropy vs Cross Entropy Loss
这俩是有区别的,我一直没有注意直到我发现公式上的区别。我没有注意的原因应该是 regression 没有显式使用 cross entropy loss,而 classification 的 cross entropy loss 是对原生 cross entropy 的扩展。
这俩是有区别的,我一直没有注意直到我发现公式上的区别。我没有注意的原因应该是 regression 没有显式使用 cross entropy loss,而 classification 的 cross entropy loss 是对原生 cross entropy 的扩展。
首先说下为啥需要把代码转成 graph。我觉得可能主要有两点考虑:
Huber loss:
我真的是出离愤怒。我不知道最开始把 convolution 看做 dot product 的人是怎么想的!有 convolution 的公式不用,非要用这么蹩脚的 intuition?而且明显 convolution 和 Hadamard product 的关系更大一点呢,咋没见人提?
$$ \DeclareMathOperator*{\argmin}{argmin}
1. Generative vs Discriminative
1. Check installed Open JDK
1. Sampling from a Probability Distribution
写这篇主要是因为我看到有些 measure 的定义用到了 $\delta$-ring.