less than 1 minute read

这俩是有区别的,我一直没有注意直到我发现公式上的区别。我没有注意的原因应该是 regression 没有显式使用 cross entropy loss,而 classification 的 cross entropy loss 是对原生 cross entropy 的扩展。

假设有两个 probability distributions:

  • P={p1,p2,,pn}
    • ipi=1
  • Q={q1,q2,,qn}
    • iqi=1

The cross entropy of distribution P and Q is

H(P,Q)=ipilog2qi

但在 classification 问题下,这个 PQ 不一定是 probability distributions,比方说 (假设 binary classification):

  • P 可以是 labels,比如 P={1,1,0}
  • Q 可以是 predictions,比如 Q={0.9,0.8,0.4}
    • 也就是说 ipi=1iqi=1 也不一定成立了

我们接着定义:

  • P={1p1,1p2,,1pn}
    • 也就是反向的 labels,比如 P={0,0,1}
  • Q={1q1,1q2,,1qn}
    • 也就是反向的 predictions,比如 Q={0.1,0.2,0.6}

那么 binary cross entropy loss 就可以定义为:

L(P,Q)=H(P,Q)+H(P,Q)

这也就是常见的写法:

Loss=(ylog(p)+(1y)log(1p))

Tags:

Categories:

Updated:

Comments