介绍

如果你在训练一个二分类分类器，很有可能你在使用二值交叉熵，log损失，作为你的损失函数。

你有没有想过，使用这个损失函数到底意味着什么？事实是，现在的各种库和框架非常的简单易用，导致大家很容易忽视所使用的损失函数的真正意义。

动机

我一直在找一个可以通过可视化到的方法清楚而简单的解释二元交叉熵（log损失）的背后的真正含义，这样我可以在 Data Science Retreat上展示给我的学生，但是我一直没有找到。既然找不到我想要的，那我就自己来:-)

一个简单的分类问题

让我们从10个随机数开始：

x = [-2.2, -1.4, -0.8, 0.2, 0.4, 0.8, 1.2, 2.2, 2.9, 4.6]

这就是我们唯一的特征：x

现在，我们给这些点涂上点颜色：红色和绿色，作为标签。

所以，我们的分类问题就很直观了：给定了特征x，需要我们预测标签：红色或者绿色。

既然是个二分类，我们可以将这个问题描述成：“这个点是绿色的吗？”，或者，“这个点是绿色的概率是多少？”，理想的状态下，绿色点的概率应该为1.0，同时红色点的概率应该为0.0。

在这样的设定下，绿色点属于正样本，红色点属于负样本。

如果我拟合一个模型来进行分类，预测每个点是绿色的概率。给定点的颜色，我们如何来评估这个预测的概率的好坏？这就是损失函数的目的！损失函数对于好的预测将返回一个低的值，对于坏的预测，将返回一个高的值。

对于二分类，比如我们的例子，典型的损失函数就是二值交叉熵（对数损失）。

损失函数：二元交叉熵/对数损失

如果你仔细看看这个损失函数，你会发现：

y是标签（1是绿色的，0是红色的），p(y)是所有的N个点预测是绿色的概率。

这个公式告诉你，对于每一个绿色(y=1)的点，加了一个log(p(y))到损失中，这就是绿色的对数概率。相反的，对于每一个红色(y=0)的点添加了log(1-p(y))，这个是红色的对数概率。一点也不难，也很不直观。

另外，熵和这些有个什么关系？为什么我们要首先取概率的对数？这才是有价值的问题，我希望在下面的 “Show me the math” 环节中回答。

但是，在我们开始更多的公式之前，我先给你展示一个上面公式的可视化的表示。

计算损失—可视化的方法

首先，我们根据类别将这些点分开，正样本和负样本，就像这样：

现在，我们来训练逻辑回归模型来分类我们的点。这个回归的拟合是一个sigmoid的曲线，表示了给定的x是绿色的概率。就像这样：

对于所有的属于正样本的点（绿色），我们的分类器给出的预测概率是什么？就是sigmoid曲线下面的绿色的条，x的坐标代表了这个点。

到现在为止，一切都好！那么负样本的点呢？记住，sigmoid曲线之下的绿条表示的该点是绿色的概率。那么，给定的点是红色的概率是多少呢？当然就是sigmoid曲线上面红色条啦 :-)

把这些放在一起，我们得到了这样的东西：

条子代表了每个点对应的类别的预测的概率。

好了，我们有了预测的概率，是时候计算一下二值交叉熵/对数损失来评估一下了。

这些概率就是我们需要的东西，所以，我们不需要x的坐标了，我们把竖条一个挨一个排列起来。

现在，这些竖条不再有什么含义了，我们改变一下位置：

既然我们是想计算损失，我们需要惩罚坏的预测，是吗？如果对应类别的相关的概率是1.0，我们需要对应的loss为零。对应的，如果概率很低，比如0.01，我们希望损失很大！

结果就是，将概率值取对数能够很好的满足我们的需求（实际上，使用对数的原因是来自于交叉熵的定义）。

下面的图显示的很清楚，预测为真的概率值越趋向于零，损失指数增加：

很公平！我们取概率的对数——这些就是每个点对应的损失。

最后，我们计算所有损失的均值。

好了！我们成功的计算了二元交叉熵/对数损失的值，是0.3329！

给我看代码

如果你需要重复确认一些我们的发现，运行下面的代码，自己看！

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import log_loss
import numpy as np
x = np.array([-2.2, -1.4, -.8, .2, .4, .8, 1.2, 2.2, 2.9, 4.6])
y = np.array([0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0])
logr = LogisticRegression(solver='lbfgs')
logr.fit(x.reshape(-1, 1), y)
y_pred = logr.predict_proba(x.reshape(-1, 1))[:, 1].ravel()
loss = log_loss(y, y_pred)
print('x = {}'.format(x))
print('y = {}'.format(y))
print('p(y) = {}'.format(np.round(y_pred, 2)))
print('Log Loss / Cross Entropy = {:.4f}'.format(loss))