数据嗨客 | 第10期：模型选择与评价

0.引言

在机器学习过程中，存在不同的任务，针对具体任务进行分析的时候，需要使用不同的评价指标。

分类模型是通过训练数据建立预测模型，并利用模型将需要预测的数据样本划分到已知的几个类别中的过程。
回归模型通过数据构建自变量与因变量之间的定量映射关系。与分类模型不同的是，回归模型的自变量是连续型变量。
聚类是将数据分到不同的类或者簇的过程，使得同一个类中的样本相似性大，而不同类间的样本相似性小。聚类模型与分类模型的不同点在于，聚类模型要求所划分的类是未知的。

1. 二分类模型评价指标

机器学习中存在各种不同的分类模型，如逻辑回归、决策树、朴素贝叶斯和支持向量机等。评估不同分类模型性能的方法是相通的。

在分类问题中，每一个样本都存在两种角度的标签: 一个是样本真实的标签，一个是模型预测的标签。根据每一个样本的两种角度的标签，可以得到一个混淆矩阵（Confusion Matrix）。混淆矩阵中的每一列代表预测类别，每一列的总数表示预测为该类别的样本的数目。每一行代表了样本的真实归属类别，每一行的数据总数表示该类别的样本的数目。分类模型的评价指标主要基于混淆矩阵，下面将介绍二分类模型和多分类模型的性能评价指标。

二分类模型评价指标

对于二分类问题，每一个样本可以划分到以下四种类中。

True Positive (TP): 样本真实类别是正向的，模型预测的类别也是正向的。
True Negative (TN): 样本真实类别是负向的，模型预测的类别也是负向的。
False Positive (FP): 样本真实类别是负向的，模型预测的类别是正向的。
False Negative (FN): 样本真实类别是正向的，模型预测的类别是负向的。

对应的混淆矩阵如下表所示：

正确率

在分类问题中最常见的指标是正确率（Accuracy），它表示模型预测正确的样本比例。正确率的定义如下：

在不均衡数据中，正确率无法很好地度量模型的好坏。例如在文本情感分类数据集中，正面的样本占比为80%，负面的内容占比只有20%。如果一个分类模型将所有的样本都预测为正面，这个模型显然是一个无用的模型，但是它的正确率却可以达到80%。对于不平衡数据，精度和召回率是比正确率更好的性能评价指标。

精度

精度（Precision）是指正确预测的正样本占所有预测为正样本的比例。

召回率

召回率（Recall），又称灵敏度和命中率，是指正样本中被正确预测的样本比例。

从上述定义公式可见，精度和召回率指标的分子一样，不同的是分母。对比混淆矩阵可以看出，精度的计算可以理解为首先将模型预测为正向的样本抽取出来(TP + FP), 然后进一步审查这些样本中有多少样本真实标签也是正向（TP）。召回率则是以真实标签为正向的样本作为参考基准(TP+FN)，审查这些样本中有多少是模型预测正确的(TP)。

F1值

从上述定义中可以看出，单独考虑精度和召回率是片面的，那么有没有一个比较好的综合指标呢？答案是肯定的！在二分类问题中，可以定义一个综合考虑精度和召回率的指标，这个指标为F值。广义上的 F 值定义如下：

其中为ββ正数，其作用是调整精度和召回率的权重。ββ越大，召回率的权重更大；ββ越小，则精度的权重更大。当β=1β1时，精度和召回率的权重一样，此时称为F1值，它是精度和召回率的调和平均数。

ROC曲线和AUC

ROC(Receiver operator characteristic )曲线和AUC(Area under the ROC curve)是一个从整体上评价二分类模型优劣的指标，其中AUC是ROC曲线与横轴之间的面积。相比于其他评价指标，ROC曲线具有一定的稳定性，它不会因为正负样本分布的变化而产生不同的曲线。现实状况中，正负样本分布不均衡的情况比较普遍，所以ROC曲线和AUC是一个重要的评价指标。

ROC曲线通过真阳率（True Positive Rate, TPR）和假阳率（False Positive Rate, FPR）两个指标进行绘制。真阳率又称为敏感度(Sensitivity), 表示真实标签为正向的样本中，模型预测也是正向的样本比例。可见，真阳率和召回率是等价的指标。假阳率表示真实标签是负向的样本中，模型预测为正向的比例。真阳率和假阳率的定义为：

通过调整模型的阈值，我们可以得到一组TPR和FPR。以FPR作为横轴，TPR作为纵轴，可以针对一个模型绘制ROC曲线。ROC曲线下面积（Area Under Curve, AUC）代表了模型性能的好坏。
一个随机的模型在ROC曲线中是一条直线(下图中的虚线)，ROC曲线下面积为0.5。而一个完美模型的 ROC 曲线经过（0,0）,(0，1)，（1，1）三个点的曲线，此时ROC曲线下面积为1。