0.引言
在机器学习过程中,存在不同的任务,针对具体任务进行分析的时候,需要使用不同的评价指标。
- 分类模型是通过训练数据建立预测模型,并利用模型将需要预测的数据样本划分到已知的几个类别中的过程。
- 回归模型通过数据构建自变量与因变量之间的定量映射关系。与分类模型不同的是,回归模型的自变量是连续型变量。
- 聚类是将数据分到不同的类或者簇的过程,使得同一个类中的样本相似性大,而不同类间的样本相似性小。聚类模型与分类模型的不同点在于,聚类模型要求所划分的类是未知的。
1. 二分类模型评价指标
机器学习中存在各种不同的分类模型,如逻辑回归、决策树、朴素贝叶斯和支持向量机等。评估不同分类模型性能的方法是相通的。
在分类问题中,每一个样本都存在两种角度的标签: 一个是样本真实的标签,一个是模型预测的标签。根据每一个样本的两种角度的标签,可以得到一个混淆矩阵(Confusion Matrix)。混淆矩阵中的每一列代表预测类别 ,每一列的总数表示预测为该类别的样本的数目。每一行代表了样本的真实归属类别 ,每一行的数据总数表示该类别的样本的数目。分类模型的评价指标主要基于混淆矩阵,下面将介绍二分类模型和多分类模型的性能评价指标。
二分类模型评价指标
对于二分类问题,每一个样本可以划分到以下四种类中。
- True Positive (TP): 样本真实类别是正向的,模型预测的类别也是正向的。
- True Negative (TN): 样本真实类别是负向的,模型预测的类别也是负向的。
- False Positive (FP): 样本真实类别是负向的,模型预测的类别是正向的。
- False Negative (FN): 样本真实类别是正向的,模型预测的类别是负向的。
对应的混淆矩阵如下表所示:
正确率
在分类问题中最常见的指标是正确率(Accuracy),它表示模型预测正确的样本比例。正确率的定义如下:
在不均衡数据中,正确率无法很好地度量模型的好坏。例如在文本情感分类数据集中,正面的样本占比为80%,负面的内容占比只有20%。如果一个分类模型将所有的样本都预测为正面,这个模型显然是一个无用的模型,但是它的正确率却可以达到80%。对于不平衡数据,精度和召回率是比正确率更好的性能评价指标。
精度
精度(Precision)是指正确预测的正样本占所有预测为正样本的比例。
召回率
召回率(Recall),又称灵敏度和命中率,是指正样本中被正确预测的样本比例。
从上述定义公式可见,精度和召回率指标的分子一样,不同的是分母。对比混淆矩阵可以看出,精度的计算可以理解为首先将模型预测为正向的样本抽取出来(TP + FP), 然后进一步审查这些样本中有多少样本真实标签也是正向(TP)。召回率则是以真实标签为正向的样本作为参考基准(TP+FN),审查这些样本中有多少是模型预测正确的(TP)。
F1值
从上述定义中可以看出,单独考虑精度和召回率是片面的,那么有没有一个比较好的综合指标呢?答案是肯定的!在二分类问题中,可以定义一个综合考虑精度和召回率的指标,这个指标为F值。广义上的 F 值定义如下:
其中为ββ正数,其作用是调整精度和召回率的权重。ββ越大,召回率的权重更大;ββ越小,则精度的权重更大。当β=1β1时,精度和召回率的权重一样,此时称为F1值,它是精度和召回率的调和平均数。
ROC曲线和AUC
ROC(Receiver operator characteristic )曲线和AUC(Area under the ROC curve)是一个从整体上评价二分类模型优劣的指标,其中AUC是ROC曲线与横轴之间的面积。相比于其他评价指标,ROC曲线具有一定的稳定性,它不会因为正负样本分布的变化而产生不同的曲线。现实状况中,正负样本分布不均衡的情况比较普遍,所以ROC曲线和AUC是一个重要的评价指标。
ROC曲线通过真阳率(True Positive Rate, TPR)和假阳率(False Positive Rate, FPR)两个指标进行绘制。真阳率又称为敏感度(Sensitivity), 表示真实标签为正向的样本中,模型预测也是正向的样本比例。可见,真阳率和召回率是等价的指标。假阳率表示真实标签是负向的样本中,模型预测为正向的比例。真阳率和假阳率的定义为:
通过调整模型的阈值,我们可以得到一组TPR和FPR。以FPR作为横轴,TPR作为纵轴,可以针对一个模型绘制ROC曲线。ROC曲线下面积(Area Under Curve, AUC)代表了模型性能的好坏。
一个随机的模型在ROC曲线中是一条直线(下图中的虚线),ROC曲线下面积为0.5。而一个完美模型的 ROC 曲线经过(0,0),(0,1),(1,1)三个点的曲线,此时ROC曲线下面积为1。
AUC的数值范围是[0,1],值越大说明模型越好。一般来说,AUC大于0.75可以认为是一个比较理想的模型。
- AUC = 0.5: 说明模型与偶然造成的结果效果差不多
- AUC < 0.5:说明模型不如偶然造成的效果
- AUC > 0.5:说明模型较好
2. 回归模型评价指标
区别于分类模型,回归模型的预测值一般都是连续的。评价模型的指标没有统一的标准。本文将介绍三个常用的方法。
平均绝对误差
平均绝对误差(Mean Absolute Error, MAE)是所有单个观测值与算术平均值的偏差的绝对值的平均。
均方误差
均方误差(Mean Squared Error, MSE)是衡量“平均误差”的一种较方便的方法,可以评价数据的变化程度。均方根误差是均方误差的算术平方根。
其中 SST 表示总误差平方和,SSE 表示残差平方和
3. 聚类模型评价指标
聚类模型的性能指标主要分为内部指标(Internal Index)和外部指标(External Index)两类。内部指标适用于无标注数据,根据聚类结果中簇内相似度和簇间分离度进行聚类质量评估;而外部指标适用于有标注数据,将聚类结果与已知类标签进行比较。
3.1 内部指标
DB 指数
聚类模型的目标是使得簇内数据尽量相似,不同簇之间的数据尽量不相似。DB 指数正是基于这个思想所构建的指标,它表示簇内距离与簇间距离之比,DB 的值越小说明聚类效果越好。
轮廓系数
轮廓系数(Silhouette Coefficient)综合了簇的凝聚度和分离度两个指标。
3.2 外部指标
根据这种关系,我们能得到四种不同可能性:
基于这四种可能性,我们可以定义出不同的评价指标,常见的指标有 Rand 指数和调整 Rand系数。
Rand指数
Rand指数( Rand Index, RI)类似于分类模型中的准确度指标,其具体定义如下:
Rand指数取值范围为[0,1],取值越大意味着聚类结果与真实情况越吻合。
调整Rand指数
对于随机结果,Rand指数并不能保证分数接近零。为了实现“在聚类结果随机产生的情况下,指标应该接近0”,调整Rand系数(Adjusted Rand Index,ARI)被提出,它具有更高的区分度:
ARI取值范围为[-1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。
本文由 普林科技(微信公众号:普林科技) 投稿 数据分析网 发表,并经数据分析网编辑。版权归作者所有,转载此文请与作者联系。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。