模型评估指标解读

分类指标

以下指标用于二分类问题，如果是多分类的问题，也可以使用1:M的方法转变成二分类进行计算。

全局预测正确的样本数占所有样本数的比例，计算公式如下：

$Acc = \frac{TP + TN}{ALL}$

缺点：在binary classification且正反例不平衡的情况下，计算准确率没有意义。

假设在测试集里，有100个sample，99个反例，只有1个正例。如果模型对任意一个sample都预测为反例，Acc是正确的个数／总个数 = 99/100 = 99%，但显然这样的预测是不合理的。

所有预测为正样本的集合中预测正确的比例：

$Precision = \frac{TP}{TP + FP}$

所有正样本中预测正确的比例，即正样本的准确率。

$Recall = \frac{TP}{TP + FN}$

如果你的模型很贪婪，想要覆盖更多的sample，那么它就更有可能犯错。在这种情况下，你会有很高的recall，但是较低的precision。

如果你的模型很保守，只对它很sure的sample作出预测，那么你的precision会很高，但是recall会相对低。

综合精确率和召回率指标，相当于调和均值。计算公式如下：

$F1 = \frac{2 * Precision * Recall }{Precision + Recall}$

缺点：如果两个模型，一个precision特别高，recall特别低，另一个recall特别高，precision特别低的时候，f1-score可能是差不多的，因此也不能基于此来作出选择。

当类别不平衡时，可以使用PR曲线和ROC曲线进行模型评估。

以TPR(True Positive Rate，真正率，等于召回率)为纵轴：所有正例中被预测为正例的概率。

$TPR = \frac{TP}{P} = \frac{TP}{TP + FN}$

FPR(False Positive Rate，假正率，不是真正的正)为横轴：所有负例中被预测为正例的概率。

$FPR = \frac{FP}{N} =\frac{FP}{FP + TN}$

当一个样本被分类器判为正例，若其本身是正例，则TPR增加；

若其本身是负例，则FPR增加，因此ROC曲线可以看作是随着阈值的不断移动，所有样本中正例与负例之间的“对抗”。

曲线越靠近左上角，意味着越多的正例优先于负例，模型的整体表现也就越好。

在不同的分类阈值 (threshold) 设定下分别以TPR和FPR为纵、横轴作图。

AUC需要计算折线下方的面积。

从所有正例中随机选取一个样本A，再从所有负例中随机选取一个样本B，分类器将A判为正例的概率比将B判为正例的概率大的可能性。

可以看到位于蓝色虚线上方的点(如图中的A点)被认为好于随机猜测。

在这样的点上TPR总大于FPR，意为正例被判为正例的概率大于负例被判为正例的概率。

注意TPR用到的TP和FN同属P列，FPR用到的FP和TN同属N列，所以即使P或N的整体数量发生了改变，也不会影响到另一列。也就是说，即使正负例变得不平衡，ROC曲线也不会产生大的变化，而像Precision使用的TP和FP就分属两列，则易受类别分布改变的影响。
在类别不平衡的背景下，负例的数目众多致使FPR的增长不明显，导致ROC曲线呈现一个过分乐观的效果估计。当负例N的数量远超正例P时，FP的大幅增长只能换来FPR的微小改变。结果是虽然大量负例被错判成正例，在ROC曲线上却无法直观地看出来。

举个例子，假设一个数据集有正例20，负例10000，开始时有20个负例被错判，FPR=0.002 ，接着又有20个负例错判， FPR=0.004 ，在ROC曲线上这个变化是很细微的。而与此同时Precision则从原来的0.5下降到了0.33，在PR曲线上将会是一个大幅下降。