一个完美的分类模型是,将实际上是good的实例预测成good,将bad的实例预测称bad。对于实际应用中的分类模型,可能预测错误实例类型,因此我们需要知道到底预测对了多少实例,预测错了多少实例。混淆矩阵就是将这些信息放在一个表中,便于直观的观测和分析。
在分类问题中,预测的情形存在如下四种:
1. good—》good: true positive类型, 设数目为a;
2. good-》bad: falsenegative类型,设数目为b;
3.bad-》bad:true negative类型, 设数目为c;
4.bad-》good:falsepositive类型,设数目为d;
因此实际的good实例数目为:a+b实际的bad数目为:c+d
预测的good实例数目为:a+d预测的bad数目为:b+c
几组常用的评估指标:
1.准确率accuracy: 针对整个预测情况。预测正确的/总实例数 = (a+c)/(a+b+c+d)
2.误分类率error rate: 针对整个情况。预测错误的/总实例数 = (b+d)/(a+b+c+d)
3.召回率recall/敏感性sensitivity:针对good的正确覆盖了。预测对的good实例/实际good的实例 = a/(a+b)
4.特异性specificity: 针对bad的预测正确率。预测对的bad实例/实际的bad实例数 =c/(c+d)
5.命中率precision: 针对good的预测正确率。预测对的good实例/预测的good实例数 =a/(a+d)
6. Type I error:False Discovery Rate(FDR, false alarm) = 1-precision
7. Type II error:miss rate = 1- sensitivity
注:
1. sensitivity vs. specificity
2. recall vs. precision
3. accuracy vs. error rate
4. type I error vs. type II error
5. 针对precision和recall有F1指标,用于实现两者之间的tradeoff。