不过。
不知道是不是受西瓜书的影响,我没有记错的话,西瓜书在讲PR曲线的时候,给出的例子PR曲线看上去像是从(0,1)到(1,0)。
PR曲线横坐标是recall=tp/(tp+fn),纵坐标是precision=tp/(tp+fp),假如选取threshold为0,即所有example都被预测成positive,recall显然是1,precision变成正样本标签的比重。明显不等于0。
roc一定是从(0,0)到(1,1)的一条曲线的。
训练二分类器的时候,用roc_auc做metric有一定欺骗性,主要原因是因为样本比例不均衡。这样往往会造成auc看上去很好,到average precision却不高。具体可以参考这篇博客https://www.andybeger.com/2015/03/16/precision-recall-curves/