电商网站开发报告,wordpress说说分类,wordpress 域名替换,江苏 网站建设2.4 ROC曲线是什么#xff1f;
场景描述 二值分类器(Binary Classifier)是机器学习领域中最常见也是应用最广泛的分类器。
评价二值分类器的指标很多#xff0c;比如precision、recall、F1score、P-R 曲线等。前面已对这些指标做了一定的介绍#xff0c;但也发现这些指标或…2.4 ROC曲线是什么
场景描述 二值分类器(Binary Classifier)是机器学习领域中最常见也是应用最广泛的分类器。
评价二值分类器的指标很多比如precision、recall、F1score、P-R 曲线等。前面已对这些指标做了一定的介绍但也发现这些指标或多或少只能反映模型在某一方面的性能。
相比而言ROC曲线则有很多优点经常作为评估二值分类器最重要的指标之一。下面我们来详细了解一下ROC 曲线的绘制方法和特点。 知识点 ROC曲线,曲线下的面积(Area Under Curve,AUC),P-R 曲线
什么是ROC曲线?
ROC 曲线是Receiver Operating Characteristic Curve的简称中文名为“受试者工作特征曲线”。ROC曲线源于军事领域而后在医学领域应用甚广“受试者工作特征曲线”这一名称也正是来自于医学领域。 ROC 曲线的横坐标为假阳性率(False Positive RateFPR) F P R F P N FPR \frac{{FP}}{N} FPRNFP ROC 曲线的纵坐标为真阳性率(True Positive RateTPR) T P R T P P TPR \frac{{TP}}{P} TPRPTP
其中P是真实的正样本的数量N是真实的负样本的数量TP是P个正样本中被分类器预测为正样本的个数FP是N个负样本中被分类器预测为正样本的个数。 Example:只看定义确实有点绕为了更直观地说明这个问题我们举一个医院诊断病人的例子。 假设有10位疑似癌症患者其中有3位很不幸确实患了癌症(P3)另外7位不是癌症患者(N7)。 医院对这10位疑似患者做了诊断诊断出3位癌症患者其中有2位确实是真正的患者(TP2)。那么真阳性率TPRTP/P2/3。 对于7位非癌症患者来说有一位很不幸被误诊为癌症患者(FP1)那么假阳性率FPRFP/N1/7。 对于“该医院”这个分类器来说这组分类结果就对应ROC曲线上的一个点(1/7,2/3)。 ROC曲线的由来 ROC 曲线最早是运用在军事上的后来逐渐运用到医学领域并于20世纪80年代后期被引入机器学习领域。相传在第二次世界大战期间雷达兵的任务之一就是死死地盯住雷达显示器观察是否有敌机来袭。理论上讲只要有敌机来袭雷达屏幕上就会出现相应的信号。但是实际上如果飞鸟出现在雷达扫描区域时雷达屏幕上有时也会出现信号。这种情况令雷达兵烦恼不已如果过于谨慎凡是有信号就确定为敌机来袭显然会增加误报风险如果过于大胆凡是信号都认为是飞鸟又会增加漏报的风险。每个雷达兵都竭尽所能地研究飞鸟信号和飞机信号之间的区别以便增加预报的准确性。但问题在于每个雷达兵都有自己的判别标准有的雷达兵比较谨慎容易出现误报有的雷达兵则比较胆大容易出现漏报。 为了研究每个雷达兵预报的准确性雷达兵的管理者汇总了所有雷达兵的预报特点特别是他们漏报和误报的概率并将这些概率画到一个二维坐标系里。这个二维坐标的纵坐标为敏感性(真阳性率)即在所有敌机来袭的事件中每个雷达兵准确预报的概率。而横坐标则为1-特异性(假阳性率)表示在所有非敌机来袭信号中雷达兵预报错误的概率。由于每个雷达兵的预报标准不同且得到的敏感性和特异性的组合也不同。将这些雷达兵的预报性能进行汇总后雷达兵管理员发现他们刚好在一条曲线上这条曲线就是后来被广泛应用在医疗和机器学习领域的ROC 曲线。 下集预告 2.5 如何绘制ROC曲线 参考文献 《百面机器学习》 诸葛越主编 出版社人民邮电出版社北京 ISBN978-7-115-48736-0 2022年8月第1版2022年1月北京第19次印刷