工 投标做哪个网站好,网站建设的报价为什么不同,新网站设计最简单的软件,关于做网站的书为了衡量一个机器学习模型的好坏#xff0c;需要给定一个测试集#xff0c;用模型对测试集中的每一个样本进行预测#xff0c;并根据预测结果计算评价分数。 对于分类问题#xff0c;常见的评价标准有准确率、精确率、召回率和F值等。给定测试集 #x1d4af; {(#x1…为了衡量一个机器学习模型的好坏需要给定一个测试集用模型对测试集中的每一个样本进行预测并根据预测结果计算评价分数。 对于分类问题常见的评价标准有准确率、精确率、召回率和F值等。给定测试集 {((1), (1)), ⋯ , ((), ())}假设标签 () ∈ {1, ⋯ , }用学习好的模型(; ∗)对测试集中的每一个样本进行预测结果为{y^(1), ⋯y^(N)}。准确率 最常用的评价指标为准确率Accuracy 其中(⋅)为指示函数错误率 和准确率相对应的就是错误率Error Rate 精确率和召回率 准确率是所有类别整体性能的平均如果希望对每个类都进行性能估计就需要计算精确率Precision和召回率Recall。精确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值在机器学习的评价中也被大量使用。 对于类别来说模型在测试集上的结果可以分为以下四种情况 1 真正例True PositiveTP一个样本的真实类别为并且模型正确地预测为类别这类样本数量记为 2 假负例False NegativeFN一个样本的真实类别为模型错误地预测为其他类这类样本数量记为 3 假正例False PositiveFP一个样本的真实类别为其他类模型错误地预测为类别这类样本数量记为 4 真负例True NegativeTN一个样本的真实类别为其他类模型也预测为其他类这类样本数量记为。对于类别来说这种情况一般不需要关注。 这四种情况的关系可以用如表2.3所示的混淆矩阵Confusion Matrix来表示。 根据上面的定义我们可以进一步定义查准率、查全率和F值。 精确率Precision也叫精度或查准率类别 的查准率是所有预测为类别的样本中预测正确的比例 召回率Recall也叫查全率类别的查全率是所有真实标签为类别的样本中预测正确的比例 F值F Measure是一个综合指标为精确率和召回率的调和平均 其中 用于平衡精确率和召回率的重要性一般取值为1 1时的F值称为F1值是精确率和召回率的调和平均。宏平均和微平均 为了计算分类算法在所有类别上的总体精确率、召回率和 F1值经常使用两种平均方法分别称为宏平均Macro Average和微平均Mi-cro Average。 宏平均是每一类的性能指标的算术平均值 值得注意的是在有些文献上F1值的宏平均为。
微平均是每一个样本的性能指标的算术平均值对于单个样本而言它的精确率和召回率是相同的要么都是1要么都是0。因此精确率的微平均和召回率的微平均是相同的同理F1值的微平均指标是相同的。当不同类别的样本数量不均衡时使用宏平均会比微平均更合理些。宏平均会更关注小类别上的评价指标。
在实际应用中我们也可以通过调整分类模型的阈值来进行更全面的评价比如AUCArea Under Curve、ROCReceiver Operating Characteristic曲线、PRPrecision-Recall曲线等此外很多任务还有自己专门的评价方式比如TopN准确率。
交叉验证Cross-Validation是一种比较好的衡量机器学习模型的统计分析方法可以有效避免划分训练集和测试集时的随机性对评价结果造成的影响。我们可以把原始数据集平均分为 组不重复的子集每次选 − 1 组子集作为训练集剩下的一组子集作为验证集。这样可以进行 次试验并得到 个模型将这 个模型在各自验证集上的错误率的平均作为分类器的评价。