精准率 准确率

以上四个定义是基础,Positive表示对样本作出的是正的判断,T表示判断正确,F表示判断错误(Negtive类似)。比如TP表示样本为正,我们模型也判断为正,FP则表示模型判断为正,但是判断错误,样本为负。

3.Accaracy,Precision,Recall,F1

Accuracy = (TP+TN)/(TP+FP+TN+FN)

准确率,表示在所有样本中分对(即正样本被分为正,负样本被分为负)的样本数占总样本数的比例。

Precision = TP / (TP+ FP)

精确率,表示模型预测为正样本的样本中真正为正的比例。

Recall = TP /(TP + FN)

召回率,表示模型准确预测为正样本的数量占所有正样本数量的比例。

F1 = 2*P*R /(P+ R)

F1,是一个综合指标,是Precision和Recall的调和平均数,因为在一般情况下,Precision和Recall是两个互补关系的指标,鱼和熊掌不可兼得,顾通过F测度来综合进行评估。F1越大,分类器效果越好。

4.Accuracy和Precision区别

Accaracy和Precision作用相差不大,都是值越大,分类器效果越好,但是有前提,前提就是样本是均衡的。如果样本严重失衡了,Accuracy不再适用,只能使用Precision,举个简单的例子。比如二分类问题为预测癌症的发生,显然在现实世界中,癌症人数在所有人数中的占比通常只是0.5%左右,即正负样本比例为1:200左右,此时一个分类器如果使用Accuracy作为评估指标,则分类器无需花太多功夫,分类器只用把样本全部清一色预测为正常,那么Accuracy也能达到99.5%的准确率,如此高的准确率,但却毫无任何意义,无法应用到实处,泛化能力极差。顾在样本失衡的情况下,Accuracy不再适用,通常使用Precision,同时该场景下ROC,可以用AUC。

5.ROC,AUC

ROC,AUC优点:当数据中的正负样本分布发生变化时,ROC能够保持不变,尤其在样本不均衡的应用场景中。

首先看两个定义:

TPR = TP / (TP+FN)真正率,指在所有正样本中,被准确识别为正样本的比例,公式与召回率一样。

FPR = FP / (TN + FP)假正率,指在所有负样本中,被错误识别为正样本的比例。又叫误报率,错误接收率。

ROC制作

以TPR为y轴,FPR为x轴,通过不断改变threshold的值,获取到一系列点(FPR,TPR),将这些点用平滑曲线连接起来即得到ROC曲线,Threshold定义为正负样本分类面的阈值,通常的二分类模型中取0.5,在绘制ROC曲线过程中,通常取测试集上各样本的概率预测分值,即predict_prob,将所有样本的概率预测分值从高到低排序,并将这些分值依次作为threshold,然后计算对应的点(FPR,TPR),比如最大的样本预测分值为0.9时,当threshold取0.9时,所有样本分值大于等于0.9的才预测为正样本,小于0.9的预测为负样本。最后加上两个threshold值1和0,分别可对应到(0,0),(1,1)两个点,将这些点连接起来即得到ROC曲线,点越多,曲线越平滑,而ROC曲线下的面积即为AUC。

ROC特点

(1)一个好的分类器应该ROC曲线应该尽量位于左上位置,当ROC为(0,0)和(1,1)两个点的直线时,分类器效果跟随机猜测效果一样;

(2)ROC曲线下方的面积作为AUC,可以用AUC作为衡量分类器好坏的标准,理想的分类器AUC为1,当AUC为0.5时,效果跟随机猜测效果一致;

(3)ROC能很好的解决正负样本分布发生变化的情况,在正负样本分布发生变化的情况下,ROC能够保持不变。


  • 收藏
  • 评论
  • 分享
  • 举报

上一篇:tf.maximum和tf.minimum

下一篇:tf.gather

精准率 准确率

提问和评论都可以,用心的回复会被更多人看到 评论

发布评论

全部评论 () 最热 最新

相关文章

  • xgboost 二分类 选出最好的F1

    from sklearn import metrics#valid_predict是0到1的值,未进行设定阈值划分为0和1precision, recall, thresholds = metrics.precision_recall_curve(valid_label, valid_predict)all_f1 = []for i in range(len(thresholds)): ...

    java

  • 二分类相关评估指标(召回率、准确率,精确率,f1,auc和roc)

    目录1.样本集的拆分(正样本、负样本)2.基础定义3.Accaracy,Precision,Recall,F14.Accuracy和Precision区别5.ROC,AUC1.样本集的拆分(正样本、负样本)所谓正样本(positive samples)、负样本(negative samples),对于某一环境下的人脸识别应用来说,比如教室中学生的人脸识别,则教室的墙壁,...

    基础理论 二分类 样本分布 数据 人脸识别

  • 正确率、召回率和F值

    正确率、召回率和F值是在鱼龙混杂的环境中,选出目标的重要评价指标。 不妨看看这些指标的定义先:正确率 = 正确识别的个体总数 / 识别出的个体总数召回率 = 正确识别的个体总数 / 测试集中存在的个体总数F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) 不妨举这样一个例子:某池塘有1...

    召回率 评价指标 学习

  • 分类评价指标 F值 详解 | Micro F1 & Macro F1 & Weight F1

    !F1micro与F1macro(https://s4.51cto.com/images/blog/202205/24234344_628cfd30f220360439.png?xossprocess=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_20,type_ZmFu

    评价指标

  • scikit-learn机器学习(二)逻辑回归进行二分类(垃圾邮件分类),二分类性能指标,画ROC曲线,计算acc,recall,presicion,f1

    数据来自UCI机器学习仓库中的垃圾信息数据集数据可从http://archive.ics.uci.edu/ml/datasets/sms+spam+collection下载 转成csv载入数据import matplotlibmatplotlib.rcParams['font.sans-serif']=[u'simHei']matplotlib.rcParams['axes.unic

    召回率 数据 垃圾邮件 混淆矩阵 ico

  • python实现图像二分类精准率(numpy)

    python实现图像二分类精准率(numpy)

    python numpy 分类 二分类 混淆矩阵

  • python实现图像二分类召回率(numpy)

    真实值是negative,模型认为是positive的数量(False Positive=FP)真实值是positive,模型认为是negative的数量(False Negative=FN)真实值是positive,模型认为是pos

    python numpy 分类 正例 二分类

  • 评估分类模型的指标:召回率、精确率、F1值

    评估分类模型性能的方法是:混淆矩阵,其总体思路是统计A类别实例被预测(分类)为B类别的次数。召回率(Recall)和精度(Precise)是广泛用于统计学分类领域的两个度量值,用来评估分类结果的质量。 召回率(Recall Rate,也叫查全率)是检索出的相关文档数和文档库中所有的相关文档数的比率,

    分类 机器学习 召回率 正例 混淆矩阵

  • 衡量二分类模型的统计指标(TN,TP,FN,FP,F1,准确,精确,召回,ROC,AUC)

    文章目录-衡量二分类问题的统计指标分类结果混淆矩阵准确率精确率召回

    数据挖掘 机器学习 统计学 召回率 二分类

  • python实现图像二分类准确率(numpy)

    实现图像分类准确率

    python numpy 二分类 python实现 混淆矩阵

  • 二分类评估指标

    针对二分类的评估指标有Precision,Recall, F1-Score TPR,FPR, TNR,FNR,AUC,Accuracy 真实结果 1 0 预测结果 1 TP(真阳性) FP(假阳性) 0 FN(假阴性) TN(真阴性) TP:预测为正类,并且预测正确 FP:预测为正类,预测错误 FN

    机器学习 召回率 二分类

  • CF回顾《二分类》

    #cf Educational Codeforces Round 115 (Rated for Div. 2) C题 ##类型:二分查找。 ##中文题目: C.删除两项内容 Monocarp有一个由n个整数组成的数组a。让我们将k表示为这些元素的数学平均值(注意,k可能不是整数)。 n个元素数组的数 ...

    #define 数组 i++ #include c++

  • 分类分析--逻辑回归(二分类)

    分类分析--逻辑回归 逻辑回归(logistic regression)是广义线性模型的一种,可根据一组数值变量预测二元输出,即逻辑回归只适用于二分类 ,R中的基本函数glm()可用于拟合逻辑回归模型。glm()函数自动将预测变量中的分类变量编码为相应的虚拟变量。威斯康星乳腺癌数据中的全部预测变量都 ...

    分类分析--逻辑回归(二分类) git 数据 拟合 二分类

  • 混淆矩阵、准确率、精确率、召回率、F1值

    1 . sklearn中的混淆矩阵行表示真实值,列表示预测值。from sklearn.metrics import classificati

    召回率 机器学习 混淆矩阵

  • 电影评论分类:二分类问题

    IMDB数据集 它包含来自互联网电影数据库(IMDB)的50000条严重两极分化的评论 数据集被分为用于训练的25000条评论与用于测试的25000条评论 训练集和测试集都包含50%的正面评论和50%的负面评论 加载IMDB数据集 import tensorflow as tf from tenso ...

    tensorflow 数据 损失函数 数据集 向量化

  • 分类算法-逻辑回归与二分类

    分类算法-逻辑回归与二分类 1、逻辑回归的应用场景 广告点击率 是否为垃圾邮件 是否患病 金融诈骗 虚假账号 看到上

    机器学习 Kafka python+爬虫 正例 召回率

  • 机器学习 | 分类性能度量指标 : ROC曲线、AUC值、正确率、召回率

    本篇博客的图源来自 zhwhong,转载仅作学习使用! 在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个普遍适用的称为混淆矩阵(confusion matrix)的工具, ...

    二分类 混淆矩阵 分类算法 似然比 测试数据

  • 深度学习:二分分类和部分逻辑回归

    1.神经网络就是根据你输入的x信息通过神经网络将他映射成y来输出 2.图像领域,经常使用卷积神经网络(CNN) 3.序列数据,音频,经常使用RNN(循环神经网络) 4.在二分类问题中,是要训练出一个分类器,以图像的特征向量x作为输入, 预测输出标签是Y,是或0 5.样本1通过(x^(1),y^(1)