深度学习在医学图像中的应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.2 评估方法

通常用灵敏度、特异度[189]、FPR假阳性率、准确率、精确度、ROC和混淆矩阵等指标来衡量CAD系统的检测/诊断性能。对于医学图像的ROI区域,可以用阳性(Positive)或阴性(Negative)来描述其为病变或非病变,对其判断的正确与否可以用真(True)或假(False)表示,那么CAD系统输出的检测诊断结果可能为:①真阳性(TP),即诊断为阳性的对象,其真实值也是阳性;②真阴性(TN),即诊断为阴性的对象,其真实值也是阴性;③假阳性(FP),即诊断为阳性的对象其真实值为阴性;④假阴性(FN),即诊断为阴性的对象,其真实值为阳性。ROI实例真实值与CAD系统诊断结果的交叉对应表如表1.2所示。

表1.2 实例真实值与CAD系统诊断结果的交叉对应表

灵敏度、特异度、假阳性率、准确率、精确度、阴性预测值的计算公式为:

灵敏度=真阳性率=TP/(TP+FN)×100%    (1)

特异度=真阴性率=TN/(TN+FP)×100%     (2)

假阳性率=1-TFR=FP/(TP+FN)×100%     (3)

准确率=(TP+TN)/(TP+TN+FP+FN)×100% (4)

精确度=阳性预测值=TP/(TP+FP)×100%     (5)

阴性预测值=TN/(TN+FN)×100%        (6)

式中,TP为真阳性例数,FN为假阴性例数,TN为真阴性例数,FP为假阳性例数。

灵敏度又称真阳性率(TPR),为异常区域中被正确识别为阳性的比值,是衡量一个系统真阳性识别性能的尺度。敏感的系统能够识别出要找的阳性个体,同时很少产生假阴性。特异度又称真阴性率(TNR),是正常类别中被正确识别为阴性的比值,特异度是衡量一个系统能在多大程度上把阴性个体正确地识别出来,或者挑出那些不是期望的个体。假阳性率(FPR)是真阴性类别中被识别为阳性的比值,一个好的系统有很高的灵敏度和特异度,同时假阳性率极低。准确率是对象中真阳性和真阴性个体被正确识别的比值。精确度也称阳性预测值(PPV),是被识别为阳性个体中真阳性的比值。阴性预测值(NPV)为被识别为阴性的个体中真阴性的比值。

受试者操作特征(ROC)曲线是基于统计学决策理论产生的,被广泛应用于CAD系统评估中[190]。ROC曲线把系统的真阳性率(TPR)表示为1—灵敏度的函数,用ROC曲线下面积(AUC)度量CAD系统的整体性能。AUC越接近1表示系统的性能越好。图1.6表示系统CAD1的性能优于CAD2的性能,当AUC为1时系统是完美的,它能将所有的样本都正确地分类。一般情况下,当系统的真阳性率值增大时,相应的假阳性率值也会增大,所以系统的AUC一般不会达到1。当ROC曲线与如图1.6所示的对角线重合时表示系统决策成功的概率为50%,这样的系统是不成功的。

图1.6 受试者操作特征曲线(ROC Curve)示例

当一幅图像上有多个异常结果需要定性、定量、定位检测分析时,ROC方法无法完成评价任务。Bunch等[191]提出了另外一种常用的评估方法—自由响应ROC曲线(FROC),这个曲线描述了敏感度随每张图像(或区域)上的假阳性率变化的函数,并将不同阈值下的这两个检测量的统计值绘制在同一张图中以评价系统的性能。类似于ROC,曲线越靠近图的左上角表明系统的检测性能越好。FROC曲线有两种表现形式,如图1.7所示。

图1.7 自由响应ROC曲线(FROC Curve)示例

注:其中u=1-e,λ为每张图片(或区域)上的假阳性数

混淆矩阵[如等式(1-1)]也是评价CAD系统性能的一种常用方法[192]。假设对于N类模式的分类任务,识别数据集D包括T0个样本,每类模式分别含有Ti个数据(i=1,…,N)。某个CAD系统C,cmij表示第i类模式被CAD系统C判断成第j类模式的数据占第i类模式样本总数的百分率。

混淆矩阵中元素的行下标对应目标的真实属性,列下标对应分类器产生的识别属性。对角线元素表示各模式能够被CAD系统C正确识别的百分率,而非对角线元素则表示发生错误判断的百分率。在理想情况下,每个样本的预测类别都是正确的,那么混淆矩阵就变成一个对角阵。

本书所用系统评估方法分布如图1.8所示。

图1.8 本书所用系统评估方法分布