本档案为能力验证结果的统计处理和能力评价提供指南。本档案依据 GB/T 27043《合格评定 能力验证的通用要求》制订,同时参考了GB/T 28043《 利用实验室间比对进行能力验证的统计方法》。 GB/T 28043 给出了能力验证统计方法的更详细指南, 使用本档案时,可同时参考 GB/T 28043。
基本介绍
- 中文名:CNAS-GL02能力验证结果的统计处理和能力评价指南
- 发布时间:2014-09-15
- 发布机构:中国合格评定国家认可委员会
- 实施时间:2014-09-15
能力验证结果的统计处理和能力评价指南
本档案为 CNAS-GL02《 能力验证结果的统计处理和能力评价指南》 的第二版,代替 CNAS-GL02: 2006《 能力验证结果的统计处理和能力评价指南》。与 CNAS-GL02: 2006 相比,档案的主要变化如下:——增加前言、目次、术语和定义。
——增加定性计画和半定量计画指定值的确定方法和能力评价方法。
——增加对明显错误结果的处理方法。
——增加定量计画能力评定标準差的确定方法。
——增加以能力比分数的平均值评价参加者能力可能存在的问题。
——增加长期监测能力的方法。
——附录 A 调整为检测计画常用稳健统计方法,增加稳健统计方法算法 A 和算法S, 原数据分布的内容移至正文, 相关示例移至附录 B。——附录 B 调整为能力验证计画结果示例,包含检测和校準能力验证计画结果示例。对校準能力验证计画,以 200 mg 砝码校準能力验证计画结果,代替 1 伏直流电压标準实验室间比对结果,并增加製作结果图示的新方法。
能力验证结果的统计处理和能力评价指南範围
1.1 本档案为能力验证结果的统计处理和能力评价提供指南。
1.2 本档案适用于 CNAS 的能力验证, 也可为其他机构组织能力验证提供参考。
规範性引用档案
下列档案中的条款通过引用而成为本档案的条款。以下引用的档案,注明日期的,仅引用的版本适用;未注明日期的,引用档案的最新版本(包括任何修订)适用。CNAS-RL02 能力验证规则CNAS-GL03 能力验证样品均匀性和稳定性评价指南GB/T 27043 合格评定 能力验证的通用要求( ISO/IEC 17043, IDT)GB/T 28043 利用实验室间比对进行能力验证的统计方法( ISO 13528, IDT)GB/T 6379 测量方法与结果的準确度(正确度和精密度)( ISO 5725, IDT)ISO/IEC 指南 98-3 测量不确定度 第 3 部分:测量不确定度的表示指南ISO/IEC 指南 99: 2007 国际计量学辞彙 基础和通用概念及相关术语IUPAC 技术报告 分析化学实验室能力验证国际协定
术语和定义
CNAS-RL02、 GB/T 27043、 GB/T 28043、 ISO/IEC 指南 99 界定的术语和定义适用于本档案。为方便使用,重複列出以下术语和定义:
3.1 实验室间比对 interlaboratory comparison按照预先规定的条件,由两个或多个实验室对相同或类似的物品进行测量或检测的组织、实施和评价。
3.2 能力验证 proficiency testing利用实验室间比对,按照预先制定的準则评价参加者的能力。
3.3 指定值 assigned value对能力验证物品的特定性质赋予的值。
3.4 能力评定标準差 standard deviation for proficiency assessment根据可获得的信息,用于评价能力验证结果分散性的度量。注 1:标準差只适用于比例尺度和定距尺度的结果。注 2:并非所有的能力验证计画都根据结果的分散性进行评价。
3.5 z 比分数 z-score 由能力验证的指定值和能力评定标準差计算的实验室偏倚的标準化度量。注: z 比分数有时也称为 z 值或 z 分数。
3.6 离群值 outlier一组数据中被认为与该组其他数据不一致的观测值。注:离群值可能来源于不同的总体,或由于不正确的记录或其他粗大误差的结果。
3.7 稳健统计方法 robust statistical method对给定机率模型假定条件的微小偏离不敏感的统计方法。
3.8 测量审核 measurement audit一个参加者对被测物品(材料或製品)进行实际测试,其测试结果与参考值进行比较的活动。注:测量审核是对一个参加者进行“一对一”能力评价的能力验证计画。
统计处理和能力评价
4.1 总则能力验证的结果可以以多种形式出现,并构成各种统计分布。分析数据的统计方法应与数据类型及其统计分布特性相适应。 分析这些结果时,应根据不同情况选择适用的统计方法。各种情况下优先使用的具体方法,可参见 GB/T 28043。对于其他方法,只要具有统计依据并向参加者进行了详细描述,也可使用。 无论使用哪一种方法对参加者的结果进行评价,一般包括以下几方面内容:a)指定值的确定;b)能力统计量的计算;c)能力评定。必要时,考虑能力验证物品的均匀性和稳定性对能力评定的影响。 能力验证物品均匀性和稳定性的评价方法见 CNAS-GL03《能力验证样品均匀性和稳定性评价指南》、GB/T 28043 和 IUPAC 技术报告。
4.2 统计设计4.2.1 应根据数据的特性(定量或定性,包括顺序和分类)、统计假设、误差的性质以及预期的结果数量,制定符合计画目标的统计设计。在统计设计中应考虑下列事项:a) 能力验证中每个被测量或特性所要求或期望的準确度(正确度和精密度)以及测量不确定度;b) 达到统计设计目标所需的最少参加者数量;当参加者数量不足以达到目标或不能对结果进行有意义的统计分析时,应将评定参加者能力的替代方法的详细内容提供给参加者;c) 有效数字与所报告结果的相关性,包括小数位数;d) 需要检测或测量的能力验证物品数量,以及对每个能力验证物品或每项测定的检测、校準或测量的重複次数;e) 用于确定能力评定标準差或其它评定準则的程式;f) 用于识别和(或)处理离群值的程式;g) 只要适用,对统计分析中剔除值的评价程式;h) 只要适当,与设计相符的目标和能力验证轮次的频率。
4.2.2 在缺少统计设计所需的可靠信息时, 可通过开展先期实验室间比对来获得。
4.3 指定值及其不确定度的确定
4.3.1 指定值的确定有多种方法,以下列出最常用的方法。 在大多数情况下,按照以下次序,指定值的不确定度逐渐增大。a)已知值 —— 根据特定能力验证物品配方(如製造或稀释)确定的结果;b)有证参考值 —— 根据定义的检测或测量方法确定(针对定量检测);c)参考值 —— 根据对能力验证物品和可溯源到国家标準或国际标準的标準物质/标準样品或参考标準的并行分析、测量或比对来确定;d)由专家参加者确定的公议值 —— 专家参加者(某些情况下可能是参考实验室)应当具有可证实的测定被测量的能力,并使用已确认的、有较高準确度的方法,且该方法与常用方法有可比性;e)由参加者确定的公议值 —— 使用 GB/T 28043 和 IUPAC 国际协定等给出的统计方法, 并考虑离群值的影响。 例如,以参加者结果的稳健平均值、中位值(也称为中位数)等作为指定值。附录 A 给出了由参加者结果确定指定值的常用稳健统计方法。
4.3.2 对上述每类指定值的不确定度,可参照 GB/T 28043 等所描述的方法进行评定。此外, ISO/IEC 指南 98-3 中给出了确定不确定度的其它信息。
4.3.3 指定值的确定应确保公平地评价参加者,并儘量使检测或测量方法间吻合一致。只要可能,应通过选择共同的比对小组以及使用共同的指定值达到这一目的。
4.3.4 对定性数据[也称为“分类的”或“定名的”值]或半定量值[也称为“顺序的”值],其指定值通常需要由专家进行判断或由製造过程确定。某些情况下,可使用大多数参加者的结果(预先确定的比例,如 80%或更高)来确定公议值。该比例应基于能力验证计画的目标和参加者的能力和经验水平来确定。
4.3.5 离群值可按下列方法进行统计处理:a)明显错误的结果,如单位错误、小数点错误、 计算错误或者错报为其他能力验证物品的结果,应从数据集中剔除, 单独处理。这些结果不再计入离群值检验或稳健统计分析。 明显错误的结果应由专家进行识别和判断。b)当使用参加者的结果确定指定值时,应使用适当的统计方法使离群值的影响降到最低,即可以使用稳健统计方法或计算前剔除离群值。c)如果某结果作为离群值被剔除,则仅在计算总计统计量时剔除该值。但这些结果仍应当在能力验证计画中予以评价,并进行适当能力评定。
4.3.6 需考虑的其他事项a)理想情况下,如果指定值由参加者公议确定, 应当有确定该指定值正确度和检查数据分布的程式。 例如, 可採用将指定值与一个具备专业能力的实验室得到的参考值进行比较等方法确定指定值的正确度。通常, 常态分配是许多数据统计处理的基础。常态分配的特点是单峰性、对称性、有界性和抵偿性。作为一个能力验证计画的结果,由于参加者的测试方法、测试条件往往各不相同,而且能力验证结果的数量也是有限的,所以在许多情况下能力验证的结果呈偏态分布。 对能力验证的结果只要求近似常态分配, 儘可能对称, 但分布应当是单峰的,如果分布中出现双峰或多峰,则表明参加者之间存在群体性的系统偏差,这时应研究其原因,并採取相应的措施。例如,可能是由于使用了产生不同结果的两种检测方法造成的双峰分布。在这种情况下,应对两种方法的数据进行分离,然后对每一种方法的数据分别进行统计分析。数据直方图或核(Kernel)密度图可以显示结果的分布情况。b)应当有依据不确定度来判断指定值是否可接受的準则。在 GB/T 28043 和 IUPAC国际协定中给出了该準则,该準则是基于限定指定值不确定度对能力评定的影响而建立的,即: 準则限定了由于指定值的不确定度而使参加者得到一个不可接受的评估结果的可能性。
4.4 能力统计量的计算
4.4.1 定量结果
4.4.1.1 能力验证结果通常需要转化为能力统计量,以便进行解释和与其他确定的目标作比较。其目的是依据能力评定準则来度量与指定值的偏离。所用统计方法可能从不做任何处理到使用複杂的统计变换。注:“能力统计量” 也称为“性能统计量” 。
4.4.1.2 能力统计量对参加者应是有意义的。因此,统计量应适合于相关检测,并在某特定领域得到认同或被视为惯例。

4.4.1.4 需要考虑的其它事项
a)通过参加者结果与指定值之差完全可以确定参加者的能力,对于参加也是最容易理解的。差值也称为“实验室偏倚的估计值b)百分相对差不依赖于指定值的大小,参加者也很容易理解。c)对于高度分散或者偏态的结果、顺序回响量、数量有限的不同回响量,百分位数是有效的。但该方法仍应慎用。d)根据检测的特性,优先或需要使用变换结果。例如,稀释的结果呈现几何尺度,需做对数变换。
4.4.2 定性结果和半定量结果
4.4.2.1 对于定性结果和半定量结果,如果套用统计方法,必须与结果的特性相适应。对定性数据[也称之为“分类”数据],可採用直接将参加者结果与指定值进行比较的技术。如果两者相同,则结果是可接受的;如果不相同,可由专家判断参加者结果是否满足预期用途。某些情况下,可审查参加者的结果,并确定该能力验证物品不适于评估,或者指定值不正确。
4.4.2.2 用于定性数据的技术也适用于半定量结果[也称为“顺序”结果]。顺序结果包括很多类型,例如,回响为等级或排序、感官评价,或化学反应强度(如 1+, 2+,3+,等)。有时,这些回响结果由数字表示,如, 1=差, 2=不满意, 3=满意, 4=良好,5=优秀。
4.4.2.3 对顺序数据,即使结果以数值表示,计算常规的总计统计量是不合适的。因为这些数值并不是基于区间尺度,也就是说,客观意义上, 1 和 2 间的差可能与 3 和4 间的差并不相同,因而不能解释其平均值和标準差的意义。因此,对半定量结果使用诸如 z 比分数的统计量是不合适的。特定的统计量,如秩或顺序统计量,对顺序数据是可以使用的。
4.4.2.4 描述出(或作图表示)所有参加者结果的分布,以及每一类结果的数量或百
4.4.3 合成的能力比分数当对一个特定被测量使用了一个以上能力验证物品或有一组相关被测量时,可根据一轮能力验证计画中两个或两个以上的结果评定参加者的能力。这样可以对参加者能力进行全面评定。 採用图方法,如尧敦( Youden)图或曼德尔( Mandel's) h 统计量图等, 也是解释参加者能力的有效工具( 参见 GB/T 28043)。儘量不使用能力比分数的平均值,因为这将掩盖对一个或多个能力验证物品的较差的检测或测量能力,而这正是需要调查的。最常用的合成的能力比分数是可接受结果的数量(或百分比)。
4.5 能力评定
4.5.1 初始能力
4.5.1.1 应根据能力度量方式制定能力评定準则,用于能力评定的方式如下:a)专家公议,由顾问组或其他有资格的专家直接确定报告结果是否与预期目标相符合;专家达成一致是评估定性测试结果的典型方法。b)与目标的符合性,根据方法性能指标和参加者的操作水平等预先确定準则。c)用统计方法确定比分数,其準则应当适用于每个比分数
4.5.1.2 只要可能,应当使用 GB/T 28043 和 IUPAC 国际协定所描述的图形来显示参加者能力(如直方图,误差条形图,顺序 z 比分数图, 尧敦图等)。这些图可用来显示:a)参加者结果的分布;b)多个能力验证物品结果间的关係;c)不同方法所得结果分布的比较。
4.5.1.3 有时, 能力验证计画中某些参加者的结果虽为不满意结果,但可能仍在相关标準或规範规定的允差範围之内,鑒于此, 在能力验证计画中, 对参加者的结果进行评价时,通常不作“合格” 与否的结论,而是使用“满意/不满意” 或“离群” 的概念
4.5.1.4 当利用测量审核对参加者的结果进行判定时,可利用 En值或参照相关技术标準(包括统计技术方面的标準)进行判定,附录 C 给出了相应的统计方法信息。
4.5.2 长期监测能力
4.5.2.1 能力验证计画可包含长期监测能力的程式。该程式可以使参加者能观测到其能力的变动,是否呈现趋势性的变化或不一致的结果,以及随机变化。
4.5.2.2 图形方法有助于理解数据分析结果,如传统的“休哈特”控制图。数据列表和总计统计量可以提供更详细信息。用来评定能力的能力比分数, 如 z 比分数,可用于绘製这些图和表。其它示例和图形工具可参见 GB/T 28043 等。4.5.2.3 用参加者结果统计得到的标準差作为能力评定标準差时,由于参加者群体的变化及其对比分数的未知影响,长期监测能力时应当谨慎。通常,由于参加者逐渐熟悉能力验证计画或者方法得到改进,实验室间标準差会随时间而减小。即便参加者本者本身的能力没有变化时,也会导致 z 比分数的明显变大。
附录
附录A
检测能力验证计画常用稳健统计方法
A.1 总则由能力验证计画参加者的结果确定指定值和能力评定标準差,是检测能力验证计画常用的方法。通常,可以採用经典方法,用格拉布斯( Grubbs)準则等统计方法剔除离群值后计算平均值和标準差,以平均值和标準差作为指定值和能力评定标準差;也可採用稳健统计方法,稳健统计方法不需要用统计方法剔除离群值。例如, 使用中位值和标準化四分位距法、 GB/T 28043 推荐的算法 A 和算法 S,计算中位值或稳健平均值作为指定值,计算标準化四分位距、 稳健标準差或标準差的稳健联合值作为能力评定标準差。本附录描述了由参加者的结果确定指定值和能力评定标準差的常用稳健统计方法。
A.2 算法 A算法 A 来自 GB/T 6379.5。套用此算法计算得到数据平均值和标準差的稳健值。稳健性是估计算法的特点,而不是其产生的估计值的特点,因此严格来说,称由此算法计算的平均值和标準差是稳健的是不确切的。然而,为避免使用繁琐的术语,“稳健均值”和“稳健标準差”应理解为利用稳健算法计算的总体均值和总体标準差的均值估计。
A.3 算法 S算法 S 用于计算标準差(或极差),可推出标準差或极差的稳健联合值。 算法 S与算法 A 类似,叠代若干次后最终获得标準差或极差的稳健估计值W*。
A.4 中位值和标準化四分位距法中位值和标準化四分位距法是一种简单的稳健统计方法。套用此法计算得到数据总体均值和总体标準差的估计值——中位值( med) 和标準化四分位距( NIQR) 。 中位值和标準化四分位距是数据集中和分散的度量, 与平均值和标準差相似。中位值是分布中间位置的一个估计。 标準化四分位距等于四分位距( IQR) 乘以因子 0.7413。 四分位距是高四分位数和低四分位数的差值。 对一组由小到大排列的数据,居于中间位置的数据为中位值, 有一半的数据高于它,一半的数据低于它;居于下四分之一位置的数据为下四分位数或低四分位数( Q1),该组数据的四分之一低于 Q1, 四分之三高于 Q1; 居于上四分之一位置的数据为上四分位数或高四分位数( Q3),该组数据的四分之一高于 Q3, 四分之三低于 Q3。在大多数情况下 Q1和 Q3通过数据值之间的内插法获得。
A.2 算法 A算法 A 来自 GB/T 6379.5。套用此算法计算得到数据平均值和标準差的稳健值。稳健性是估计算法的特点,而不是其产生的估计值的特点,因此严格来说,称由此算法计算的平均值和标準差是稳健的是不确切的。然而,为避免使用繁琐的术语,“稳健均值”和“稳健标準差”应理解为利用稳健算法计算的总体均值和总体标準差的均值估计。
A.3 算法 S算法 S 用于计算标準差(或极差),可推出标準差或极差的稳健联合值。 算法 S与算法 A 类似,叠代若干次后最终获得标準差或极差的稳健估计值W*。
A.4 中位值和标準化四分位距法中位值和标準化四分位距法是一种简单的稳健统计方法。套用此法计算得到数据总体均值和总体标準差的估计值——中位值( med) 和标準化四分位距( NIQR) 。 中位值和标準化四分位距是数据集中和分散的度量, 与平均值和标準差相似。中位值是分布中间位置的一个估计。 标準化四分位距等于四分位距( IQR) 乘以因子 0.7413。 四分位距是高四分位数和低四分位数的差值。 对一组由小到大排列的数据,居于中间位置的数据为中位值, 有一半的数据高于它,一半的数据低于它;居于下四分之一位置的数据为下四分位数或低四分位数( Q1),该组数据的四分之一低于 Q1, 四分之三高于 Q1; 居于上四分之一位置的数据为上四分位数或高四分位数( Q3),该组数据的四分之一高于 Q3, 四分之三低于 Q3。在大多数情况下 Q1和 Q3通过数据值之间的内插法获得。
附录B
能力验证计画结果示例
B.1 总则本附录给出了检测能力验证计画和校準能力验证计画结果示例。其他的更多示例,可参见 GB/T 28043 等。
B.2 检测能力验证计画能力验证计画可以设计为使用单一样品,有时,为了查找造成结果偏离的误差原因,也可以採用样品对。样品对可以是完全相同的均一样品对,也可以是存在轻微差别的分割水平样品对。均一样品对,其结果预期是相同的。分割水平样品对,其两个样品具有类似水平的被测量,其结果稍有差异。对双样品设计能力验证计画,可按照附录 A 的方法对结果进行统计处理, 统计处理是基于结果对的和与差值。以中位值和标準化四分位距法为例。假设结果对是从样品对 A 和 B 两个样品中获得的。首先按下式计算每个参加者结果对的标準化和(用S表示)和标準化差(用D表示)
通过计算每个参加者结果对的标準化和以及标準化差,可以得出所有参加者的S和D的中位值和标準化四分位距,即 med( S)、 NIQR( S)、 med( D)、 NIQR( D)。根据所有参加者的S和D的中位值和 NIQR, 可以计算两个z比分数,即实验室间z比分数(ZB)和实验室内z比分数(ZW)
ZB和ZW的判定準则同z 比分数。ZB主要反映结果的系统误差,ZW主要反映结果的随机误差。 对于样品对,ZB≥3 表明该样品对的二个结果太高,ZB≤-3 表明其结果太低, Z>≥3表明其二个结果间的差值太大。表 B1 为铅精矿中 Cu 的测定结果和统计处理结果。 样品 A 和 B 为一对分割水平样品。 表 B1 中给出了结果数、中位值、 NIQR、稳健变异係数(稳健 CV)、最小值、最大值和极差等统计量。
ZB和ZW的判定準则同z 比分数。ZB主要反映结果的系统误差,ZW主要反映结果的随机误差。 对于样品对,ZB≥3 表明该样品对的二个结果太高,ZB≤-3 表明其结果太低, Z>≥3表明其二个结果间的差值太大。表 B1 为铅精矿中 Cu 的测定结果和统计处理结果。 样品 A 和 B 为一对分割水平样品。 表 B1 中给出了结果数、中位值、 NIQR、稳健变异係数(稳健 CV)、最小值、最大值和极差等统计量。
B.3 校準能力验证计画
在校準能力验证计画中,常使用En值来评定某一参加者的每一个单独结果。En值并不表明哪个参加者的结果最接近指定值,它只表明其测量结果是否符合参加者声称的不确定度。因此,报告了小的不确定度的参加者,可能和在非常低水平(即较大的不确定度)上工作的参加者具有一个相似的En 值。在一系列相似的测量中, 当考虑En的绝对值明显大于 1 的结果时, 宜评价参加者出具的所有结果,观察是否存在一个系统偏离(例如En值始终是正值或负值)。
附录C
测量审核结果的评定
C.1 总则本附录介绍了测量审核结果的几种评定方式。 对测量审核结果, 可根据参加者、测量方法及测量物品的具体情况,选用合适的方式进行评价。
C.2 测量审核结果的评定方式
C.2 测量审核结果的评定方式
C.2.1 按n 值评定按 4.4.1.3 中的式( 6) 计算En值。若En的绝对值小于等于1则判定参加者的结果为满意,否则判定为不满意。利用En值评定参加者结果,其前提是参加者必须能正确评定测量不确定度。如果参加者不能正确评定其测量不确定度,则无法使用该方法。
C.2.2 按临界值( CD 值)评定当用于测量的标準方法提供有可靠的重複性标準差和复现性标準差时,可採用本方法对测量审核结果进行判定。