2.2 人才测评的信度_人才测评：方法与应用（第4版）-QQ阅读男生武侠网

书名：人才测评：方法与应用（第4版）
作者名：刘远我
本章字数：4988字
更新时间：2025-03-31 09:10:42

2.2　人才测评的信度

信度是衡量测量工具质量的一个重要指标。若测量工具的信度不理想，则测量结果就无法被认为是应试者的一致、稳定和真实的行为表现，测量也就没有任何意义。

2.2.1　信度的概念

信度主要是指测量结果的可靠性或一致性。在接受测量时，应试者的行为可能会由于各种原因而产生变动，从而偏离其真实行为，这就会导致测量结果产生误差。测量结果的可靠性与测量结果受误差影响的程度密切相关，误差大，测量结果的可靠性就降低。信度是说明测量的可靠性或一致性的指标。这个概念表述起来似乎有点费劲，但其实道理很简单。大家都知道，在物理测量中，拿一把尺子去量一张桌子的长度，今天量的结果和明天量的结果总是一样的，张三量的结果与李四量的结果也会是一样的，这就说明同一物体在不同测量间的一致性很高，所以对同一位应试者在不同测量间也应该有一致性。当然，由于人才素质的测量比物理测量要复杂得多，所以不同的人在不同的测量间会有差异，但这种差异应该有一个范围，否则我们就认为测量信度太低，测量结果不可信。

为了说明人才测评的误差类型，我们不妨用物理测量来增进理解。假如用一根皮尺来测量人的身高，每次测量都会有一定的误差。首先，皮尺作为一种量具是有一定的精度限制的，也就是说，量具本身就有误差，这种误差是必然的，同时又是有规律的，这种误差叫作系统误差；其次，每次测量都可能有操作上的差异，或者由于不可预见的外界因素的影响，从而造成误差，这些误差也是难免的，却是毫无规律的，这种误差叫作随机误差。一个好的测量工具不仅要有尽可能高的精度，还必须能把误差控制在一个有规律的范围内，这样测量得到的结果才比较稳定可信。信度实际上就是对随机误差的一种度量。

在考查测量工具的信度时，首先要考虑测量结果的稳定性问题，包括：

（1）测量结果的一致性程度，即不同时间、不同条件下所得测量分数之间的一致性有多大。

（2）一个人获得的分数与“真实分数”之间的接近程度如何。

（3）测量一致性是否可以达到实际应用的程度。

其次，要考虑影响测量结果稳定性的原因，即分数不稳定、不一致的原因，包括：

（1）什么因素造成了这种差异。

（2）这些效应的相对作用如何。

2.2.2　信度的作用

信度高低的指标称为信度系数（Reliability Coefficient），通常以相关系数表示。信度系数一般是同一样本所得的两组资料的相关，在理论上表示为实得分数与真实分数相关的平方：

式中，rxr有时也称为信度指数，它是真实分数标准差与实得分数标准差的比率。

误差的大小与测量的信度有直接关系：两次测量分数的差异越大，信度就越低。

在测量中，确定信度系数通常有以下两方面的作用。

（1）解释真实分数与实得分数的相关。信度可以解释为总的方差中有多少比例是由真分数的方差决定的，即测量分数的变化中有多少是真正反映了应试者分数的变化的。例如，当rxr=0.90时，我们可以说，实得分数中有90%的方差来自真实分数的差别，只有10%来自测量的误差。在极端情况下，若rxr=1，则表示完全没有测量误差，所有的变异均来自真实分数；若rxr=0，则所有的变异和差别都反映的是测量误差。信度系数的分布是从0.00到1.00的正数范围，代表了从缺乏信度到完全可信的所有状况。

（2）说明可以接受的信度水准。信度多高才可以接受呢？一般来说，信度系数不能低于0.70，当信度系数大于0.70时，可以用于团体间的比较；当信度系数大于0.85时，可以用于鉴别个人的某些特性。不同的测量工具对信度的要求有一定的差别，实践中对不同类型的测量工具有不同的标准。表2-1给出了几种测量工具的信度系数。

表2-1　几种测量工具的信度系数

一般来说，当rxx小于0.70时，不能对个人进行评价，也不能在团体间进行比较；当rxx大于0.70时，可用于团体间比较；当rxx大于0.85时，可用于鉴别个人的某些特性。

2.2.3　如何评估信度

1. 重测信度

重测信度又称稳定性系数，它的计量方法是采用重测法，即用同一测量工具，在不同时间对同一群体施测两次，两次测量的分数的相关系数即重测系数。根据重测系数的高低，可以得知测量结果在经过一段时间之后的稳定程度。重测信度越高，说明测量结果越一致、越可靠。例如，我们选用测验A测量某儿童的智商，第一次的测量结果是100（中等智商），而一周以后再测，发现他的智商变成150（超常儿童）了，若没有特殊原因，一个儿童的智商不应该在一周之内发生如此大的变化，由于两次测量的结果不一致，我们很难下结论说这个孩子的智商是多少。所以，在一般情况下，我们会认为这个测验的重测信度很低，是不可信的。

在评估测量工具的重测信度时，必须注意重测间隔的时间。间隔时间太短，应试者对测试题记忆犹新，必然会造成假性高相关；间隔时间太长，测量结果又会受应试者的身心特质改变的影响，使重测系数降低。重测间隔时间的长短，必须根据测验的性质和目的来确定。如果希望测量结果能够预测较长时间的变化，则重测间隔的时间应该长一些。表2-2给出了一项有关智力测验实行重测法的信度系数的例子。

表2-2　重测法的信度系数

在进行重测信度评估时，还应注意以下两个重要问题。

（1）重测信度一般只反映随机因素导致的变化，而不反映应试者行为的长久变化。例如，应试者智力的发展和能力的提高，不是重测信度考虑的因素，这些因素导致的重测系数的降低，不能说明测验的重测信度低。

（2）不同的行为受随机误差的影响不同。例如，手指敏捷性就比推理能力更易受疲劳、环境等因素的影响。因此，我们必须分析测验的目的和了解测验预测的行为。当测量的行为或特质较为稳定时，重测信度的解释才有效。

2. 复本信度

复本信度又称等值性系数，是以两个测验复本（功能等值但题目内容不同）测量同一个群体，然后求得应试者在这两个测验上得分的相关系数。复本信度的高低反映了这两个测验复本在内容上的等值性程度。两个等值的测验互为复本。

计算复本信度的主要目的在于考查两个测验复本的题目取样或内容取样是否等值。同样是测量数学运算能力的测验，如果一个测验复本侧重于考查加减法运算，而另一个测验复本侧重于乘除法运算，那两者之间的相关性必定不会太高，即复本信度低。

复本信度的主要优点在于：

（1）能够避免重测信度的一些问题，如记忆效果、练习效应等。

（2）适用于进行长期追踪研究或调查某些干涉变量对测量结果的影响。

（3）降低了辅导或作弊的可能性。

复本信度也有其局限性：

（1）如果测量的行为易受练习的影响，则复本信度只能降低而不能消除这种影响。

（2）有些测验的性质会因为重复而发生改变，如某些问题解决型的测验，如果了解掌握了试题原则，就有可能产生迁移。

（3）有些测验很难找到合适的复本。

3. 内部一致性信度

重测信度和复本信度分别注重考查测量的跨时间的一致性和跨形式的一致性，而内部一致性信度主要反映的是测验内部题目之间的关系，考查测验的各题目是否测量了相同的内容或特质。内部一致性信度又分为分半信度和同质性信度。

1）分半信度

分半信度系数是通过将测验分成两半，然后分别计算这两部分测验之间的相关性而获得的信度系数。一般采用奇偶分半的方法，即将测验按奇数题和偶数题分成两半，并分别计算每位应试者在这两部分测验上的得分，再求出这两个分数的相关系数。这个相关系数代表了两部分测验内容取样的一致性程度，因此也称为内部一致性信度系数。

计算分半信度系数可以采用常用的积差相关方法。但是，这种相关系数实际上只是半个测验的相关系数，如100道题的测验，两半的分数实际上是从50道题中得到的，而在重测信度和复本信度中，分数是从所有100道题中得到的。在其他条件相同的情况下，测验越长，信度系数越高，而分半测验经常会低估信度，因此必须进行修正。常用的修正方法是斯皮尔曼-布朗公式（条件是分半的两部分测验的方差相等）

式中，rhh是分半测验的相关系数；rxx是估计或修正后的信度。

2）同质性信度

同质性是指所有测验题目测量的只是单一的特质或内容，表现为所有测验题目得分的一致性。例如，“3+4=？”和“4+5=？”这两个加法题是高度同质的，而“8+13=？”就与上面的题目有些不同质，因为后面涉及进位加法。

同质性是保证测验只测量单一特质的必要条件。如果同质性差，则测验中可能混合了不同的内容，其结果就无从判断究竟反映了应试者的什么特征。例如，在考查管理技能时，预测与决策、监督与控制等都是不太容易区分的，因此对题目的设计要求相当高，否则就会把不同技能混合起来，导致结论错误和用人失误。

同质性信度是指测验内部的题目在多大程度上考查了同一内容。同质性信度低时，即使各测验题目看起来似乎是测量同一特质的，但实际上测验是异质的，即测验测量了不止一种特质。例如，在测量小学数学工程类应用题时，题干表述过长且难以理解，这样一个看似测量数学应用题解决能力的测验，实际上还测量了语言理解能力，而那些语言理解能力差的人根本不可能答对试题。

4. 评价者信度

在有些测量情形中，评价者的评判也是误差的来源之一，如投射测验、无领导小组讨论、评价中心技术等，都依赖于评价者的判断。这种判断的主观性往往会造成不同评价者的评分不一致，因此有必要考虑评价者信度。

评价者信度是指不同评价者对同样对象进行评判时的一致性。最简单的估计方法就是随机抽取若干份答卷，由两个独立的评价者打分，再求每份答卷两个评判分数的相关系数。如果评价者在3人以上，而且又采用等级记分时，就需要采用肯德尔和谐系数来求评价者信度，其公式为

式中，K为评价者的人数；N为应试者的人数或答卷数；，Ri为每位应试者的被评等级。

如果有4位评价者对6份答卷进行了评分，则所评等级如表2-3所示。

可求得：

表2-3　等级结果

可求得：

最后，我们将各信度系数类型相应的误差方差来源进行列表（见表2-4）比较。

表2-4　各信度系数类型相应的误差方差来源

一般情况下，间隔施测的复本信度系数最低；修正后的分半信度系数最高。

2.2.4　影响信度的因素

测验的信度会受到各种因素的影响，因此在解释信度时要充分考虑这些因素，在测验实施过程中要力图避免这些因素的影响。总体来说，对测验的信度造成影响的因素主要有样本团体的性质、测验的长度、测验的难度。

1. 样本团体的性质

样本团体的性质对信度的影响主要有以下3个方面。

1）样本团体的分数分布

任何以相关系数表示的信度系数都会受样本团体分数分布的影响。样本团体分数分布越广，信度系数就会越高；样本团体分数分布越窄，信度系数就会越低。

2）样本团体的异质性

信度系数还受到样本团体异质性的影响。一般来说，样本团体的异质性越大，信度系数就相对越高。例如，我们用一项数学测验来测试A、B两组应试者，A组应试者较为同质（某校数学实验班的学生），分数分布为70～90分；B组应试者较为异质（多个学校的各类学生），分数分布为20～90分。显然，由于B组应试者的分数分布比A组要广得多，所以，采用B组应试者作为样本团体得到的信度要比采用A组应试者作为样本团体得到的信度高。

3）不同团体间能力水平的差异

施测的团体的平均能力水平的不同也会对信度产生影响。例如，在斯坦福-比奈量表中，不同年龄段的团体的信度从0.83到0.98不等。因为对于年幼的团体，他们的平均能力水平低，他们的分数基本上是凭猜测获得的，其靠猜测的测验结果总是不会很稳定的，所以信度值较低。这种情况导致的信度偏差，很难用一般的统计公式来校正，只能通过对各年龄段及能力水平的团体进行检验来确定。

2. 测验的长度

信度还会受到测验长度（题目的多少）的影响。一般来说，测验越长，信度值越高。一方面，测验越长，题目取样或内容取样就越充分，结果就越可靠。举个极端的例子来说，如果英语词汇量的测试只包含一道题，仅依据应试者对一个单词的记忆来确定其词汇量，其结果肯定是不可靠的。另一方面，较长的测验也不容易受到猜测的影响。

需要指出的是，在增加测验长度时要注意：只有增加的题目和原题目在性质上相同时，才能达到提高信度的效果。

3. 测验的难度

测验的难度也会对信度产生影响。如果一个测验的难度太低，测验分数会非常集中并聚在高分端，即出现天花板效应；如果一个测验的难度太高，测验分数也会非常集中并聚在低分端，即出现地板效应。所以，测试难度太低或太高都会使测量分数分布太窄，导致信度降低。

只有当测验的难度水平能够使测验分数分布范围最大时，测验的信度才会比较理想。一般来说，当所有应试者的平均分为测验总分的一半（50%），并且分数从零分到满分均匀分布时，测量的信度最高。由此可知，测验的长度和难度会共同起作用，所以如果只增加测验的长度，但没有控制测验的难度，使测验分数不能充分散开，那么增加测验长度也是徒劳的。