主观 主观量化评估的杠杆效应及其防治策略研究(郑玉刚/文)



摘  要:绩效评价中的杠杆效应使得被测评者绩效账面分数往往并不等于真实值,而是有着或大或小的偏差,从而使得绩效评估的结果发生一定程度扭曲或异变。解决此问题关键在于管理者是否能从搜集的绩效评分数值中尽量剔除其中不合理成分,更有效地预防或减少主观评估中评委打人情分现象。文章试从某公司员工工作业绩质量评价案例入手,说明管理者选择主流评价法或传统高低分去除法改进模式——平均值调节法能更好获得有效数据。此两种方法不仅可应用于企业管理,而且可供其他各类型组织包括事业单位在对员工某些不易被量化业绩进行主观量化评价采用。

 

关键词:主观评价;量化评价;杠杆效应;主流评价法;均值调节法

 

基金项目:江西省社科基金(05YJ201);江西省教科基金(06ZD072);宜春市社科基金.

作者简介:郑玉刚(1975-),男,江西玉山人,副教授,管理学硕士.研究方向为人力资源管理.

联系电话:13197879061   E-mail:[email protected]

  

主观量化评价是组织在对员工绩效特别是某些不易被量化的绩效进行评估时所通常采用的做法。组织在享受主观量化给管理带来便捷的同时,对这种方式潜在的弊端(如可能引发的不公平)却并未给予足够的认识。比如,量化评价中少数评委(或称测评者)的行为往往可能会对考评全局产生重要影响,从而使评价结果偏离多数人期望和被评估者实际水平(真实值),同时也使员工绩效的合理排序发生变化。由此造成的结果类似一种合成量化谬误,制约了考核有效性的发挥。这种考核打分时少数人对评价结果的实际影响胜于多数人从而使评价发生扭曲的现象即杠杆效应。

 

一、XX公司的绩效评价案例

XX实业有限责任公司对员工业绩采取360度考核,即由人力资源专家、管理者和同事三方面参与完成。某员工的同事测评成绩如下表:

XX公司员工最终测评成绩按专家、管理者、同事权重系数3:2:5计算。上例中该员工的专家分计27.83分,管理分计17.64分,同事分计42.82,得出的平均结果为88.29分,不到90分,按公司绩效规定属良好(75-89)一档,对评优而言并不达标。这一结果是否有效可信,有没有可能造成一种“逆淘汰”(有优汰劣胜、评估结果不合事实、集体投票导致结果被少数人操纵等之意)呢?一是从管理层面分析。从专家(6人)和管理人员(5人)打分看,共计11人合997.5分,平均为90.68分。如果专家和管理人员没有私心打高或打低的话,该结果则符合优秀标准(90分以上)。二是从同事打分数据看。本次测评中,共有63人打分合计5375.75分,不扣除高低两端其平均分为85.33分(未达优)。但从评分结构上分析,40至50分有4个,平均50.22分;60分档的有4个,平均66.5分;70分档的有9个,平均76.23分;80分档的有18个,平均85.88分;90分档的有28个,平均95.61分。以上80至90分档的有46个,占73%,为绝大多数;40至70分档的有17个,占27%。考核的结果是,大多数测试者(打高分段的群体)他们的平均意愿并没有胜出(平均为91.8分,应属优秀档),少数测评者的主观行为 (不合常理的低分,平均为67.82分)获胜了,这有效降低了评分等次,从而形成少数对峙多数格局。这就有一个问题:绩效评价到底是应按全部测评者主观意愿办,还是应有所选择,使主观评估结果可以反映绝大多数评估者意见?通过上述对XX公司绩效评价案例的分析,从中不难看到对问题处理方式的不同将可能带来不同结果。

 

二、杠杆效应的提出

1、理论假设和分析。

 

要解决此一问题,先要有一个前提假设,即假定在匿名的情况下有利益动机的评判者给被评判对象打低分的倾向高。其原因在于由于信息的不公开,打高分者无法获得被评判者的直接奖赏,缺乏利益动机,因而除非事前明显的串谋,可以料想评判者的行为将趋于中庸化,即比较符合他对被评判者实际水平的真实感受,因而在匿名评审机制下,评分结果中的高分应是能够认为更接近被考核者实际情况的;与之相反,由于没有承担后果风险,具有直接负面利益动机的评判者更倾向会选择有悖事实和其真实感觉的行为,即给被自己认为不受欢迎的被评判者以一个低于其实际水平的低分,其行为在标准的裁量上则往往呈现出一种越界倾向,从而导致远离事实的低分存在。可见,这样的低分产生的杠杆效应则远比其他评判人中庸的评分倾向为甚,由此出现一个汇总的谬误,可称之为合成量化谬误。这样,便导致了评分的偏差,其结果也可能是对事实的严重偏离。以下是低分杠杆效应的影响图示。如图一。由于高分杠杆效应的影响与之类似,此处图略。

图中,支点表示最终考核结果(由全部考核者的分数平均),而非可任意指定或假设的。就一般情况而言,对能力水平较高者,大多数人的给出的分数将偏向高分段,故即使其中有少数人给出的分数过高(高于常值),但由于力臂短,则高分杠杆效应小,从指导思想上为保护业绩优者利益,对此部分产生的影响可先不予考虑。但对业绩优者(其最终平均分偏向高分段)来说,低分的杠杆效应则不可小视,即使给出低分的只是少数人。但这少数人只要满足一定的比例条件,便具有以少胜多或足以与打高分的大多数人抗衡之效。本图中平均考核分数(以63人投票计)为85.33分,此分值即为杠杆支点。根据统计学中正态分布规律,即“两头少、中间多”,打高分与打低分者都是少数,事实也如此(打100分者7人,打40—50分者4人,60分者4人,共8人,比例基本相称)。从力臂上看,高分段46人平均分为91.8分,低分段17人平均为67.82分,总平均分为85.33分,前者力臂是6.47,而后者则是17.51,两者之比是1:2.71,此表示打低分者平均1人足抵高分段2.71人之力,如此致使代表大多数人意愿的结果不能胜出(受其影响)。如以本例中73%的投票人平均计算考核结果(这实际上是一种按主流民意选择有效评分数据的方法,可称之为主流评价法)为91.8分,结果应属优秀;但由于少数低分票的存在,尽管比例很低,但已将最终考核结果降到了良好(75-89分)。以被评估者真实水平论,其结果并不能反映真实能力和业绩水平,也未实现按大多数评估者真实意愿计算所应达到的结局(尚相差一个水平档次),这样的考核结果当然不能起到激励作用,而是相反。所以说,对能力水平高者而言,低分杠杆效应的存在将导致绩效考核结果并不能反映客观实际。如果对所有评分数据不加筛选只会导致合成量化谬误,是科学外表下的一个考核悖论。

 

2、杠杆效应模型。

 

如果把认可的高分段所覆盖的区间增大,低分段所覆盖的区间缩小,即图中表示高分群体和低分群体的两个阴影滑块同时右移,当然支点不变(表示平均数),则新形成的示意图中杠杆效应表示得还将更为明显。当高分群体、低分群体同比例增大、缩小达到顶点时,即低分群体仅剩最低分1人,则低分段的平均杠杆效应将达到最大值,即1:62。当然这是极限情况,正常情况下我们仅考虑标准以内低分区间的杠杆效应的影响就可以了。

 

设高分段的数据分布值为n1,低分段为n2,高分平均分为P1,低分平均分为P2,总平均分为P,总打分人数为n,则有如下关系模型:

 

(P1-P)×n1=(P-P2) ×n2

 

通过该模型可求得低分群体的杠杆系数r为:

 

(P-P2)/(P1-P)= n1 / n2

对于打分者中任何一人而言,其杠杆系数为n-1,其对总平均分的影响为:△P/(n-1)。

 

 

证明如下:

   

设任一打分者打出的分为P2,其余n-1位打分者打出的平均分为P1,其他不变,则有P1×(n-1)+P2=P×n,变形得(P1-P)×(n-1)=P-P2=△P,故其对总平均的影响为△P/ (n-1)。

 

证明成立。

可见,某评分者的打分越偏离众人可能的评估取向,即可能的平均值,则其对最终评分结果的影响越大。如果他采取的是以少搏众的评分策略话,而管理者的评分政策是按最终平均分所处的区间定等级,则杠杆效应就产生了。

 

3、杠杆效应模型的应用。

 

为防止基于个人私怨或其他不合理因素(如反常的认知偏差等)导致的恶意打低分对考核全局和被考核者造成的不利影响,在实际工作中,可以借助上述理论分析,用工作要素等级评定法加以解决。该方法在对所收集到的评分数据进行加工处理时,即不是无选择的全部利用,也不只是简单的去除两端,而是根据评判者的评判心理,选择占绝大多数比例的评判人的评分结果作为有效计算依据,这样的做法不仅更符合被评判人的实际水平,而且对于参与人数较多的主观量化考核比如360度考核法等有显著改善作用,值得各级部门的政策制定者借鉴。

 

三、工作要素等级评定法具体操作模式

具体执行时按工作要素等级评定法有两种操作模式。

 

1、定量改进模式。

 

对通行的量化考核计分办法以减少评估者自由裁量权导致的评分不可比为目的,为各种评估项目按质量标准设定额定等级,每一等级明确固定计分标准或权重系数,从而加强对评估者评分的指导,减少自由裁量权的滥用,尽量消除不同个体之间主观量分的不可比(对同一质量等级的主观感受相同,但不同个体的主观量分却不同)。当然,这种定量改进的设计所希望消除的是那种主观看法相同但给分标准不同的不可比,并不能消除或减少其他出于各种目的和利益动机带来的评分肆意的情况。要解决后者带给量化考核的不良影响,需要再用到另外一种方法加以改进(此一点在下文再叙),而其改进的目标当是使量化考核得出的评分结果能最大限度地做到可比,能最大限度地弥补或消除恶意评分给量化考核的有效性带来的致命影响,从而使基于群体评估者的主观评估得出的结果能更接近于客观真实。那么,这样一种另外的附加方法是什么呢?实际上是一种最大值比较的思想,即按照从高分到低分的顺序依次选取评估数据再处理的方法(按预先明确的选取比例)。无疑,进行这样数据处理思想的指导原则是就高不就低,是出于对能力水平较高者或创新者(行为有较大争议或超前性人才)的保护,是基于消除意见或利益分歧者恶意评分(滥施裁量权)的考虑,以阻断其可能产生的“杠杆效应”(对水平高者,高分杠杆效应小而低分杠杆效应大,对水平低者则相反),由此得出的评估结果将更接近于高水平被评估者工作行为实际,符合大多数打分者的真实期望值,减轻了过去不加选择全部采用或单截去高低两头固定比例的量化打分弊端,从而更能起到激励人才不断追求业绩真正改善的作用。

 

2、定量改定性模式。

 

由于定量考核(打分)可能隐藏的弊端,在某些情况下针对特定项目也可以尝试换用定性评估的方法加以解决。当然这种定性并非传统所谓的定性评价,而是一种改进了的定性评价,即工作要素等级评定法。这种改进了的定性评价方法是先将需要评定的工作行为按内容或环节细分为不同的工作要素,每一要素给出若干可资对其质量进行评价的特征指标,即大类套小项的方法,对给出的每一质量特征(须评价计分的小项)再按高低序列划分为若干不同质量等级,如优、良、中、差四档,由评估者根据其合理的或由于各种原因放大了的(即偏离了正常值的)内心感受进行定性考量。最终,我们是根据各项目各级定性考核结果的累计所占比例来评判某评估者的评分结果为何等级。例如,以是否达到总体的2/3来判断最终的考核结果符合哪一等级。个体的评估结果由此定,总体的评估结果也可以按上述标准类推。须注意的一个条件是,即采用此方法时只要符合规定的标准,一般在奖励的指标上无限制。特殊情况下如果限定了奖励指标,则需要对筛选出的候选人按各项目确定的定性等级再进行定量计分处理,然后再比较总分,以总分的多少决定谁能选出。优点:在评分结果处理上,按照评分等级序列从高到低选择额定比例的评分结果进行加权计算,能尽量化解量化打分时因评估者自由裁量权过大及缺乏必要限制时导致的打分不公正性和无可比性,符合少数服从多数原则,计算的结果能让大多数人赞同的意见胜出,能有效地减少常见各种不合理的量化打分引致的种种考核弊端,从而使考核真正发挥激励人才促使业绩改进的作用。

 

无论是模式一或模式二,其在对传统量化评估方式的优化处理上存在多个共同点。

第一,它们对多个评估者打分结果的数据利用和处理上相同。即都采用的是主流评价法,即根据评估者主流(指绝大多数,例如2/3以上)的意见,对其评分结果进行汇总取平均值,再根据分值区间确定相应的质量评定等级。另外,它们在选取评估者主流的意见时是按照从高分到低分的顺序进行选择的,而对预定选取比例之外的低分段的数据则是弃而不用。

 

第二,它们两者对于评估者评估行为和结果的认识也是相同的。即对评估者打分行为的认识遵循了共同的前提假设,即认为“有共同利益者打分偏高,利益一般者偏中性,有相反利益者则低于常值”。

 

另外,二者对打分者打分行为的结果认识也趋于统一。即只要有不同利益倾向的打分者存在,在其数量达到一定比例时便会出现杠杆效应(高分或低分),即评分结果并不能反映或倾向主流评价的那一方意愿,相反,反而是处于支流的少数人的那一方意愿胜出,对评价能施加更大影响,并使评价结果发生逆转,从而导致了合成量化的谬误。

 

3、两点说明。

 

 

第一,无论定量或定性评估,都有其主观性,本部分观点不是为否定或侧重哪项,而是重在商讨如何尽量减少主观考核过于自由裁量的弊端。一是评判某一项目所属质量等级的主观感受相同而计分标准不同的缺乏可比性弊端;二是出于某种利益动机而导致给出的评分具有的极度不合理性(偏离平均值较大),即恶意评分,以及由此导致的少数影响多数的杠杆效应。

 

 

第二,本部分旨在对各种定量或定性的评估方法给出的结果在数据引用上进行改良。即只引用结果中按分数从高到低的额定比例部分,对于处于额定部分以下在分数层次上处于最末端部分的评分结果则不予采纳。其遵循的前提假设是一般人在无明显利益动机的情况下给出的匿名评分是偏中性的,其对待其所拥有的自由裁量权的态度是保守的;反之,当其在有明显利益倾向的情况下给出的评分则具有同样明显的“越界倾向”,即超过了事物所应当具有的正常的区间值,在此类人数达到总体的一定比例时,即便未占大多数,也可能会引发杠杆效应,从而导致少数决定多数的合成量化谬误。其遵循的指导思想是侧重保护少数创新者或绩优者利益。其不足之处在于对低分杠杆效应的预防效果较好(无论是对绩优或绩劣者),而对于事先串谋打高分且人数足以引发杠杆效应时并不足以有效预防和控制(对绩劣者),因而此种考核处理方式要想完全发挥作用仍然有赖于组织内部良好的民主监督以及日益成熟和健康的绩效文化的确立。

 

四、杠杆效应的其他防治策略

 

实务中,对杠杆效应的克服和排除,简单采取各去高低两端一定比例分值的做法并不十分科学[1](P153)。除了上述介绍的主流评价法,还有另一条解决策略,即基于传统高低分去除方式的改进——平均值调节法。XX公司技术管理部门在对研发人员申报公司创新项目评审时即使用了该方法。结果显示,该法对控制高低双向的人情分十分有效。评审中十位评委对56位申报项目者给出的数百项评分数据其值均在有效范围内,应用该法成功地杜绝了部分评委可能的恶意评分对整体量化考核的干扰,其效果是明显的。所谓平均值调节法,是指在主观量化时为消除评委打人情分影响,而对考核得出的结果按所有考核成员得出分值的平均值的一定比例限定高低分区间,对超过此区间的考核分数的使用进行限定,在统计成绩时而不予考虑、计算。此种方法可控制打分者在一定程度上约束自己的打分行为,将其控制在一定程度内,否则其打出的分数将判为无效,这实际上也即相当于放弃了自己的投票权。由于实际考核中评委主观打分和打人情分倾向较普遍,因而此办法对于优化考核有一定意义,其结果公允度较高。但此种方法对考核者人数较多的情况下更适用,而考核者人数较少时(更易受事前操纵、考核者信息泄露风险系数增加、恶意评分者博弈动机增强等因素影响),其有效性将会降低。同时,该方法另一个劣势是,采用之计算对某些特别拔尖优秀人才并不十分有利,其优秀人才的筛选度弱于前述主流评价法。上例中设筛选数据区间为±20%,用此计算的有效分平均为88.56,按分值区间定级为良好,可见于此。

 

五、小结

  

综上所述,实践中值得深思的一个问题是,管理者和制度设计者该怎样去更好地避免考核中的误区,解决现有考核评价机制中那些潜在缺陷对考核质量造成的损害。360度评价法另一个典型应用实践如现中国大学高校实行的教学评估,与上述三羊公司案例一样,仍然存在制度设计上的弊端。某大学评估组通过广泛师生调查问卷认为,教学评估的有效性存在不足[2](P67),如同学生对教师工作质量评价除其本身还受其他诸多因素如情绪、偏好等影响一样 [3](P106-107),传统主观评价确实存在缺陷(文中论述的杠杆效应),客观上评估结果与被评者实际水平存在相当程度的脱离。对于以上事实我们认为,文中提出的主流评价法和平均值调节法对于解决此问题是可行且有效的,它们不仅适用于企业组织,而且可适用于其他单位,即只要是组织中的主观性评价活动均适用,具有较大可推广性。当然,一个合理和正确绩效评估结果的取得,除了数据处理方式的改进,仍然有赖于组织民主监督环境的不断完善[4](P65-67)以及薪酬激励制度设计的更趋科学性[5](P93-98)。

 

     

参考文献:

 

[1]郑玉刚,范栋华.关于促进高校实践教学改革的若干思考[J].湖北经济学院学报(人文社会科学版),2005,2(08).

[2]李明忠.本科课堂教学质量评估的有效性分析[J].民办教育研究,2006,(03).

[3]李寿欣等.大学生评估教师教学效果的影响因素的研究[J].曲阜师范大学学报(自然科学版),2002,(02).

[4]郑玉刚,蔡根女.动态股权激励模型对按股分配缺陷的修正[J].企业经济,2005,(08).

[5]郑玉刚.动态股权激励动态模型[J].上海经济研究,2007,(06).

  

爱华网本文地址 » http://www.aihuau.com/a/9101032201/382068.html

更多阅读

经营杠杆效应 100倍的杠杆效应 “炒金族”的危险游戏

“高德黄金事件不是个案,有N个这样的平台在引导着所谓的‘炒金族’玩一个颇具诱惑力的危险游戏。”一周前,高德黄金爆仓案引起了社会各界的高度关注。原LT黄金公司的资深营销人员 张涌 (化名),向记者描述了一个貌似“馅饼”的黄金投资的

罗伟忠:汇率微调的杠杆效应传导

  从2005年7月21日起,我国人民币汇率制度由有管理的浮动汇率制度调整为以市场供求为基础,参考一揽子货币进行调节,有管理的浮动汇率制度,意味着从1994年汇率制度改革以来实行的,实际上钉住美元的基本固定的汇率制度将被钉住一揽子货币

新医改杠杆效应:8500亿大于40000亿

   □江金骐   “政府追加的投入将带来水滴效应,带动居民更多地消费医疗服务。”国务院城镇居民医保评估专家、北京大学政府管理学院教授顾昕接受媒体采访时非常看重8500亿医改投入的杠杆效应。   新一轮医改4月6日正式启动,

声明:《主观 主观量化评估的杠杆效应及其防治策略研究(郑玉刚/文)》为网友月倚轻云分享!如侵犯到您的合法权益请联系我们删除