社会资源研究所2009年开始做公益项目评估,至今已经五年时间。我们曾经给福特基金会、南都基金会、英特尔、资生堂、新公民计划、百特教育、富平学校等基金会、企业和NGO做过评估,涉及教育、农村发展、环保、NGO发展等四个领域。五年的时间,我们充分意识到评估是一门专业性很强的应用学科,它不仅有内在自成体系的学术规范,而且由于公益项目的多样性和复杂性,它又必须适应变化万千的真实世界,必须对实践有用。经验告诉我们,评估的难点不在技术,而在应用。
SRI评估业务的发展历程,某种程度上就是我们探索如何让评估更加有用的过程。我今天借用这个机会,将我们的一些思考过程分享给大家。为了便于理解,我采用了一种特殊的顺序来组织分享内容,SRI的评估并不完全是按照这个顺序演进的。真实世界中,各种事物总是交织交错进行,逻辑和顺序是后人的阐释,理解这一点对于理解评估的作用非常重要。
基本逻辑
说起公益项目评估,人们首先会想到“项目有没有效果”,“目标人群发生了什么变化”。为了解答这些问题,评估需要界定项目预期和非预期的成果,然后设置指标,在项目开始时收集数据形成基线,在项目结束或结束一段时间之后收集数据形成末线,两相对比就是发生在目标人群身上的变化。
这就是“成果评估”的基本逻辑。在这里,我使用量化图,只是为了形象表达,其实指标可以定量也可以定性。定量和定性各有优缺点,好的评估往往要综合使用这两种指标。现在很多公益组织在心理上倾向于定量,在操作上倾向于定性,他们觉得定量更科学但更难操作,但实际上都不尽然。定性不一定不科学,也不一定更好操作。这种误解是把定性方法和讲故事混淆了。
成果未必都是由项目带来的,还可能有其它因素在影响。这些因素大致可以分为四类。一、自然演进,比如儿童阅读能力会随着年龄长大自然提高;二、外部因素,比如宏观政策环境,或者其它公益项目;三、自驱力,有些人主动性高,善于抓住机会,他们因为自驱力高而参与公益项目,其成长和变化很可能不是因为项目,而是他们的自驱力本身;四、关注,很多社会研究已经证明,“关注”本身就可能带来变化。
严谨分析公益项目的真正价值,必须扣除这些因素的干扰。评估所采用的办法就是找到一个在结构和趋势两个方面都“长得很像”的对照组,将干预组的变化减去对照组的变化,可以理解为项目所带来的纯影响。
这就是“影响评估”的基本逻辑。在这里,我使用的是一个比较狭义的定义来界定影响评估。很多时候,人们笼统地把产出、成果甚至过程评估都归为影响评估,或者把对长期成果的评估理解为影响评估。而我这里说的影响评估,指的是纯由项目带来的扣除掉其它因素的成果评估。
影响评估的极致方法是(准)随机控制实验,它被称为评估的“黄金标准”。它用大样本随机抽样的方法来设定对照组,并以此来测量社会项目的纯影响。随机控制实验,要求项目比较稳定而且不宜拥有过多目标,评估费用也比较高。目前,它一般用于大型的社会干预,某些国家在推出某项政策之前,常常会要求先期进行随机控制实验的评估。现在,这种方法在公益项目评估中的应用并不多。
上述评估逻辑是项目评估方法论的基础,其它各类评估方法不论如何变形,大多都不能完全脱开它们的影子。SRI所做的大多数评估也属于成果评估和影响评估的范畴。我们日常的大部分工作就是界定成果,设计指标,选定对照组,基线调研,末线调研,对比分析,得出评估结论,遵循的正是这样一种逻辑。
两个问题
然而,在实际评估过程中,我们很快就发现这种评估逻辑的问题。
首先,它可以解答项目“有没有效”的问题,但却不能解答“为什么有效/无效”的问题。
依据上述逻辑开展工作,作为第三方评估机构,我们甚至可以不用去弄明白项目是怎么回事,可以不需要关心项目的设计和过程,项目完全可以被当成黑箱来看待。这种评估有点像考试。每到学期结束的时候,学校依据考试的分数来评估学生的学习成果。考试其实就是一种评估方式。通过考试,我们可以知道哪些同学成绩好,哪些同学成绩不好。但是,我们却无法知道成绩好的同学做对了什么,也无法知道他们有哪些值得其他同学借鉴的地方。
所以,这种评估主要是给项目执行团队之外的人看的,比如投资方(基金会)或公众。它起到的主要是问责的作用。有些公益组织项目做得不错,他们也希望评估,主要目的是证明项目的效果,借此来增加筹款说服力,说到底也是给出资方看的。项目执行团队很少认真阅读这样的评估报告,因为他们更关心项目怎么更加有效,而不是项目有没有效。一个主要探究项目有没有效的评估,对项目执行团队而言,就像一场考试。到现在,我还没遇到过一个喜欢考试的人。
其次,它要求项目的目标相对清晰而且稳定,只有这样,评估者才能开发出指标,也才能调研基线末线,然后进行对比。在现实中,很多公益项目的目标是非常模糊宽泛的,比如“培养世界公民”、“提高教育质量”、“健康快乐的成长”等等。大部分项目的目标很难符合评估师心目中的SMART的原则。传统的思维当中,这类项目是很难评估的,没有清晰的目标,没有适当的靶子和参照物,评估师不知道拿什么尺子去量。因此,评估界发明了“预评估”(evaluationassessment),专门用来判断项目是否具备了评估的条件。预评估考察的最主要工作,就是判断项目的目标是否清晰稳定。
一家合作伙伴的负责人曾和我们说,“如果有了目标,那么目标就实现了一半”。实际上,制定出好的目标是很困难的事情。只不过拥有一个大致的方向和模糊的目标,是众多公益组织和项目的常态,也是评估必须面对的事实。
反诸于己,我们经常讲,个人也要有发展目标,然而真正拥有一个符合所谓SMART原则的目标的又有几人呢?不仅大家如此,众评估从业者们也是如此。己所不欲,勿施于人,我们凭什么要求被评估机构拥有一个SMART的目标呢。
三处改进
为了解决上述两个问题,SRI在评估流程上向前向后都多走了一步。
往前延伸:在评估调研之前,我们邀请项目的资助方、执行方、合作伙伴、受益人等召开一次半天到一天的参与式工作坊,我们协作利益相关方梳理以下问题:可以看得出来,工作坊是为了解决项目“目标”和“指标”的问题。在我们过往的工作经历中,这个工作坊也往往是利益相关方第一次坐下来对上述这些我们认为十分重要的问题进行讨论。我们协助大家把不同的想法汇集到一个公开的平台中,相互讨论,交换意见。通过这项工作,虽然我们也常常无法得出SMART的目标和指标,但已经前进了一大步。
往后延伸:我们在评估报告完成后,和利益相关方一起召开一次评估发现讨论会。如果资助方和执行方足够开放,我们甚至还会邀请同行机构参加。在这个讨论会上,大家往往会对评估发现进行不同的解读,对项目计划也会有不同的想法出来,这些都可以帮助执行机构开拓思路的。
第三个改进即把项目的黑箱打开。作为评估者,我们往往需要回到项目的源头,使用变革理论或逻辑框架的方法,对项目的需求、设计、活动和执行过程进行梳理。我们需要了解项目活动与目标之间的关系,以及不同活动的创新性和一致性,以便找出项目活动与项目成效之间的关系。在评估领域,人们经常讲,在设计阶段就要加入评估,其含义并不仅是指项目设计时要做监测评估计划,而且是指评估视角可以帮助更好地设计项目。评估对问题、目标、成功指标的深挖和追究,可以帮助深入思考项目的设计。从本质上说,评估思维和设计思维是共通的。
加入上述三个要素之后,评估的作用明显有所加强。目标和指标更清晰了,参与式的方式也加强了众多利益相关方对项目的归属感。打开项目的黑箱,我们收集到利益相关方的反馈,再经由评估师的推理以及他们看过众多类似项目的经验,可以为项目的改进提一些建设性的意见了。
评估要面向未来,面向决策
然而,我们仍然感觉很不足够。上述修改和调整,只是对“基于目标的评估”的修缮,工作比以前做得更细致深入而已,还称不上“颠覆式的创新”。它还没有走出要做判断的窠臼,它的着眼点还是过去,关心的更多是过去的项目做得怎么样。如果我们的眼睛只盯着过去看,心里默默期待评估为未来所用,这是很不现实的。如果我们要让评估被用起来,可以为未来的决策所用,我们必须颠覆评估的思维,建立一种真正面向未来决策应用的评估。面向未来的评估,需要放在真实应用情景中,它需要事先界定清楚:对未来没用的评估是不值得做的。曾经有一家机构希望和SRI合作,我们问,“如果发现了某某问题,你们会怎么办?”他们说,“说实话,我们必须接受这个问题,我们无能为力”。那么,这基本就意味着,关于这个问题的评估,不应该是该次评估的重点。
现在,我们进入到对传统评估逻辑的颠覆环节了。2012年,我们接触到了MichaelPatton的UFE(聚焦于应用的评估)理念。MichaelPatton曾任美国评估协会主席,他撰写的Utilization-FocusedEvaluation一书已经出到第四版,是美国评估领域的经典著作。我们现在就在用这种理念来指导我们的评估工作。
基于UFE的内容,我理解评估具体有五种用途。在这里,我简要介绍一下这五种用途及其关注的评估问题。
评估用途 | 主要使用者 | 使用场景 | 关注问题 |
总结判断 | 资助方、公众以及外部人士 | 项目结束后,判断项目是否值得继续或复制 | ‒项目是否有效回应了目标人群的需求? ‒它实现了过去制定的目标了吗? ‒对于社区或社会而言,项目的价值是什么? ‒这个项目的钱花的值吗? ‒多少或哪些影响是由项目带来的? |
项目改进 | 实施方 | 对项目设计和实施进行改进 | ‒谁受益大,谁受益少,项目对谁最有用? ‒服务对象和团队对项目怎么看? ‒出现了哪些预期外的情景? ‒实施中出现了哪些问题,如何解决? ‒项目的管理效率如何,流程如何改进? ‒有哪些新主意、新视角? |
监测 | 项目经理 | 加强项目管理,抓住过程中的机会,预防潜在风险 | ‒项目执行是否与计划有出入吗? ‒项目人员是否有足够的技能? ‒质量控制体系是否存在,是否发挥作用? ‒近期和阶段性成果状况如何? ‒有哪些意外成功或失败? ‒有哪些好的迹象或不好的迹象需要关注? |
知识生产 | 同行或同类机构 | 公益组织做项目试点,希望总结出规律、模式、经验与教训,以便被其它机构所借鉴和复制 | ‒项目针对社会问题的结构是什么? ‒项目有效的成功要素是什么? ‒有什么经验或教训? ‒可以抽取出什么共性的原则和模式? |
项目发展 | 项目开发和实施方 | 项目没有明确的目标和成型的方案,边做边摸索,评估者用评估思维协助项目设计,并在过程中快速收集数据,以便项目快速调整。 | ‒项目与社会政策环境有什么关系? ‒外部环境的趋势是什么? ‒如何改变项目的目标和运行模式? ‒阶段性的目标和策略有效吗? |
在上述五种用途的评估中,“总结判断型评估”使用的是我刚开始所讲的评估逻辑,它一般要求严谨规范的评估报告。其它评估则可能会有很大的变型,评估为使用者的决策服务,很多时候,决策并不一定需要设定指标,也并不一定需要对比。“监测型评估”、“改进型评估”和“发展型评估”甚至都不一定需要规范的评估报告,而“知识生产型”评估则可以看做一种社会研究。“总结判断型”和“知识生产型”评估对调研的科学性和规范性要求很高,而其它类型的评估则只要“够用”就好,他们更强调在不过分精确的信息上做出重要的决策。
总体上讲,面向应用的评估大大拓展了评估的疆域。
DMEL让评估内化
在我们开展第三方评估同时,我们充分意识到,第三方评估对于很多公益机构来说是一种偶然行为,它对提升机构和项目有效性的作用是有限的。公益机构需要一种机制,可以贯穿项目设计和执行的各个环节,可以帮助项目团队站在项目活动之外来反思项目,帮助机构从项目中抽象出策略和战略,从而真正实现从“做项目”到“提供社会问题解决方案”的跃迁。
这种机制不应该在机构之外,而应该在机构之内,应该融合在每一位项目官员的日常工作之中。基于这种理解,我们开始本土化开发一种我们称之为DMEL的体系。
DMEL体系脱胎于国际公益和发展领域的项目周期管理方法,我们尝试在其中融合社会创新的设计思维以及发展型评估的理念。这种方法在一些较为成为的国际机