基础教育质量的内涵与监测评价理论模型

基础教育质量是强劲的政策话语与常见的概念工具，提升教育质量、构建高质量的基础教育体系已经成为我国教育改革与发展的关键目标，而监测评价则是保障和提升教育质量的重要手段。但是，长期以来，人们对基础教育质量的内涵理解不一，导致存在纷繁复杂甚至错误取向的教育质量观；对质量监测评价的理解与实施缺乏理论模型的指导，导致监测评价工作缺乏科学的顶层设计。本研究试图梳理当前研究话语中对基础教育质量的常见理解，对其加以厘定并构建监测评价理论模型，澄清何为基础教育质量以及如何对其进行监测评价。

一、何为基础教育质量

教育质量绝非新词，然而关于“何为教育质量”这一问题，政治家、研究者、学生、雇主和其他利益相关者因所持视角的差异会有不同的观点（Westerheijden，Stensaker，& Rosa，2007）。所以，无论是对基础教育质量进行理论探讨，还是对其开展监测评价，都首先需要厘清其内涵。

（一）关于基础教育质量的若干理解

Harvey与Green（1993）对纷乱的教育质量界定进行了梳理，总结了五种常见的界定，即是指优秀的、完美或一致性、对目标的适应性、“物有所值”以及教育质量是一种转变。借鉴其观点，本研究总结出国内研究与实践中常见的对教育质量的四种理解。

第一，教育质量是指该类教育具有高于普通教育的品质。日常生活中常见“这所学校是有质量的”“要追求教育质量”之类的表述，这些表述中的“质量”一词便强调“高质量”。这体现出教育质量这一概念在日常表述中具有以下倾向：其一，教育质量具有价值承载性。在日常表述中，教育质量一词往往并非中性，而是强调教育应当达到高标准、高要求，渗透着人们对于高质量教育的企盼。所以，教育质量的内涵界定不应只是关照当下，还需要面向未来，反映教育改革与发展的方向。其二，教育质量具有比较性。教育质量往往是在比较中加以澄清明确的，如现在比过去的教育质量好，这所学校比那所学校办学质量高。如果未提供可供比较的对象、常模与标准，教育质量的论述便丧失了意义。所以，对质量的监测评价，需要构建教育质量标准，并产出通俗易懂的结论以帮助人们了解和比较质量的基本状况。

第二，教育质量是教育达成教育目标的程度。如著名教育学家胡森（1987）认为，“质量是指学校里进行某种教育活动所达到的目标程度”。又如《教育大辞典》指出，“教育质量是对教育水平高低和效果优劣的评价”“最终体现在培养对象的质量上”“衡量标准是教育目的和各级各类学校的培养目标。前者规定受培养者的一般质量要求，亦是教育的根本质量要求，后者规定受培养者的具体质量要求，衡量人才是否合格的质量规格”（教育大辞典编纂委员会，1990，第24页）。这一界定将教育目标作为教育质量比较的参照，并且将其落到了学生的发展上，体现了教育活动的本质。但是，以此来理解教育质量仍存在困境，因为有关谁的目标、什么样的目标、如何协同多元甚至冲突的目标、如何判断目标的达成情况等问题在很多时候并不清晰明确（Wittek & Kvernbekk，2011）。

第三，教育质量是达成既定标准或规范的特征。这一界定具有鲜明的工商业色彩（Stensaker，2007）。随着源于工业生产与企业管理的质量及其理念在教育领域的渗透，特别是全面质量管理理论（Total Quality Management Theory）在教育质量相关研究中的应用，这一界定于21世纪初在我国盛行起来。研究者常常援引 ISO9000 国际质量认证标准指出，教育质量是指实体满足明确或隐含需要能力的特性的总和，包括实用性、经济性、安全性、可靠性、周到性等（程凤春，卫喆，2012）。关注教育质量的意义在于“通过制定细则，用一种普遍化的标准来保证我们对一个产品可以做出确定无疑的判断”（达尔伯格，莫斯，彭斯，2006，第104页）。该界定具有以下突破：其一，将教育质量的落脚点放在教育产品与教育服务上这些实体上，使得对教育质量的判定、比较与保障更为明确。其二，指出应构建相关标准明确对教育产品或服务的要求，并据此对教育质量进行标示。其三，认识到对教育质量的管理应当扩展到对教育全过程的管理，关注影响教育产出的关键因素。但是，这一定义脱胎于工商业管理，将教育视为工业生产过程，将学生的发展视为产品，根据管理与市场的要求来确定质量标准，未能体现教育目标的要求，未能体现教育过程与学生发展的复杂性。正如有研究所质疑的：该定义的前提是产品、服务能较容易地进行量化测评，而学校从事的是以知识为基础的精神活动，其结果量化较难（赵蒙成，周川，2000）。所以，需要根据教育目标制定统一权威的教育质量标准，这对澄清和评价教育质量十分必要。

第四，教育质量是满足顾客明确或潜在需要的程度。受到企业管理理念的影响，人们日益强调教育应当满足顾客（如学生、家长、投资教育的政府与市场主体）的需要，使顾客和生产者相沟通，让多元主体的需求成为确定标准的客观依据（王敏，2000）。所以，教育质量可以理解为通过教育活动满足社会、个人对于教育需求的程度，它既与指向的结果有关，又与获得这些结果的过程中的目标、方法、条件等相关（王智超，2011）。这一界定反映了相关利益主体之于教育质量的重要性，体现了“办人民满意教育”的重要旨归，可以“更为有效地保障了学生和家长的中心地位和影响力”（鲍尔，2002，第140—141页），在实践中的核心体现便是对相关利益主体教育满意度的调查。但是，顾客的需求并不能完整体现教育的目标，甚至有时会与之相悖。例如当前部分家长仍以学校的升学率等指标片面评价学校的办学质量，严重背离了学生全面发展的教育目标，阻碍了学校教育教学的改进。

（二）对基础教育质量的描述性定义

著名分析教育哲学家伊士列尔·谢富勒在《教育的语言》一书中提出了规定性定义、纲领性定义和描述性定义三种不同取向的定义方式。规定性定义是研究者自己创制的定义，不必反映概念先前的或标准的用法，在一定的话语和文本情境中具有准确性与有效性。纲领性定义则要从已有的用法中淬炼出一个通则，告诉人们“这应该是什么”。描述性定义则是通过列举性描述来界说要被定义的对象，常用于澄清概念（谢富勒，1994，参见第16—32页）。研究者总想给出基础教育质量的规定性定义，但是研究者创制的大量定义可能会造成话语体系的混乱。纲领性定义试图寻找概念的本质，但是教育质量的本质并不是一成不变的，也很难轻易探明。越来越多的研究者赞同，教育质量是很难明确定义，我们应放弃对教育质量内核的研究，保留对其的模糊认识（Tovey，1994，p. 60）。所以，本研究试图形成描述性定义，呈现关于基础教育质量的共识，帮助廓清其内涵。

第一，基础教育质量是多要素、多层面的，需要建立起教育质量的系统观。基础教育包含学生以及学生的家庭、教师、学校、政府、社区等多个主体要素，包括教育投入、教育过程和教育产出等多个环节要素，可以区分出个体、班级、学校和区域等等多个层面。同时，基础教育质量各要素和各层面间存在紧密的关联，如大量的实证研究表明，教师的教学方式会影响学生的学业表现，学校的领导和管理与教师的教学和专业发展等紧密相关，而区域层面的政策则会影响到学校的运行（Schroeder et al.，2007；Leithwood & Jantzi，2006；O’Donnell & White，2005）。所以，人们在探讨基础教育质量时，需要建构起教育质量的系统观，不仅要关注其包括的要素与层面，还要关注各要素和各层面间的相互关系，而非仅从某个要素或者层面加以理解，如只是将教育产出作为教育质量，亦非孤立、静态地理解教育质量的要素与层面，如只是将学生发展质量、教师教学质量与学校管理质量等简单汇总求和视为教育质量。在开展监测评价相关工作时，人们日益倾向于先行形成结构化的分析框架和理论模型，清晰化对教育质量的系统认识，从而避免关键要素和层面及其相关关系的遗漏。

第二，基础教育质量的核心是学生的发展。虽然人们对基础教育质量的理解各异，但是都承认其最终体现在学生的发展上。教育是培养人的活动，虽然教育具有政治、经济、文化等多方面的功能，但其本体价值在于立德树人，所以从学生发展的角度理解基础教育质量能够体现教育的本质属性。同时，将学生发展质量视为教育质量的核心体现了已有对教育质量理解的最大公约数。从目标达成论而言，教育目标往往表述为对培养者的质量要求，以学生发展程度来衡量教育质量恰好体现了教育目标的核心内容。从标准论而言，围绕学生发展构建相关标准可反映教育领域的特殊性，防止标准的工商业取向。从顾客需求论而言，无论是教育的政治、经济与文化功能，还是学校期冀的办学效益，抑或是家庭对教育的企盼，最终都体现在学生的发展上，所以以学生发展定义教育质量符合相关利益主体的需求。需要强调的是，学生发展是基础教育质量的核心，是指要将学生发展作为描述、衡量、判定基础教育质量最为核心的尺度，而非直接将学生发展水平等同于教育质量。

第三，学生的发展应当是全面的。以学生发展作为基础教育质量的核心，需要人们进一步澄清对学生发展的要求和期望。对于学生发展的理解大致经历了三个阶段：一是关注学生群体教育状况。多关注有关学生教育获得和表现的宏观指标，如学生的入学率、毕业率、受教育年限、及格率、达标率等。这些数据方便易得，但是只能较为粗放地反映教育事业的发展情况，不能真正体现学生的发展程度。二是关注学生的学业水平。强调按照学科、对照课程标准，利用测验等形式考察学生在学业标准上的达成情况。学生的学业水平能够反映学生对知识技能的掌握程度，体现其认知发展水平，但是也存在唯分数、唯升学率的倾向，导致学生的认知能力被狭隘化为学科应试能力。三是关注学生认知与非认知能力的共同发展。科学主义范式影响下的以学科为中心的教育质量只重视学生认知水平的提升，忽视了学生非认知层面能力的发展，如学生的学习兴趣、动机、效能感等。而大量的实证研究证明，非认知因素不仅能够促进学生认知能力的发展，还对学生的幸福感提升等具有重要意义（Heckman，Stixrud，& Urzua，2006）。在我国的政策话语中，党和国家的教育方针对学生发展的根本要求是成长为德智体美劳全面发展的社会主义建设者和接班人。认知与非认知能力共同发展符合全面发展的要求，但是更多强调学生在“智育”领域的发展，并未澄清学生在其他领域的发展要求。全面发展的内涵是丰富而复杂的，有研究者指出，人的全面发展至少包括人的基本素质的完整发展、和谐发展与充分发展（扈中平，2005）。即学生在德智体美劳多方面的基本素养均得到发展，且各方面的发展协调发生而不片面偏向某些特定领域的素养，每个学生均可以基于自己的特点和潜力得到应有的发展。为了更好地表述和衡量教育质量，需要明确学生全面发展的具体所指与评价标准，这有助于对教育目标、质量标准规范、多元主体需求进行澄清与统整，从而定分止争。

第四，学生的发展是多因素共同作用的结果。学生的发展并不是在真空中进行的，多层面的多要素都会影响到学生的发展。按照生态系统理论的观点，学生的发展受到四层面系统的影响，具体包括：一是微观系统（Microsystems），是指个体亲身接触和参加其中并产生体验的，与之有着直接而紧密联系的环境，如家庭、学校、同辈群体等；二是中观系统（Mesosystems），是指个体所处的两个或两个以上微观系统之间的相互关系，如学校和家庭、家庭与邻居等之间的相互联系；三是外层系统（Exosystems)，是指并不直接接触或参与，但可以对个体产生直接或间接影响的环境因素；四是宏观系统（Macrosystems），个体成长所处的整个社会环境及其意识形态背景（Bronfenbrenner，1994）。在这些因素中，部分因素是教育系统外部的背景因素，部分是参与教育过程的先赋因素，部分是教育系统内部对学生发展起作用的因素。依据对教育质量的系统观，对教育质量进行描述与衡量，不仅需要关注学生发展，还需要关注影响学生发展的关键因素及其作用大小，以此帮助人们“分辨各类因素是否会影响学生发展以及是否进行了有效的教育干预或政策调控”（郭思文，李凌艳，2012）。

二、基础教育质量监测评价理论模型的构建

基础教育质量监测评价是指根据国家制定的有关方针、政策、法令和法规，定期对基础教育质量进行测量与判断，利用数据了解并改进基础教育的活动（陈玉琨，1999，第24—26页; 卫道治，吕达，2005，第114页），已成为保障与提升教育质量的重要制度安排与政策举措。监测评价的理论模型是基于对基础教育质量理解形成的顶层设计，是对基础教育质量测量与判断的结构化，是指导质量监测评价工作的重要依据。

（一）教育质量的系统考察：形成监测评价的一般框架

基础教育质量监测评价一般框架反映了教育质量的系统观，是构建监测评价理论模型的基础。当前知名的监测评价项目所形成的一般框架主要有以下三种。

一是背景-输入-过程-产出（Context-Input-Process-Output，CIPO）框架。20 世纪 60 年代，国际教育成就评价协会（International Association for the Evaluation of Educational Achievement，IEA）提出了这种以背景-投入-过程-产出为基本结构的框架，后被广泛应用于监测评价项目之中，国际学生评估项目（Programme for International Student Assessment，PISA）便是其中的典型案例。PISA在PISA 2009中首次提出了较为系统的评价监测框架，并在PISA 2012时趋于成熟。该框架将教育系统从横向上划分为投入、过程与产出三个环节，从纵向上划分为个体、课堂、学校与系统四个层面，在3×4的二维框架中确定监测评价内容（OECD，2013，p. 175）。

二是多层次课程监测评价框架。如国际数学与科学趋势研究（Trends in International Mathematics and Science Study，TIMSS）借鉴了John Goodlad的五层次课程理论，并在此基础上形成了三层次课程监测评价框架。TIMSS认为，课程是从理想到现实的动态演绎过程，而这一过程便体现了教育的质量。其将课程划分为预设课程（Intended Curriculum）、实施课程（Implemented Curriculum）和获得课程（Attained Curriculum）三个层次，分别关注社会期望学生学习的内容是什么；如何组织教育系统促进学生的学习，课堂中实际教的是什么、谁在教、怎么教；学生实际学会了什么、对这些学科的感受如何（Schmidt & Cogan，1996）。

三是实用性的框架。一些监测评价项目并未形成较为系统的监测评价框架，而是基于监测评价重点形成逻辑自洽的框架。如美国国家教育进步评价（National Assessment of Educational Progress，NAEP）聚焦学校教育质量，构建了四模块的监测评价框架（见图1，Mayer，Mullens，& Moore，2001，p. 4）。

在这一框架中，学生的学习是最终的产出变量，学校背景、教师与课堂层面的因素会影响学生学习。教师是教育中重要的过程因素，其不仅可以直接影响课堂因素和学生学习，还是学校背景影响课堂的重要中介。这一模型在本质上符合CIPO模型的基本设定，以较为清晰简单的方式呈现了各因素之间的复杂关系，且特别强调了教师在教育中的关键作用。

总体而言，监测评价项目的一般框架呈现以下趋势：其一，采用系统观来审查教育质量。无论是CIPO框架还是多水平课程框架，抑或是各类实用性的监测评价项目的框架，其本质都是从教育的全维度审查教育质量，关注各层面各因素对学生发展的影响，而不是将教育质量局限于某一层面或某一因素。其二，CIPO框架得到了越来越广泛的运用。虽然各一般框架上有所差异，但其都在不同程度上渗透着CIPO框架的理念。TMISS从TMISS 2015以来就越来越重视情境性因素对课程因素的影响，如国家、社会、教育情境对预设课程的影响，学校、教师、课堂情境对实施课程的影响，学生学业成就、个性和家庭背景对获得课程的影响（郏超超，杨涛，2019），这恰体现了影响课程实施的各类背景、投入和过程因素。其三，注意区分教育质量的不同层次。如PISA将教育系统划分为个体、班级、学校和系统层面，TIMSS的三层次课程框架其实关注了国家（区域）、课堂和个体层面。对教育质量层次的划分不仅可以对单层次的框架进行扩展，尽可能覆盖各类要素，从而保证在数据收集时不遗漏必要的维度，还可以对不同层面的教育质量进行系统考察，产出的结果也可在不同层面加以应用。

本研究基于CIPO一般框架形成了图2所示的基础教育质量监测评价一般框架。从横向上看，基础教育质量包括背景因素、输入因素、过程因素与产出因素。背景因素是指教育系统之外对教育产生影响的因素，这是教育系统的“外部环境”。教育质量的背景因素会作用于教育的输入、过程与产出环节，但是背景因素并不属于教育系统，所以在衡量教育质量时需要加以甄别并排除。输入因素是指教育系统中的资源和条件因素，这是教育系统运行的“原始材料”。过程因素是指教育系统为达到某一特定结果而采取的一系列行动，这是教育系统运行的“具体操作”。产出因素是指教育系统最终产生的结果和产生的影响，这是教育系统运行的“最终结果”。从纵向上看，基础教育质量包括个体、班级、学校、区域等多个层面。一方面，各层面的教育质量虽然均存在输入、过程与投入等环节，但是在具体要素上存在差异。如果不加区分一概而论，监测评价结果容易产生偏差，结果应用亦容易混淆无效。另一方面，教育系统具有非常典型的嵌套结果，即个体从属于相应班级，班级从属于相应学校，学校从属于相应区域，各外部层会对相邻的内部层产生影响，在对各层教育质量进行考察时需关注各层面的相互关系。

根据这个一般框架，我们可以构建基础教育质量监测评价的广义模型如下：

在该模型中，O、C、I和P分别表现产出、背景、输入与过程因素，i可代表学生个体、班级、学校与区域层面，各层面产出是相应层面背景、输入和过程因素共同作用的结果。

（二）厘清学生发展及其影响因素：明确监测评价的关键内容

基于一般框架，监测评价的关键内容主要包括教育产出和影响教育产出的背景、输入和过程因素两大方面。

1. 以学生发展定义教育产出

学生发展是教育质量的核心，也是教育产出的关键组成，所以以学生发展定义教育产出已成当前监测评价项目的共识。从关注学生群体性的受教育状况，到学生的学业水平，又到学生认知能力与非认知能力的共同发展，当前监测评价项目对学生发展水平的定义主要呈现两种取向：一是从素养角度加以界定。如PISA便关注学生的阅读、数学和科学素养，而素养是指“学生在生活情境中运用掌握的知识和技能解决问题的能力”（OECD，2001，p. 69），更为强调超越学科分野的综合能力。二是从课程（学科）表现加以界定。如TIMSS将获得课程作为学生的产出，也就是学生通过该课程（学科）的学习，在学科知识、技能与方法、情感态度价值观等层面的获得，更为强调对学生分科能力的考察，在具体的监测评价中常以课程标准为据。

虽然两种取向存在差异，但亦呈现出诸多共同趋势：其一，打破片面以知识和技能掌握衡量学生发展的倾向。无论是PISA所强调的素养，还是TIMSS所强调的获得课程，都非常强调学生的能力获得，而非单纯的知识与技能的掌握。其二，强调从更为全面的角度衡量学生发展。如PISA除了考察学生的阅读、数学与科学素养外，还会对学生的问题解决能力、协作能力、财经素养、全球素养、创造性思维等综合素养进行测评。诸多课程（学科类）监测评价项目更是试图囊括更多的学科，以期对学生发展进行更为系统的考察。如NAEP会对学生在阅读、数学、科学、写作、美国历史、经济学、公民教育、地理和艺术九个学科上的表现进行评价。其三，基于标准化测试和问卷衡量学生的发展水平。学生发展水平是抽象的，诸多监测评价项目均使用标准化测试作为衡量学生认知能力的重要工具，并利用问卷对学生在非认知领域的发展水平进行测评，最终将学生在测试和问卷中的表现视为学生发展水平的体现。

正如前文所述，教育质量应该关注学生的发展，而学生的发展应当是全面的。所以，在对教育产出进行监测评价时，除了吸收借鉴国外监测评价项目的共同趋势外，更应体现学生发展的本质要求，即从学生全面发展状况的角度衡量教育产出。虽然当前诸多监测评价项目试图对学生发展进行更为全面的考察，但是仍然存在关键板块的缺失，如对学生品德发展、体育素养与健康水平、艺术素养、劳动素养等方面缺乏关注。要弥补这一缺陷，需要建构起更为全面的学生发展监测评价领域，可以从以下方面着力：一是通过全学科监测体现人的素质的全面性。学科教育是当前学生学习的主渠道，对全学科进行监测是对学生全面发展状况进行监测评价最为直接也是当下最具操作性的方式。除了对常规的语文、数学、科学等更多体现“智育”的学科进行监测外，还需将品德、体育与健康、艺术、劳动教育等体现“德”“体”“美”“劳”的学科纳入全学科监测的范畴。但是，在开展全学科监测时，要避免全部学科的“一哄而上”和“同等重要”，要结合个体发展的需要和社会经济发展的需要，科学论证各学科与学生全面发展的关系及其承载度。二是通过全要素监测体现人的获得的全面性。监测评价不仅需要关注学生在学习过程中掌握知识与技能，还需要关注其学习的过程与方法以及在此过程中形成的情感、态度与价值观。如对学生的艺术素养进行监测，不仅要关注学生对艺术基本知识和演唱、绘画、律动等基本技能的掌握，还需要关注学生对艺术的乐趣、参与艺术活动的动机以及正确的审美情趣等非认知的表现。在开展全要素监测时，不仅需要通过标准化测试对学生的知识和技能进行评价，还需要利用问卷对学生的情感、态度、价值观等进行测评。三是通过对核心素养的监测体现人的全面发展的时代性。如在当前的政策表述中，实践动手能力、合作能力、创新能力等日益被强调，这体现了新形势下国家对于人才培养的迫切需求，也体现出个体成才应有的能力准备，需在监测评价中予以突出强调。对于核心素养的监测可以如TIMSS融入到学科监测之中，亦可以如PISA将其作为专门的创新监测领域。四是通过科学的权重设置体现人的全面发展的时代性。学生的全面发展不是平均发展，而是需要通过科学的权重设置体现人的全面发展在不同发展阶段、不同个体发展需求、不同社会经济背景中的必要差异性，在保障学生得以个性发展的同时避免其出现“偏科”等片面发展的问题。

2. 遴选影响学生发展的关键因素

教育系统内外的背景、输入与过程因素是教育质量的重要组成部分，会影响到教育的产出，对诸影响因素进行监测评价已经成为国内外基础教育质量监测评价项目的重要趋势。但是，影响因素研究的关键并不是论证这些因素会影响到学生的表现，而是找出其中的关键因素。借助一般框架提供的结构化思路，人们可以从三方面寻找遴选关键影响因素的理据。

一是理论基础。教育效能的研究（Educational Effectiveness Research）为关键影响因素的遴选奠定了知识基础。20世纪60年代以来，为反驳Coleman等人有关教育机会公平的研究，大量研究者试图识别课堂、教师、学校等不同层面的因素对学生学业成就的影响以证明学校教育的意义。如Creemers等人（2013）提出的教育效能的动态模型便强调，影响学生产出（包括认知产出与非认知产出）的直接或间接因素由国家或地区、学校、课堂和学生个体四个层面构成，不同层面因素之间相互作用。教育效能研究形成了不同层面诸因素影响学生表现的图谱，对这些研究的梳理特别是元分析可以帮助人们明确哪些因素是关键的，是更应加以关注的。此外相关实证研究还形成了大量的构念和测评工具，可以为关键影响因素监测评价工具的开发提供重要参考。如约翰·哈蒂对相关实证研究进行元分析后发现，影响学生学习的主要因素集中于学生、家庭、学校、教师、课程与教学等领域，其中排名前10名的分别是自评成绩、皮亚杰项目、提供形成性评价、微格教学、加速、课堂行为、针对有学习障碍学生的综合干预、教师表达的清晰度、交互式教学法、反馈等（哈蒂，2015，参见第19—20页）。

二是政策需求。监测评价具有极强的政策导向，需为政策的改进提供证据。PISA 2000报告便开宗明义地指出，PISA“旨在为政策对话以及教育目标的界定与实施提供一个新的基础”（OECD，2001，p. 1）。为了服务于政策改进，一方面，关键影响因素的监测评价要反映教育改革与发展的总体趋势。如当前诸多大型监测评价项目都非常重视对信息通信技术（Information and Communications Technology）及其在教育教学中的应用等议题进行测评，反映出人们对教育信息化趋势的关注。又如随着教育逐渐步入内涵发展阶段，教育中的过程性因素日益受到关注。OECD在确定PISA 2018的关键影响因素时，参与决策的各国和地区代表最为关注的分别是教师的资质与专业发展、课堂教学实践、学校学习环境与氛围、学习策略、态度与动机（OECD，2019，p. 220），均为过程因素。另一方面，关键影响因素的监测要回应热点政策议题。如学生欺凌、学业负担、学生幸福感等议题业已成为当前监测评价的重要主题，并通过监测评价获得了社会的广泛关注，推动了政策之窗的开启。通过对PISA 2018舆情进行分析，我们发现除了学生的表现及其排名外，媒体最为关注的便是学生的学业负担重和幸福感偏低等问题，教育部和参加PISA 2018的四个省市均开始采取相应措施以期推动这些问题的解决。为了敏锐地判断关键影响因素是否与政策紧密相连，监测评价项目往往依靠政策专家、采用德尔菲法来确定需监测评价的主题及其具体内容。如在PISA关键因素监测中，OECD试题和问卷的承包商会结合一般框架提出相应的监测评价主题，然后由PISA管理委员会（PISA Governing Board，PGB）对模块的重要性进行评估，最终确定监测评价内容。

三是技术可能。在进行关键因素监测时，需要考虑背景数据的收集应是客观、高效的，且在最大程度上减少参加者的负担和项目的成本。如对于态度和价值观的监测评价一直以来都是评价的难题，需要警惕答题者的社会称许效应，且很难实现跨文化比较。所以，很长一段时期内对于关键影响因素的监测更多关注行为，很少涉及态度和价值观。但是调查技术的进展为态度和价值观的监测评价提供了更多的可能，如过度宣称的信号监测消除技术（Signal Detection Debiasing Based on the Over-claiming Technique）、虚拟情境锚定、迫选量表、情境判断测试等（陈科武，2016），相关主题的监测评价也逐渐增加。虽然人们总是倾向于对更多的关键影响因素进行监测评价，但是这会增加参加者的负担和项目的成本。所以，监测评价设计者必须在关键影响因素监测评价的广度深度和监测评价的负担成本之间谋求平衡，而题册轮转技术、基于计算机的问卷系统等则为更多的测评、更少的投入提供了可能。

基于一般框架和前文所提的三个“筛子”，对PISA、TIMSS、NAEP等国内外较有影响力的监测评价项目所涉及的关键影响因素进行整理，可以形成关键影响因素的主题清单（见表1）。

在教育质量的背景因素方面，人们主要关注学生性别、移民背景等一般人口学因素（DC）、家庭社会经济文化地位（SES）和经济发展水平、社会公平状况等社会背景（SC）；在学生层面，主要关注年级、教育经历、能力基础等教育与能力基础（EB）和学生学习策略（LS）、学习时间（LT）以及与学习相关的非认知因素（NF）；在班级层面，主要关注班级规模和人员组成等特征（CC）、学生的学习机会（OLT）和教师教学方式（TS）；在学校层面，主要关注学校所在地、办学层次和类型等学校特征（SC）、办学经费与条件（SR）、学校规模和生师比（SZ）、教师资质与专业发展（TPD）、领导与管理（SA）与学校学习环境与氛围（LC）；在区域层面，主要关注区域教育投入和师资配置等教育条件保障（SS）以及普职分流、教师专业发展、考核问责等诸多教育政策的执行（EP）。

我们可以用多水平线性模型对广义模型进行更为具体的表达：

在这一模型中，OSTUDENT代表教育的最终产出，即学生全面发展状况，学生、班级、学校和区域层面的因素最终都会影响到学生的发展。此外，各层面的要素对学生发展的影响存在层次性，即学生受到班级的影响，班级受到学校的影响，学校受到区域的影响，为了更好地反映这一嵌套结构，需要采用多水平模型加以表达。

（三）以何表征基础教育质量：构建质量指数的选择

现实之中，人们总是存在“哪个可以表示教育质量”的操作主义追问和进行简单比较冲动。在此背景下，形成相关指数以表征基础教育质量成为一种必要。当前主要存在三种表征教育质量的做法，具体如下。

第一，利用教育结果指标进行表征。如根据学生在标准化测试中的分数和平均分来评价教育质量。这种倾向强调从学生发展的角度衡量教育质量，但是却将教育产出视为唯一指标，未考虑教育的背景、输入与过程因素，不仅对教育质量的衡量存在偏颇，而且极易走向“唯结果论英雄”。正如侯杰泰教授所言，“一讲（分数）绝对值，所有学校都无需提升教学能力，也无需提升教育质量。因为如果招收的学生是最好的学生，那么毕业的时候成绩必然好”（侯杰泰，2016）。在这种结果导向下，区域、学校和教师很容易再次步入“唯分数”误区，通过反复操练、安排优秀教师任教甚至是弄虚作假等手段来提高学生在监测评价中的测试表现，有悖于旨在通过监测评价推动教育改进的初衷。

第二，将教育投入、过程和产出因素合成为表征教育质量的指数。这种做法体现了教育质量的内在结构，且可以通过权重倾斜突出对学生发展的关注。但是这一做法亦存在三方面主要不足：一是未剥离背景因素对教育因素的影响。如家庭社会经济地位是影响学生发展的重要因素，如果不剥离其影响便很难确定教育系统是否以及在多大程度上影响了学生的发展。二是未能体现教育质量各层面、各因素的相互关系。虽然通过权重的设计可以反映教育各层面、各因素的相对重要性，从而在一定程度上反映出教育质量的内在结构，但是无法呈现其作用关系。如我国课程与教学改革非常倡导探究式教学，然而基于大规模测试数据的分析表明，探究式教学可能对学生的学业表现产生负向的影响，但是可以正向预测学生的学习兴趣等非认知产出（Cairns & Areepattamannil，2019）。如果只是将探究式教学和学生的表现进行简单的合成形成探究式教学质量，并根据探究式教学的水平高低便判定是否应该提倡探究式教学，不仅所形成的质量指数存在偏差，还可能导致监测评价结果的误用。

第三，从各因素作用的角度衡量教育质量。这一观点认为，监测评价的重点不在于衡量学生发展的绝对水平，也不在于衡量教育投入、过程与产出因素等指标的现实状况，而是衡量教育因素对学生发展的作用，教育效能相关研究秉持的便是这一观点。教育效能是指“教育组织全面实现教育目标的特征和有效作用”（孙绵涛，2007，第49页），从这一角度加以理解，教育质量即教育活动发挥的真正作用。以相关因素的作用来表征教育质量，体现了人们对“合目的的有效性”的追求（温恒福，温宏宇，2020），意味着人们在对教育质量的考察时，不仅需要注意作用是否符合教育目标，或者更本质而言是否能够推动学生的全面发展，还需考察作用的程度大小，也就是在多大程度上推动了学生的全面发展。

本研究亦赞成从教育因素的作用这一角度来表征教育质量，从具体做法来看，包含如下指向：其一，在监测评价数据分析与结果应用中，对教育质量的衡量不在于比较学生测试表现等学生发展水平相关指标的均值，而是比较相关变量在对教育产出特别是学生发展水平的函数（如线性回归函数）中的系数大小和解释率。其二，对教育质量的监测评价需剥离背景因素的影响，控制投入因素的作用，评估教育过程因素的作用，这样才能更好地衡量教育因素的真正效果。比如衡量教师的教学质量，并非直接比较教师在不同教学方式指标上的得分水平，而是在剥离学生一般人口学特征、社会经济地位等背景因素影响后、控制性别、年级、先前能力水平等因素，评价教师教学方式对学生学业表现和非认知产出的作用。其三，对于不同层面的教育质量的衡量，其剥离、控制和突出的因素存在差异，学生层面质量主要考察学生学习方式等的作用，班级层面质量主要考察学习机会和教学方式等因素的作用，学校层面质量主要考察教师专业发展、学校管理和学校氛围等因素的作用，区域层面主要考察各项政策对育人的实际效果。

（四）广义模型的扩展：探查教育质量的不同构面

根据基础教育质量监测评价的广义模型，我们还可以形成与之相关的三个具体模型，从而实现对教育质量不同构面的监测评价。

第一，教育效率监测评价模型。效率经常与质量相伴出现，优质教育往往是高质高效的。有研究者就强调，教育质量概念本身便包含对效率的诉求（奇纳帕，2012）。评价者可以根据广义模型，确定相应的投入因素和产出因素，如将学生的全面发展状况作为产出因素，将经费投入、教师配置、学校设施设备等视为投入因素，利用随机前沿分析（Stochastic Frontier Analysis，SFA）、数据包络分析（Data Envelope Analysis，DEA）等方法对效率进行分析，并可分解出学生学习、班级教学、学校办学与教育系统履职等不同层面的效率。

第二，教育公平监测评价模型。党的十九大报告指出，“努力让每个孩子都能享有公平而有质量的教育”。高质量的教育势必有着公平的底色。教育公平是指教育可以阻止、抵制或抵消个体不可控制的先赋因素（如性别、家庭背景等）对教育获得的影响，而让自致因素（个体的努力和能力）发挥根本作用（褚宏启，2020）。人们可以借助广义模型，确定背景因素中的关键先赋因素，并进一步监测评价其与学生发展水平的相关性，并分析教学方式、学校管理等教育相关因素对先赋因素影响的减弱、抵消作用，从而判断教育公平的现实状况。如PISA非常关注学生家庭社会经济文化地位这一因素对学生素养表现的影响，并将其视为评价教育公平的重要指标。在PISA 2018中，我国四省市（北京、上海、浙江、江苏）学生家庭社会经济文化地位对其阅读素养表现的解释率（回归方程的R2）为12.6%。这一比例约高于 58%的参测国家（地区），呈现出较大的教育不公平（赵茜，张佳慧，常颖昊，2019）。

第三，教育质量增值监测评价模型。教育质量是教育投入与过程在一定时间内的累计效应，如果忽视学生的原有基础和影响因素的变化，可能会造成监测评价结果的偏误。《深化新时代教育评价改革总体方案》提出要“探索增值评价”，使不同的被评价者都能看到“进步”“发展”的希望，从自身条件出发，通过自身努力，取得应有的发展与成就，实现评价的激励与促进作用（范国睿，2020）。基于增值评价的理念，我们可以将广义模型做以下调整：OSTUDENT(t−t*) = g(C(t−t*)，I(t−t*)，P(t−t*))。一方面，可以利用模型监测相关因素和学生全面发展状况在t到t*这一时段内的变化情况，并进而考察相关因素的变化对学生发展的贡献程度，实现“不比基础比进步”。另一方面，通过控制学生家庭社会经济地位等教育系统无法改变的背景因素，仅仅评价学生、教师、学校或者政府在可以改变的教育相关因素方面做出的努力，实现“不比背景比努力”（辛涛，2020）。

三、基础教育质量监测评价理论模型的应用与方法论启示

基础教育质量监测评价理论模型的构建不能止步于理论探讨，其根本在于指导监测评价实践，在实践中不断检验和完善，我国义务教育质量监测便基本体现了这一模型要求。

（一）基础教育质量监测评价理论模型的应用

《国家中长期教育改革和发展规划纲要（2010—2020年）》提出，要“建立国家义务教育质量基本标准和监测制度”。十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》也明确指出，要“强化国家督导，委托社会组织开展教育评估监测”。开展教育质量监测既是加强完善教育督导体系，推动教育管理职能转变的必然要求，也是今后一段时间内我国教育改革发展的一项重要任务。2007年，教育部委托北京师范大学成立教育部基础教育质量监测中心开展义务教育质量监测的探索。2015年，国务院教育督导办印发《国家义务教育质量监测方案》，标志着我国基础教育质量监测制度的正式确立。2018年，我国国家义务教育质量监测报告首次公开发布，引发社会的广泛关注。我国义务教育质量监测在以下方面突出体现了监测评价理论模型的导向和要求。

第一，依据CIPO形成监测一般框架。义务教育质量监测根据CIPO框架，确定了两方面的监测内容，一是对教育产出的监测，主要关注学生的发展水平，采用标准化测试对学生的认知能力进行测评，并通过矩阵抽样技术、计算机交互测试、语音识别等技术提高测评的效度与精度，同时减少学生参加监测的负担。二是对影响学生发展的关键因素的监测，采用问卷调查等方式进行，涵盖教育质量的背景因素、投入因素和过程因素。但是，当前的义务教育质量监测未对教育质量的不同层面进行划分，可能导致关键因素的遗漏，也可能导致监测评价结果缺乏对不同层面教育质量的解释力度。

第二，关注学生发展，强调对学生全面发展情况进行监测。在监测的学科和领域方面，义务教育质量监测不仅对学生在语文、数学、科学等学科上表现进行监测，还关注学生在德育、体育、艺术等领域的发展，并正在积极探索劳动素养和心理健康领域的监测，逐步实现对学生德智体美劳等领域全面发展状况的监测。在认知监测的要素方面，不仅考察学生的知识和技能掌握情况，还关注学生情感、态度与价值观方面的发展，实现对认知与非认知能力的全面监测。如对学生数学领域表现的监测，不仅关注学生运算能力、空间想象力、数据分析能力、推理能力和问题解决能力，还关注学生的数学学习兴趣、学习自信心和学习焦虑等学习情感态度（中华人民共和国教育部，2019）。

需要指出的是，义务教育质量监测在对学生全面发展状况的监测中仍存在两方面的不足：一是缺乏对学生全面发展较为系统化的理解和标准建构，当前的监测仍然主要体现在更多的学科覆盖上，初步体现了“全面”的要求，但是对品德、艺术素养和劳动素养的监测，仍然处于探索阶段，面临诸多的理论和测评难点问题；也未能系统体现学生全面发展的能力结构及其要求，如对学生在各学科上测试表现的重要性等问题缺乏追问。二是缺乏对新时代背景下学生核心素养的测评，对于实践动手能力、合作能力和创新能力等关注不足。虽然一些领域的监测已有一些探索，如在数学领域监测中强调对问题解决能力进行测评，但是无论是对学科核心素养还是跨学科核心素养的监测仍然缺乏必要的关注，更缺乏具体可行的监测。

第三，关注关键影响因素，力求为教育改进提供证据支持。除了对学生表现进行监测外，义务教育质量监测还确定了若干影响学生发展的关键因素：在背景因素方面主要关注学生的一般人口学特征和家庭社会经济地位，在投入因素方面主要关注学校的课程开设、条件保障、教师配备状况，在过程方面主要关注教师的学科教学。相关影响因素的监测会根据监测领域和政策热点进行调整。但是，总体而言，义务教育质量监测涉及的关键影响因素仍然偏少，特别是对个体层面的学生能力基础、课堂层面学习机会和教师的教学方式，学校层面的教师专业发展、学校管理和学校氛围以及区域层面的重要政策的执行情况等缺乏更为深入的监测。

在质量的表征方面，义务教育质量监测并未简单地以学生的学业表现作为衡量教育质量的唯一指标，而是试图从教育的全过程对教育质量进行呈现，如学生的学业表现、学习情感与态度、教师学历达标情况、教师参与培训情况、学校设施设备与场地配置等。但是，义务教育质量监测仍然主要以学生表现和各关键影响因素的均值比较作为衡量教育质量高低的依据，且未对背景因素的影响进行剥离，也未控制部分投入因素，导致对教育质量的衡量与理解上可能存在偏差，无法体现区域、学校、教师等教育相关因素对学生发展的“净效应”。在这种重视“平均分”的导向下，监测分数成为了地方政府和学校另一种追求的分数，还有一些地区以监测之名，开展借名统考和搭车考试，严重减损了质量监测在推动树立科学的质量观和教育教学改革方面应当发挥的作用。

（二）基础教育质量监测评价的方法论启示

为更为科学地开展监测评价工作，需结合对基础教育质量的理解和相应的监测评价模型，进一步完善监测评价的方法论。

第一，利用教育质量标准对基础教育质量进行明确定义。从理论上廓清基础教育质量的内涵是不够的，还需要通过质量标准进一步明确基础教育质量的具体要求与判定尺度。在许多国家，人们越来越重视构建教育标准作为评价和问责的基础，特别是通过制定一套测量学生学习成果的标准，优化对教育质量的评价（经济合作与发展组织，2019，参见第7页）。学生发展是教育质量的核心，只有对学生发展进行科学评估，才能对教育质量进行客观有效的监测评价，所以构建学生发展质量评价标准尤为重要。这一标准应基于学生全面发展这一核心要求，在以下方面有所突破，并借助评价方式方法的完善真正落地。

一是探索对学生“德”的评价。科学设计并遵循各级各类教育德育目标要求，遴选出能够反映学生“德”方面发展的有效指标，重点关注学生的理想信念、社会责任、行为习惯等方面的表现，要防止道德素养监测陷入唯知识论的窠臼和德育“倒挂”的困境。对于“德”的科学评价，需要技术手段的改进。如创新过程性评价办法，利用数字化、信息化等手段实现学生、家长、教师以及社区等参与评价，较为客观地记录学生品行日常表现和生活中的突出事件，并充分共享利用综合素质评价相关数据，实现对学生的道德素养更为精准的白描。

二是形成对学生“智”的全面认识。一方面，利用评价内容和方式方法的变革对学生在生活情境中运用知识与技能的能力进行测评，特别是利用技术创新加强学生创造性思维、动手实践能力、合作能力、问题解决能力、批判性思考等核心素养的测评。如可以借鉴PISA经验，通过计算机人机互动试题考察学生的合作能力和问题解决能力。另一方面，要加强对学生学习兴趣、动机、焦虑、效能感等非认知因素的关注与测评，这亦需要创新问卷调查的方式以克服社会称许性、跨文化比较等困境。

三是夯实对学生“体”的评价，特别是要加强对学生心理健康的关注。如可以借鉴PISA经验，对学生的生理性、认知性、心理性和社会性幸福感进行评估（OECD，2017，p. 67），用幸福感的概念对学生的身心健康做出更为宽广深刻的理解。

四是改善对学生“美”的评价。对学生“美”的素养要求应摆脱艺术特长的狭隘理解，要结合各阶段学生的特点明确学生素养发展目标和评价重点。根据《关于全面加强和改进新时代学校美育工作的意见》的要求，学前教育阶段培养幼儿拥有美好、善良心灵和懂得珍惜美好事物。义务教育阶段注重激发学生艺术兴趣和创新意识，培养学生健康向上的审美趣味、审美格调，帮助学生掌握1至2项艺术特长。高中阶段丰富审美体验，开阔人文视野，引导学生树立正确的审美观、文化观。

五是关注“五育并举”下学生各类能力共同、协调发展的水平。虽然德智体美劳五大领域的素养均具有重要地位，但是并不意味着这五方面素养的地位是同等重要，更不能简单地理解为学生在这五大领域的素养表现应当是同样权重，这容易导致追求学生的平均发展和全能发展，并不符合学生个性化发展的要求，亦不符合社会育才的方向。评价标准要申明何为学生的全面发展：一方面，需要划定各方面发展需达到的底线水平，引导五育并举；另一方面，结合学生发展规律和社会发展要求，对各方面更高水平的发展提出要求，引导各方在保障学生达成底线全面发展的基础上促进学生的个性化发展。

第二，完善关键影响因素监测。其一，对关键影响因素进行结构性梳理。监测评价项目的设计者与实践者可以依据一般框架与理论模型，结合教育效能研究、课程层次理论等理论研究和相关实践经验进行结构性梳理，考虑监测评价的技术可能性，形成关键影响因素的监测评价因素清单。其二，重视对教育过程因素的监测评价。为了更好地服务于教育内涵发展，需要加强对过程因素的监测。当时在我国的监测评价中，由于投入性要素相关数据较易收集，国内的监测评价更倾向于选取该方面的因素，但是对过程性要素，特别是课堂教学与课程、教师专业发展、学校管理等要素的涉及较少。如用师生比、专任教师学历水平、教师培训进修的比例和实践等指标来衡量教师的教学水平，但是正如著名教育经济学家Carnoy（2009）所担忧的，很多国家城市改进学校失败了，一个解释便是人们对教师质量的关注并不充分，相关的政策可能导致对教师学位、资格的关注，但是并没有提高教师的质量。本研究认为，可以以学习机会为切入点，加强对多层面过程性因素的整合，在宏观层面关注课程和教材对特定学习内容的覆盖情况，在中观层面关注教师教学能力和教学过程，在微观层面关注学生真实的学习过程和课堂经历（辛涛，姜宇，王旭冉，2018）。其三，加强对重大政策需求的监测。可以参照PISA的经验，将关键影响因素进行模块化划分，在保持一些模块长期稳定的同时，设置一些反映政策需求的模块，并根据专家对其重要性的评估进行删减。

第三，加强对教育质量的追踪调查和实验研究。现有的监测评价多采用截面研究设计，即只能反映学生当前的发展状况但是无法呈现学生的发展程度，这就导致监测评价只能反映教育质量的当前状况和整体趋势，无法对学生与学校的进步程度进行客观衡量，也无法明确某项干预与学生发展的因果关系。所以，一方面，可以加强监测评价的纵贯设计，对学生发展及其关键影响因素进行追踪调查。如在国家义务教育质量监测中，对部分四年级、八年级学生进行统一监测后，可在五年级、九年级进行回溯追踪，呈现其进步程度。另一方面，可以开展基于监测评价结果的教育实验。如通过监测评价发现，某些教育方式可以正向预测学生的测试表现。研究者可以进一步采用随机控制实验探明该种教学方式在何种条件下对怎样的学生产生了何种影响。只有这样，监测评价才能够为教育决策和一线教育教学提供更为有效的证据。

第四，从教育因素的作用角度构建教育质量指数。当前在对基础教育质量的表征上仍然存在单纯以学生学业表现和教育背景、投入和产出因素的合成数据表征基础教育质量的做法，不仅在最终产生的指数上存在偏误，而且无法区分不同层面教育质量的状况，导致监测评价结果无法有效应用于各层面的教育改进，且有可能导致“唯结果”“唯分数”“唯条件”“唯生源”等评价误区。研究者可以加强从教育因素的作用这一角度构建教育质量指数，基于监测评价数据，对背景因素的影响进行有效剥离，对投入因素进行统计上的控制，构建诸如学生发展质量指数、教师教学质量指数、学校办学质量指数和区域基础教育质量综合指数等质量指数。更重要的是，要加强对教育质量系统观和教育质量指数的宣传，让人们从简单的均值比较和分数排名中走出来，树立起科学的教育质量观。

（作者：李刚、辛涛，原文载于华东师范大学学报教育科学版）