汉语口语测试评分员评价研究_黄霆玮_9787506875530

口语测试是一种常见的考试类型，评分涉及的因素比较复杂，需要通过评分员评分。本文以汉语口语测试的评分员为研究对象，提出了评分员评价指标，构建了评价评分员的理论体系，并进行了实证研究，对评价体系及评价方法的有效性进行检验。此项研究对于口语测试的理论和实践都有重要意义，特别是对于评分员的研究和管理具有现实意义。

目录第1章绪论……………………………………………001 1.1研究缘起………………………………………………001 1.1.1口语测试的发展……………………………………001 1.1.2评分员评价体系研究现状…………………………002 1.2研究思路………………………………………………004 1.2.1研究目的和内容……………………………………004 1.2.2研究方法……………………………………………005 1.3研究意义………………………………………………007 1.3.1理论意义……………………………………………007 1.3.2实践意义……………………………………………008 第2章口语测试及其评分员…………………………011 2.1引言……………………………………………………011 2.2口语和口语测试………………………………………011 2.2.1口语的定义…………………………………………011 2.2.2口语测试……………………………………………014 2.2.3语言能力……………………………………………016 2.3口语测试实践…………………………………………026 2.3.1国外口语测试发展概况……………………………026 2.3.2国内口语测试发展概况……………………………030 2.4汉语口语测试评分员…………………………………037 2.4.1评分员的分类………………………………………037 2.4.2评分员的特点………………………………………041 2.5评分员培训和评价……………………………………044 2.5.1评分员培训…………………………………………044 2.5.2评分员评价…………………………………………050 2.6本章小结………………………………………………058 第3章理论基础………………………………………061 3.1引言……………………………………………………061 3.2构建评分员评价体系的目的…………………………061 3.3构建评分员评价体系的原则…………………………063 3.3.1人本性原则…………………………………………063 3.3.2科学性原则…………………………………………063 3.3.3系统性原则…………………………………………064 3.3.4操作性原则…………………………………………064 3.3.5激励性原则…………………………………………065 3.3.6导向性原则…………………………………………065 3.4构建评分员评价体系的作用…………………………066 3.4.1选拔…………………………………………………066 3.4.2诊断…………………………………………………067 3.4.3分数调整……………………………………………068 3.4.4研究…………………………………………………069 3.5理论来源………………………………………………070 3.5.1人力资源管理理论…………………………………070 3.5.2系统论………………………………………………072 3.5.3人才测评理论………………………………………074 3.5.4语言测试理论………………………………………076 3.6本章小结………………………………………………078 第4章研究假设………………………………………081 4.1引言……………………………………………………081 4.2评价体系研究的前提…………………………………081 4.2.1评分员的价值可量化………………………………081 4.2.2评分员价值是稳定的………………………………082 4.2.3评分员价值可正常发挥……………………………082 4.3评分员评价体系的构建………………………………082 4.3.1现有评分员评价体系述评…………………………082 4.3.2评分员评价体系框架………………………………086 4.4评分员“绩效”评价体系的构建……………………090 4.4.1现有评分员“绩效”评价方式述评………………091 4.4.2确定评分员“绩效”评价指标……………………095 4.4.3“绩效”评价指标的权重问题……………………098 4.5本章小结………………………………………………099 第5章评分员严厉度研究……………………………101 5.1引言……………………………………………………101 5.2严厉度定义……………………………………………101 5.3关于严厉度的研究……………………………………103 5.3.1国外相关研究………………………………………103 5.3.2国内相关研究………………………………………104 5.4多面Rasch模型…………………………………………109 5.4.1模型介绍……………………………………………109 5.4.2常用软件……………………………………………112 5.4.3模型应用领域………………………………………112 5.5实证研究………………………………………………116 5.5.1研究假设……………………………………………116 5.5.2研究对象……………………………………………117 5.5.3研究方法……………………………………………118 5.5.4研究步骤……………………………………………118 5.5.5结果分析……………………………………………120 5.5.6结论…………………………………………………124 5.6严厉度评价效度检验…………………………………126 5.6.1偏离趋势检验………………………………………126 5.6.2偏离量检验…………………………………………128 5.7本章小结………………………………………………135 第6章评分员一致性研究……………………………137 6.1引言……………………………………………………137 6.2一致性定义……………………………………………137 6.3一致性和信度…………………………………………138 6.3.1信度概念的演变……………………………………138 6.3.2信度的重要性………………………………………147 6.3.3一致性和信度的比较………………………………149 6.4实证研究………………………………………………151 6.4.1研究假设……………………………………………151 6.4.2统计结果分析………………………………………151 6.4.3结论…………………………………………………154 6.5一致性评价的效度检验………………………………155 6.5.1对区间上限的检验…………………………………155 6.5.2对区间下限的检验…………………………………159 6.6本章小结………………………………………………160 第7章评分员内化评分标准研究……………………163 7.1引言……………………………………………………163 7.2内化评分标准的内涵及鉴别…………………………163 7.2.1定义…………………………………………………163 7.2.2研究方法述评………………………………………164 7.3汉语口语测试的相关研究……………………………168 7.3.1普通话水平测试的相关研究………………………168 7.3.2汉语水平考试（高等）口试的相关研究…………171 7.4实证研究………………………………………………173 7.4.1研究假设……………………………………………174 7.4.2研究对象……………………………………………174 7.4.3研究方法……………………………………………175 7.4.4研究步骤……………………………………………176 7.4.5统计结果分析………………………………………177 7.4.6结论…………………………………………………181 7.5本章小结………………………………………………181 第8章结论……………………………………………183 8.1评分员评价体系的确立………………………………183 8.2评分员评价体系的应用………………………………186 8.3创新之处………………………………………………188 8.3.1理论创新……………………………………………188 8.3.2方法创新……………………………………………189 8.4研究展望………………………………………………190 参考文献……………………………………………………191 附录………………………………………………………201 致谢………………………………………………………217 图表目录表2.1技能——成分说的语言能力…………………………………………………017 表2.2普通话水平测试国测员培训班培训内容……………………………………046 表4.1汉语口语测试评分员“素质”评价指标……………………………………088 表4.2汉语口语测试评分员“能力”评价指标……………………………………089 表5.112名应试人背景信息表………………………………………………………117 表5.2评分员信息数据库（选段）……………………………………………………119 表5.3评分员信息数据库（选段）……………………………………………………119 表5.4HSK（高等）口试等级分数转化表…………………………………………120 表5.5应试人实测成绩名次和能力值名次比较……………………………………121 表5.6评分员评分结果总表（选段）…………………………………………………127 表5.76名评分员评分结果复评情况表………………………………………………130 表6.1异常评分员严厉度、一致性值………………………………………………156 表6.2异常评分员评分情况表………………………………………………………157 表6.312位应试人分组情况表………………………………………………………158 表7.1评分员类型结果（异质程度15）………………………………………………179 表7.2评分员类型结果（异质程度10）………………………………………………180 表7.3内化评分标准异常评分员的评分质量………………………………………180 表8.1汉语口语测试评分员评价指标………………………………………………184 图2.1“语言能力一元化”模型………………………………………………………019 图2.2Bachman的语言能力交际模型………………………………………………021 图2.3Bachman的语言能力结构……………………………………………………022 图4.1人事评价体系框架的改进……………………………………………………085 图4.2汉语口语测试评分员评价体系框架…………………………………………087 图5.15位评分员评分结果折线图……………………………………………………128

第1章?绪论 1.1… 研究缘起 1.1.1 口语测试的发展在语言测试中，口语测试是一种常见的考试类型，是测量应试人口语能力最直接的一种手段。20世纪末期，Bachmam提出了著名的“语言交际能力说”。这种语言能力观认为语言能力不仅包括对语言系统知识的掌握，还包括对句子之外语言交际环境的掌握。基于“语言交际能力说”的语言测试体系强调测试的“真实性”和“交际性”。在这种背景下，口语测试因其符合真实性和交际性的特点，日益受到重视。口语测试是一种主观测试。与客观测试相比较，口语测试命题简单，评分却比较困难。口语测试在真实的交际环境中进行，评分误差的来源比较多。如何控制口语评分的误差，保证口语考试的信度是主观性考试中的一个重要课题。主观考试评分中的误差主要来源于测试任务、评分标准、评分量表和评分员等方面。测试任务、评分标准和评分量表等都是测验的开发者制订的，处于测验开发者可控制范围之内，测验开发者可以不断修改、逐步完善。而评分员是测验开发者无法把握的一个误差来源，评分员的表现可能受到各种因素的影响，是动态的、不断变化的。评分员评分是一个根据既定的评分标准和评分量表，给应试人口语能力赋值的过程。评分标准和评分量表要通过评分员才能作用于应试人。评分标准和评分量表被评分员理解、内化，最后才应用于被试。所以，评分员如何评分直接关系到口语测试的信度和效度，评分员的评分质量是测验开发者的设计思路能否实现的关键。很多研究显示，不同评分员评分的过程差异很大。评分员在理解、内化评分标准时发生了什么？产生了哪些差异？如何描写这种差异？不同的评分员差异反映的本质是什么？进而我们要讨论：这些评分员差异对评分质量有哪些影响？什么样的评分员的评分质量较高？什么样的评分员评分质量较差？我们应该如何评价一个口语测试的评分员？这就是本书要讨论的问题。 1.1.2 评分员评价体系研究现状在主观测试领域中，对评分员的研究一直是一个热点。这些研究的角度不同，有关于评分员的评分方法的，有关于评分员的评分信度的，还有关于如何培养评分员的，但其中有关汉语口语测试评分员评价的研究不多。在我们搜集到的文献中，仅有三篇是专门研究普通话评分员考核的，与我们要探讨的评分员评价体系研究比较接近。毛立群（2003）主要探讨了普通话水平测试员考核体系的建立。文章首先从以下三个方面归纳了测试员队伍的现状：业务素质、职业道德和科研进修。在此基础上结合浙江省普通话水平测试员管理的经验，提出了建立普通话水平测试员考核体系的设想，包括以下四点：规范选拔程序，保证选送人员的质量；点面结合，使业务素质的考核尽量做到量化；工作量考核能客观反映出测试员的热情和态度；强调科研进修，确立后续培训制度。这篇文章从普通话水平测试实践管理出发，较全面地论述了普通话水平测试员考核体系的内涵。美中不足的是，这篇文章比较宏观，没有往深处挖掘考核评分员的具体指标以及考核评价对评分员的反馈效果。钱华（2004）的研究，是迄今为止有关普通话水平测试员考核体系的研究中较为全面的一篇。文章首先从测试实践出发，总结归纳了测试员考核中存在的问题，在此基础上提出构建测试员考核体系的意义和原则，其次提出了测试员综合指标体系的内容与基本框架，最后论述了考核工作的组织实施以及考核结果的运用。这篇文章的考核指标体系涉及四大方面：思想素质结构、业务素质结构、身心素质结构和绩效结构。这四个方面作为考核体系的一级指标，每个一级指标又具体细化为若干二级指标，最后呈现为26个三级指标。这些指标设定得非常全面，包含了《国家语言文字工作委员会关于普通话水平测试管理工作的若干规定（试行）》第十一条规定的普通话水平测试评分员的考核内容：工作态度、测试能力、测试工作量、遵守工作纪律情况等。同时，此研究还提出了考核的具体实施步骤。这篇研究从普通话水平测试员的测试实践出发，具有很强的参考价值，但是理论的部分还有待加强。在汉语水平考试（HSK）高等口语测试的相关研究中，专门对口语测试评分员展开的研究不多。有些研究的成果可供参考，例如：关于评分误差控制、评分员培训的研究，但还没有见到专门关于口语测试评分员评价的研究。 1.2… 研究思路 1.2.1 研究目的和内容本文以语言测试学、人力资源评价理论为指导，采取理论与实证相结合的方法，通过研究旨在揭示评分员评价的本质，提出构建汉语口语测试评分员评价体系的理论依据，确立汉语口语测试评分员评价体系的指标，设计评价方案，从理论与实践两个层面提出解决汉语口语测试评分员评价的理论体系和实施方法。从选题视角引出口语测试、语言能力、评分员、评分员评价等基本概念，对这些口语测试中的基本概念及它们的特征做详细论述，在此基础上完成构建包括“素质、能力、绩效”为一级评价指标的评分员评价体系。对“素质”、“能力”和“绩效”的评价分别通过“考核”、“考试”和“考绩”的方式进行。三种评价体系中，对“绩效”的评价是最重要的，其他两种处于辅助地位。本文的主要研究内容包括：（1）构建汉语口语测试评分员评价模式。阐述了建立汉语口语测试评分员评价体系的理论基础，包括建立评价体系的目的、作用、原则等。一个完整的汉语口语测试评分员评价体系包含三个部分：“素质”评价体系、“绩效”评价体系和“能力”评价体系。在这三个方面中，“素质”和“能力”主要是用来衡量评分员的内在价值，“绩效”主要是衡量评分员的外在价值，也就是评分员创造的价值。内在价值能够转化为外在价值，所以在三个一级指标中，“绩效”指标是最直接和最主要的。我们认为，这三个方面较全面地代表了评分员的日常工作表现，是一个具有实际应用价值的理论框架。（2）构建评分员“绩效”评价模式。对评分员“绩效”的评价主要反映在对评分员评分质量的评价上。评分员的任务很多，特别是普通话水平测试（PSC）的评分员还有推广普通话等其他任务。不同口语测试中，评分员承担的任务不同，但其主要任务是为应试人评分。评分质量的高低关系着口语测试的信度和效度。本文为了量化评分员的评分质量，构建了以严厉度、一致性为指标的“绩效”评价体系。这个体系在理论上能够反映评分员评分结果和应试人能力的差别，可以用来评价评分员的评分质量。（3）应用评分员“绩效”评价模式进行实证研究。本部分将使用现代测量理论尝试量化评分员的评分质量，为评价评分员提供测量学方面的理论支持。本部分的另一个贡献是对量化结果进行了有效性检验，检验结果显示严厉度和一致性作为评价指标可以反映评分员的评分质量。 1.2.2 研究方法理论与实证研究相结合的研究方法是本文研究最基本的研究方法。具体来讲，本文使用的主要研究方法有：（1）文献法。为完成本项研究，我们搜集了数百篇有关汉语口语测试、评价体系的学术论文，穷尽性地收集了关于普通话水平测试（PSC）和汉语水平考试（HSK）的学术论文，其中包括数十篇硕博士论文。除此之外，笔者还认真研读了语言测试方面的中外文专著。通过阅读文献，掌握了进行评分员评价的理论和方法，为完成论文打下了良好的基础。（2）分析法。在占有大量文献资料的基础上，“去粗取精、去伪存真、由此及彼、由表及里”，对文献资料的内部逻辑关系进行深入分析。 A.对比总结。对比分析是本研究中使用的重要方法之一。口语测试的种类很多，我们选择了几种有代表性的测试，有的是外语口语测试，有的是汉语口语测试。在和其他口语测试对比的基础上，我们得出了汉语口语测试的特点，即对评分员的要求是全面的。在分析评分员的特点时，我们也使用了这种方法。通过和科研人员、高校管理人员等的对比，发现了汉语口语测试评分员具有“双重性”特点。 B.归纳演绎。归纳由个别走向一般，演绎由一般走向个别。本文运用归纳与演绎相结合的方法，提出了汉语口语测试评分员评分质量的指标，对汉语口语测试评分员评分质量指标的有效性进行了检验。（3）问卷调查。本研究在研究口语测试中评分员内化评分标准类型时，使用了问卷调查的方式，共向90位评分员发放了调查问卷，回收82份。问卷调查是现代社会科学研究中最常用的资料收集方法，使用问卷可以了解人的态度。问卷调查结果为解释评分员评分差异提供了宝贵信息。（4）实验法。在当今时代，实验方法已经不再是自然科学的专属方法了。对某种行为或现象进行研究，对其做出解释、预测和控制，只能通过实验。本研究中设计了评分员为共同应试人评分的实验，收集到了宝贵的一手数据，这些数据是完成此次研究的基础保障。（5）聚类分析等多元统计方法。本项研究对数据进行分析时，我们使用了聚类分析（cluster analysis）这种多元变量统计方法，对评分员的内化评分标准进行归类研究。聚类分析实质上是一种分类技术，而分类是人类认识事物的最基本方法之一。聚类分析和以往分类技术不同的是依靠科学的定量方法进行分类，是一种精确可靠的方法。除此而外，本项研究还应用了相关分析等其他统计方法。（6）多面Rasch模型。多面Rasch模型是一个功能强大的项目反应理论模型，它可以将观测试中来自应试人、评分员、口语测试任务等多个方面的变异分解，是目前主观评分研究中使用最多的模型。本研究应用此模型量化了评分员的严厉度和一致性，评价了应试人的口语能力。这是本研究使用的最重要的研究方法之一。

你还可能感兴趣

我要评论