随着数字化时代的深入发展,在线智能测评逐渐成为心理学、教育学及人力资源领域的重要工具。线上测评突破了时间和空间的限制,实现了大规模、高效率的认知能力评估。然而,缺乏现场监管带来的作弊和成绩真实性问题,成为制约在线智能测评广泛应用的核心难题。监考技术因此应运而生,被视作保障测评公正性和准确性的有效手段。监考不仅涉及实时视频监控,还包括录屏、键盘记录以及人工智能辅助的异常行为检测等多种形式。针对在线智能测评中监考的影响,学术界进行了多方面的研究和实证探索,揭示了监考对不同认知任务的诸多作用和局限。
理解监考在智能测评中的具体效果,能为测评设计、数据解读乃至政策制定提供科学依据。 监考的核心目标是抑制作弊行为,保障测评公平和结果的有效性。作弊通常包括利用网络搜索答案、借助外部工具如计算器或词典、与他人协同作答,甚至通过手机拍照和笔记记录等行为。不同认知任务的作弊难度和形式各异。以推理任务为例,这类题目往往设计复杂,需现场观察与逻辑推断,作弊难度较大。因此,大多数研究发现在线推理测试的监考效果有限,且成绩差异不显著。
相比之下,短期记忆等任务因解答内容易被记下或录屏,作弊风险和影响较大,监考的必要性更高。此外,处理速度测试因本质上衡量快速反应,作弊行为难以提高成绩,监考作用相对较小。发散性思维测试作为复杂且主观性较强的任务,其作弊可能涉及利用人工智能辅助生成答案,未来需要额外关注。 大量实证研究揭示,无论是高风险还是低风险测评环境,未经监考的成绩通常略高于经过监考的成绩。这个现象反映了作弊带来的成绩增强效应,但效应大小因任务性质而异。研究还表明,未经监考的测试环境可能降低考生的焦虑感,从而改善表现,这一因素有时也会掩盖作弊的负面影响。
基于此,有研究建议将监考资源集中于那些作弊风险明显高且作弊相对容易的任务,而对于复杂的、搜索难度大的认知能力测试,可以适当考虑灵活的监考策略。 在测评公平性分析中,测量不变性检验是研究监考效果的重要工具。它可以验证同一测评工具在不同监考条件下是否衡量相同的认知构念。部分研究发现,推理、处理速度和发散性思维任务均满足标量测量不变性,即可在被监考和不被监考的群体间直接比较平均成绩。唯短期记忆任务常因作弊现象导致标量不变性不能成立,意味着该任务在无监考状态下成绩可能被夸大,影响测评结果的解释和应用。 鉴于视频监考的技术限制,如未配合屏幕录制,某些作弊行为仍可能逃避检测,特别是利用虚拟助手和人工智能的大规模应用正逐渐改变作弊方式。
研究者建议,结合多模态监控技术,如屏幕录制、浏览行为分析和智能算法异常检测,能更全面保障测评质量。当然,这也带来更多的成本、隐私保护和伦理考量,需权衡利弊。 实证数据显示,在采用视频远程监考的低风险情境下,整体作弊比例较低,一般不足百分之五,且多发生在备忘型任务如短期记忆测评中。作弊手段多为拍照、书写纸质笔记等直接手段。由此可见,监考确实有效降低了明显作弊行为的发生。需要指出的是,监考往往还伴随着更高的被监视感,可能促使被测试者保持更高的注意力和专注度,这从另一方面提升了测评的有效性。
反之,自由选择不接受监考的被测者,有可能存在动机不足,从而导致部分任务表现较低。 在设计智能测评时,应合理考量任务性质与作弊风险的关系。对于难以通过网络搜索或笔记作弊的复杂推理和处理速度测试,可以酌情降低监考强度,以提高参与便利性和IT系统的可扩展性。对于记忆或知识类任务,应强化监考措施,采用严格的视频监管或结合智能作弊侦测系统,确保分数的真实性。此外,随着人工智能助手的广泛普及,未来监考策略需动态适应新型作弊形式,探索结合AI检测和本人身份核验的新型综合监管体系尤为重要。 综上所述,监考在在线智能测评中扮演着保障测试有效性和公正性的关键角色,但其作用因认知任务类别而异,不能一概而论。
低作弊风险的任务监考价值有限,高风险任务则需严格控制。未来,随着测评形式的多样化和技术手段的进步,监考方案也将更加灵活和智能化。学术界和测评机构需持续关注监考影响的动态变化,结合测量不变性等方法科学评估测评数据,推动线上智能测评迈向更高的标准和应用深度。通过合理的监考设计和实施,不仅有助于防范作弊,更能激发被测者的积极参与和真实水平的发挥,从而实现智能测评在各领域更广泛和有效的应用。 。