随着人工智能在公共管理领域的广泛应用,阿姆斯特丹作为欧洲最进步的城市之一,尝试打造一个“公平”的福利欺诈检测模型,为如何在政策执行中兼顾效率与公平提供了重要案例。过去数年间,城市投入大量资源开发一种机器学习算法,旨在通过评估福利申请的“调查价值”来辅助判断哪些申请可能存在错误或欺诈行为。同时,阿姆斯特丹也将公平性置于首位,力图避免模型因数据偏见而对弱势群体产生不利影响。尽管目标明确且准备充分,阿姆斯特丹这一努力所面临的挑战和最终结果仍然值得深入探讨。 这款模型基于一种名为“可解释增强机”(Explainable Boosting Machine,简称EBM)的算法,该算法的设计理念是确保模型的决策过程透明且易于理解,避免传统AI算法黑箱操作的弊端。模型利用15项不同特征来预测申请是否值得进一步调查,这些特征包括申请人的行为和其他相关信息,但特意排除了性别、种族等直接的敏感特征,以规避法律禁止的歧视因素。
然而,模型设计者也意识到,即便是非敏感特征,也可能与某些群体产生关联,从而成为间接歧视的“代理变量”。 模型的训练依托于过去多年的调查数据,这带来了两方面的问题。首先,历史调查本身可能存在偏见,例如非荷兰籍申请人被标记为“值得调查”的概率更高。其次,训练样本中调查“值得选择”的比例远高于现实中的实际比例,导致训练数据与现实人口存在不匹配,这对模型的泛化能力构成挑战。更重要的是,过去的调查结果存在主观性,标签的准确性难以保证,给训练过程埋下隐患。 在公平性评估方面,阿姆斯特丹团队采用了多种学术界认可的公平指标,旨在衡量模型在不同人口群体中的表现是否一致。
其中包括统计平等(Statistical Parity)、错误发现率(False Discovery Rate)和假阳性率(False Positive Rate)等。不同指标体现了不同的价值取向和应用背景,例如统计平等强调不同群体被标记的比例应相同,错误发现率关注被标记群体中实际无误的人数比例,而假阳性率体现了在无错误群体中被错误选中的概率。阿姆斯特丹最终选择重点关注假阳性率的均衡,意在尽可能避免某些群体因错误调查而承担过重负担。 初版模型经过测试发现存在显著偏见,尤其是对非荷兰籍以及非西方背景的申请人产生了较高的不公平错误调查率。令人惊讶的是,传统人工调查流程中的偏差与模型偏差存在差异,因此简单地复制历史决策的模式只会将偏见延续甚至加剧。城市随后采取了“重加权”机制,通过调整训练数据中不同群体的权重,试图弥合这些差异。
调整后,模型在假阳性率上的差距显著缩小,表面上公平状况有所改善。基于此,模型进入试点阶段正式应用于实际审批流程。 然而,令人遗憾的是,试点运行阶段却出现了新的公平问题。模型对某些群体,尤其是女性和荷兰籍的错误标记率反而上升,与预期方向相反。模型整体性能也下降,调查次数增加但被认定为“值得调查”的比率并未提升,说明效率并未提升反而可能加重了对申请人的负担。问题背后的一个重要原因是试点中模型判定阈值过低,误判人数剧增。
更复杂的是,从某种角度看,为了追求某一公平指标的改善,会不可避免地引发其他公平维度的恶化,这些权衡使得构建真正“公平”的AI变得极为困难。 与此同时,阿姆斯特丹的经验也揭示了一个技术与伦理结合领域的重大难题:公平性的定义本身不是单一的,它包含了不同的测量方式和价值判断。选择关注假阳性率平衡,促使决策者在减少某些群体负担之间做出取舍,而这些选择可能导致其他群体遭遇新的不公。更为隐蔽的是,模型优化针对一个群体的不平等,可能会使另一个群体的不公问题变得更严重,如在该案例中父母身份的群体偏差加剧便为典型体现。 监管环境也在不断变化,2024年欧盟通过了《人工智能法案》,要求所有被定义为“高风险”的AI系统必须备案并接受严格审查。纽约市从2023年开始对使用AI招聘工具要求强制偏差审核,以防止算法歧视。
这一系列举措推动政府和企业重视算法透明和责任。然而,阿姆斯特丹的案例显示,即便在监管推动下,技术层面的公平实现仍然面临诸多困难,需要持续的投入和深入的跨学科合作。 数据隐私保护法规如欧盟的通用数据保护条例(GDPR)也限制了外部独立审计对原始数据的访问。在本次调查中,调查团队只能依赖由阿姆斯特丹市政府运行的分析结果汇总,虽有一定风险但也体现了新的合作方式,为公共部门算法的透明审计提供了可能的模板。如何在保护个人隐私的同时保障监督效能,成为未来发展的关键。 阿姆斯特丹的尝试引发了关于未来公共服务中“公平AI”能否真正实现的广泛讨论。
算法不仅是冷冰冰的技术工具,其背后是复杂的社会结构、历史偏见和政策权衡的综合体现。公平AI需要不断地定位具体场景和社会背景,灵活选择公平定义,审慎处理技术和伦理的冲突。与此同时,提高人工智能模型的透明度和可解释性,让受影响的人民能够理解决策过程,也是在维护信任和公正方面不可或缺的措施。 总结来看,阿姆斯特丹的欺诈检测模型开发经历是一面镜子,反映出数字治理中技术创新与社会公平之间的张力。尽管面临诸多挑战,其经验为全球范围内政府如何构建更加负责任和公平的AI系统提供了可贵借鉴。未来,政策制定者、技术专家和社会公众需要共同探索,更深入地理解人工智能的多维公平内涵,以推动真正实现具有包容性、公正性且有效的公共服务数字化转型。
。