近年来数据驱动的科学研究和公共政策制定日益依赖于政府提供的大规模卫生数据集。这些数据成为心理学、社会学、公共卫生和医学等多个领域研究的基础。遗憾的是,2025年春季,一项发表在医学权威期刊《柳叶刀》上的新研究揭露了美国政府超过一百个关键卫生数据集在未公开说明的情况下完成了一系列文本修改的事实,引发了舆论和学界的广泛担忧。 研究人员通过下载美国疾病控制与预防中心(CDC)、卫生与公共服务部(HHS)、退伍军人事务部(VA)官网上的数据目录,筛选出2025年1月20日至3月25日期间显示有修改时间的232个数据文件。经过对比历史版本,研究团队发现近一半的数据文件均存在潜在实质性文字变更,而这些变更往往未在官方更改日志中记录,也未得到任何公开通告。 具体来看,最引人关注的变化之一是“Gender”(性别)一词在106个数据集中被统一替换为“Sex”(生物性别)。
此外,还有部分文件将“社会决定因素”(social determinants of health)更改为“非医疗因素”(non-medical factors),以及将“社会经济地位”(socio-economic status)调整为“社会经济特征”(socio-economic characteristics)。更为细微但意义重大的变动还有将“gender diverse”(性别多样)转为“include men and women”(包括男性和女性)。值得注意的是,这些修改中绝大多数未被官方日志提及,极大地降低了数据的透明度和可信度。 这种现象并非孤例。退伍军人事务部一份追踪2021财政年度退伍军人医疗服务的数据集,在多年未修改后,2025年3月5日将数据列标题由“Gender”改成“Sex”,网页上的修改日期显示了更新,但底部变更日志仍称“尚未归档任何变更”,反映出信息披露上的脱节和管理上的混乱。 这些数据集涵盖了极为广泛且重要的健康信息,包括吸烟、运动、饮食习惯与慢性病状况的年度调查数据(行为风险因素监测系统),心脏病和中风死亡率数据,以及退伍军人心理健康相关统计等等。
数以千万计的学术研究和政策制定均仰赖此类数据的稳定性和准确性。词汇上的细微变化不仅会对研究产生连锁效应,更可能导致跨时段数据比对失去基准,影响相关结论的可靠性和可重复性。 语言的细节并非无关紧要。性别(gender)作为一种社会文化身份,与生物学意义上的性别(sex)存在显著差异。许多跨性别者和非二元性别者在调查中会选择与出生时记录的生物性别不同的性别选项。若政府机构随意将“gender”替换为“sex”,却不明确是否更改了调查问卷的实际内容或编码,分析人员将无法准确判断数据波动是源于人口结构的真实变化,还是源自词汇调整或数据重新编码。
这种不明确性将严重影响公共卫生资源的合理分配以及医学指南的科学制定。 调查报告还透露,这波大规模的文字调整与2025年初白宫发布的一项行政指令时间点高度契合。该指令要求各联邦机构删除被视为传播“性别意识形态”的相关内容,使得外界推测此次修改可能带有一定的政治动机。尽管没有联邦办公室公开确认这一点,但“gender”词汇被集中更换的事实及其发生的时间表使得这一推测具有一定合理性。 这种缺乏公开透明的操作违反了2019年实施的《开放政府数据法》(Open Government Data Act),该法案要求政府机构对数据变更进行全面记录和公开披露,以确保公共数据的完整性和可核查性。此次事件暴露出联邦机构在数据管理和信息公开方面存在显著漏洞,尤其是版本控制和变更日志维护的不足极大地削弱了数据用户的信任感。
此次研究采取了创新方法,利用互联网档案馆的Wayback Machine等工具,对比了数据集的历史版本和当前版本的文本差异,从而发现其间的暗中修改。尽管研究团队未检验数字内容是否被更改,但文本层面的不透明调整已经足以造成不良影响。同时,由于存档资源普遍缺乏历史更早版本,无法追溯此类操作是否早有先例。评估变更的实质性带有一定主观色彩,这在一定程度上限制了研究的全面性。 针对调查结果,研究发起人建议学界和相关机构采取多项对策以维护公共数据的可靠性。独立的第三方机构和研究团队应主动建立数据集的本地镜像,并定期与官方存档版本进行比对,及时发现未经报告的变更。
同时,可以依托国际科学资源库如欧洲PubMed Central进行数据备份,减少对单一政府数据库的依赖。最根本的是,联邦政府部门必须提升数据管理文化,实行透明版本控制,确保每一次更改的时间、内容与原因公开明示,供公众和科学界监督。 此次美国政府卫生数据集变更事件不仅敲响了数据透明度的警钟,也提醒全球范围内依赖政府公共数据的研究和政策制定者,必须更加重视数据管理的规范与公开。数据质量和开放透明是科学研究的基石,任何障碍都可能带来难以估量的负面后果。只有保障数据的真实、完整和可追踪,方能为公共健康事业及相关政策提供坚实基础,推动社会进步和人类福祉。 随着社会对性别议题和公共卫生敏感性的持续关注,如何平衡政治考量与科学原则成为摆在联邦政府和全社会面前的重大课题。
面对此类秘密数据修改事件,政策制定者、研究人员和公众均需携手推动更高标准的数据透明度与治理机制,确保未来的卫生数据既真实可信,亦能反映全体民众的多元身份与实际需求。 总结来看,美国卫生数据集未经披露的文字更改展现出对公共数据透明原则的挑战。对极其依赖这些数据进行研究和制定公共政策的群体来说,理解这些变更的含义以及潜在风险至关重要。提高透明度、加强版本追踪制度、强化独立审查,将是保证数据可信赖性的重要路径。只有如此,才能避免类似事件造成科学研究混乱、公共卫生误判和资源配置失误,确保数据真正成为公共健康科学与政策决策强有力的支撑。