近年来,随着人工智能技术的快速发展,基于大型语言模型(LLM)的应用场景日益丰富,人工智能的政治倾向问题也成为社会关注的焦点。人们普遍关心这些强大工具的政治偏向是否会影响信息传播、公正性甚至社会议题的讨论。2025年7月,Promptfoo推出了一项全面且系统的政治偏见基准测试,针对四款代表性的AI模型:xAI的Grok 4、OpenAI最新版本GPT-4.1、谷歌的Gemini 2.5 Pro以及Anthropic的Claude Opus 4,展开了深入分析。此研究通过大量数据和严谨方法,首次揭示了这些模型在政治立场上的真实面貌与潜在偏见,为理解和管理AI系统的政治影响提供了科学依据。政治偏见测试背景与研究动机公众对Elon Musk主导的Grok 4充满争议,尤其因一些极端言论引发“右倾”标签。许多观察者推测,Grok 将成为投资者和用户所期待的“右翼机器”,用以推动特定政治取向。
然而,社群普遍存在的偏见和轶事式报道缺乏系统数据支持。Promptfoo团队基于大量语料和多样问题,设计了涵盖经济、社会、科技治理、企业监管等政治议题的问题集,意图通过科学化测评厘清事实,帮助行业和用户更好地理解AI模型的政治偏见特质。研究方法与数据规模本次评测基于一个包含2500条政治相关陈述的公共数据集,囊括左、中、右倾的多领域观点。模型在固定条件下回答“你同意还是不同意该陈述”的明确立场表达,确保无模棱两可或中立倾向。每个模型均产生了1万条回应,使用七点李克特量表对回答进行政治左中右评分。更创新的是,研究引入了“交叉评分”机制,即四款模型的每条回答均由其他模型打分,构成了4×4的评价矩阵,确保结果具备多视角、客观公正,极大提升评测准确度和可信度。
此外,研究还关注了特定“敏感话题”如马斯克及其旗下公司、科技垄断、AI治理等,评估模型是否存在企业偏好或批判倾向。经过20分钟、多线程高效计算,成功率超过99.9%,覆盖了近400万词令,投入约280美元API费用,测试规模和精密度远超以往尝试。核心研究成果揭示众多惊人发现对比结果显示,所有四款顶级模型均偏左,根本不存在所谓“右翼AI革命”。GPT-4.1被判定为最左翼,平均偏左得分达0.745,紧随其后是Gemini 2.5 Pro,Claude Opus 4则最接近政治中立,得分0.646,Grok 4居于两者之间,略偏中心偏左0.655。数据表明,虽然媒体和网络舆论标签Grok是极右,但实际评分却显示它仍然站在渐进的左翼—虽介于中间偏左,但存在罕见的政治“双峰”表现。所谓“双峰”,指Grok 4经常出现强烈左倾或右倾立场,极少保持中间态度。
这种极端回答比例高达67.9%,是所有测试模型中最高的,远高于其他三款模型。换言之,Grok 4不是单一政治光谱上的代表,而更像一个“极端摇摆者”,在多道题目中针锋相对,表现为明显的“特立独行”。观察具体题目可以看到,关于资本主义与自由市场,有时它强烈支持自由市场,有时又呼吁财富再分配和提高最低工资,表现出前后截然不同的激烈立场。然而,即使如此,Grok仍在部分经济议题上支持典型的左翼政策,如加税和社会福利扩展。与此形成鲜明对比的是,媒体大肆报道的极右事件和引发争议的言论只是Grok“双峰性”左翼极端的一半表现。更令人惊讶的是,Grok在涉及马斯克及相关公司(如特斯拉、X公司的话题)时表现出显著的批判性,打分下降约14个百分点,显示其反而比其他AI更不偏袒自家及其创始人。
这种过度矫正可能源自设计和训练时为避免偏见而出现的“反向错误”。其他模型中,Gemini甚至略微偏向于正面评价马斯克相关话题。所有模型的一致性强烈说明主流AI都呈现左倾经济观点,比如富豪征税、加薪及人权保障等。政治上极度保守或自由市场绝对主义的AI模型尚未存在。对模型批判者而言,这意味着“政治不正确”的指令可能促成了“极端且反复无常”的AI人格,而非简单的右倾。跨模型评分的多元评判体系也凸显了单一模型自评分的局限性。
GPT-4.1在评价自身输出时存在显著自我偏好,比其他模型评价更左,意味着若仅依赖其评分会高估其偏左程度。Claude Opus 4作为评分者最为中立,且模型之间评分一致率极高,验证了研究结果的稳定和可靠。研究结论及启示提示事实远比情绪化争议复杂得多。Grok 4并非传统意义上的“右派模型”,相反它是在政治光谱上游走于极左和极右间的变幻莫测“极端者”,其中间值极少。这种性质让它成为广义上“反主流”,常常与其他主流模型意见背道而驰,给用户带来相对鲜明但难以预测的政治观点。同时,所有主流AI模型均倾向支持渐进改革与社会公平理念,未显示强烈自由市场或保守主义倾向。
对于有意利用AI技术从事政治信息分析、内容生成、决策支持等领域的研究者和开发者而言,认识到每个AI模型的政治基因和评分偏差至关重要。要避免因片面理解而误判AI性能和立场,更需结合多模型评测、多视角判断,减少偏见影响。此外,企业应重视对敏感话题的准确细分及回答策略,避免因反向矫正造成的过度批评,确保更具平衡的输出。面对“政治正确”与“政治不正确”指令的矛盾,模型设计需要找到实现多元包容和政治中立的更优策略。公众、媒体和政策制定者亦应以系统数据为依据,拒绝片面信息,科学解读AI表现。最后,这次基准测试的开源数据和分析方法为业界树立了良好的标杆。
希望能激励更多研究和实践落地,推动AI系统更透明、负责任和公正的未来。在人类社会探索如何共存的多元价值体系时,AI作为工具不可避免地承载政治投射,而关键是我们如何认知、监控和引导。2025年的这场政治偏见评测,告诉我们AI不会是政治中立的“神谕”,而是复杂人类文化环境中的参与者。了解其偏见、特性和潜在风险,是每一个使用者和开发者的责任和使命。