在人工智能高速发展的时代,如何衡量AI模型对未来事件的预测能力逐渐成为研究和应用领域的焦点。传统的AI评测多聚焦于模型在标准化考试或特定领域任务的表现,如数学题解答、医学诊断等,而在面对超越训练集、充满不确定性的未来事件时,AI模型的表现尚未被充分验证。为此,Presage Labs推出了PrediBench,这一创新性的实时预测市场竞赛平台,旨在让大型语言模型(LLMs)在Polymarket上直接下注,从而以实际盈利和统计指标来衡量其预测未来的能力。PrediBench不仅填补了AI预测能力测试的空白,更为探索AI在决策、风险管理等实际应用中的潜力提供了宝贵数据和方法论支持。PrediBench基于Polymarket这一真实的去中心化预测市场,涵盖从经济、政治、科技到流行文化等多领域的热点事件。模型每天选择最活跃、交易量最高的十大事件,每项投入1美元进行下注,下注金额可以为正(支持事件发生)或负(下注事件不发生),涵盖事件市场的全部可能性。
值得注意的是,预测结果的判定严格对应现实发生与否,且市场价格作为动态反映公共信息和情绪的基准,为AI模型提供了充足的比较和套利空间。为了实现这一评测框架,PrediBench整合了先进的代理架构和工具调用系统。每个模型运行在统一的smolagents框架下,具备网络搜索和网页访问两大工具,确保模型在下注前能够获取最新的新闻资讯和深度信息,避免片面或过时判断。模型需要输出结构化的投注决定文件,包括投注理由、估计事件概率、置信度和下注金额,保证了决策过程的透明和一致性。同时,竞赛采用多维度绩效指标综合评估AI表现。其中,平均收益反映模型的盈利能力,Brier分数衡量概率估计的准确性,而年化夏普比率则揭示收益波动下的风险调整表现。
通过这些指标,PrediBench可以全面比较不同模型的优势与短板,揭示哪些模型具备真正的预测价值。值得一提的是,PrediBench的设计天然避免了过拟合风险。因测试事件为未来实时产生,模型无法在训练时见到这些数据,使得性能评测更接近实际应用中的泛化能力。加之事件涵盖了多种主题和领域,模型的跨领域预测能力亦得到了充分挑战。此外,PrediBench结合了人工智能领域的前沿研究成果。模型不仅依赖极其丰富的知识库,还通过逻辑推理、因果关系分析和批判性思维等判断力构建未来事件概率。
这与历史上著名预测者如法国历史学家雅克·班维尔的预测思路异曲同工,他依靠深厚的历史知识和清晰的判断预见了二战前夕欧洲局势。从目前结果看,顶级模型如GPT-5、DeepSeek R1和Grok-4展现出了显著超越市场基准的盈利能力,年度收益和风险调整收益均表现优异,统计测试显示其优势在5%显著性水平上成立。这不仅证明大型语言模型的知识和判断力得到了质的提升,也表明其具备实际金融市场预测的应用潜力。具体案例中,Grok-4对2025年诺贝尔和平奖的预测尤为精彩。依托对专家机构PRIO的深度调研和实时新闻分析,模型发现苏丹紧急响应室的市场价格被严重低估,基于对其人道救援工作的认识和诺贝尔委员会历年偏好的洞察,果断加大投注,同时克制投注多名被市场高估的候选人,如特朗普和尤利娅·纳瓦利纳。此决策显示AI能够捕捉到市场尚未充分反映的信息不对称,并进行理性套利,未来实现超额收益。
PrediBench还揭示了研究深度对模型表现的重要影响。拥有更多搜索和网页访问次数的模型,通常表现出更高的平均收益,说明多源验证和信息综合有助于提升判断的准确度。Sonar Deep Research模型在此表现尤为突出,展示了以广泛而深入的网络调研支持推理的巨大优势。展望未来,PrediBench团队计划持续扩展测试范围与模型能力,推动更智能的AI代理在复杂、动态环境中做出更优证券、政治、社会事件的预测决策。此外,开源的代码和数据为全球研究社区提供了宝贵资源,促进集体创新和良性竞争。总结来说,PrediBench作为AI预测能力的风向标,不仅革新了评估方式,也推动了AI在未来事件预测、策略制定和风险管理中的实际应用。
凭借其基于真实市场数据、高频率动态测评和多维度性能指标的设计,这一平台吸引了众多领先AI模型参与,并逐步揭示出AI预测未来的超人潜力。未来,随着技术进步和数据积累,预计AI将在更多复杂场景中展现卓越的前瞻性价值,引领智能决策新时代。 。