类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

2026年01月10号 21点43分05秒

用英文取代Python:我再一次刷新ARC-AGI最高分的新纪元

加密货币的机构采用

钱财 qian.cx

探索在人工智能领域中,如何通过自然语言取代传统编程语言,实现ARC-AGI挑战的突破,揭示多智能体协作与进化测试计算架构带来的效率提升和智能推理革新。本文聚焦于ARC-AGI测评中语言模型的局限与突破,深度解析最新技术路线和未来通向真正通用人工智能的关键思考。

在人工智能(AI)研究领域,ARC-AGI测试始终被视为衡量机器是否具备真正抽象推理与泛化能力的关键benchmark。它以类似IQ测试的形式,通过呈现输入与输出网格的抽象模式,考察模型在未见过的数据上识别和推理模式的能力。尽管大型语言模型(LLM)在数学、编程甚至科学竞赛中表现卓越,但它们在面对ARC-AGI这一类需要跨越训练分布进行推理的任务时,依然表现出惊人的不足。这是促使研究者不断寻求突破的原因。近日,人工智能研究者Jeremy Berman带来了一个令人瞩目的突破,他的团队在ARC-AGI挑战中不再依赖Python代码,而是巧妙地转向使用英语自然语言指令,取得了迄今为止最高的测试分数,且显著提高了计算效率。这一创新方法不仅刷新了ARC-AGI的现有最高成绩,也为解决AI推理中的"死区"问题提供了宝贵思路。

ARC-AGI的本质考察机器的抽象模式识别能力。不同于普通的分类任务或文本生成,ARC-AGI要求模型像人类一样理解输入输出之间深层的逻辑关系和规律,并应用于新的未见任务。虽然人类凭借类比、演绎推理可以轻松解决此类任务,但大多数LLM在这方面依然遭遇瓶颈,因为它们主要是通过大量文本语料训练,侧重于语言模式统计,而非真正的逻辑推理。Jeremy Berman的最新成果基于一种被称为"进化测试时计算"(Evolutionary Test-Time Compute)的架构,这是一个多智能体合作的动态系统。该系统核心思想是用语言模型生成一系列自然语言形式的指令,描述如何转化输入网格为对应的输出结果。这些指令相当于"解题方案",随后由多个子智能体在训练示例上进行验证和评分,根据其准确率决定该指令的优劣。

优秀的指令会被用作"种子",进行下一代进化,融合打分较高指令的优势,以此不断迭代。这种进化机制模仿了生物进化中"遴选"和"突变"的过程,极大增强了模型在解决复杂、多步骤逻辑任务时的适应性和多样性。十个月前,Jeremy曾使用同样的进化架构,但生成的是Python函数。此方法的优势是代码结构明确且可验证,方便评分和优化。然而,随着ARC-AGI版本的升级,任务的难度加大,逻辑转换变得愈发复杂且难以用简洁代码表达,导致Python反而成了瓶颈,制约了探索空间。于是他大胆地选择"英语"作为指令的表达语言。

为何英语指令能胜过Python代码?这主要因为自然语言表达更具灵活性和模糊性,能包含更多上下文和多层次的逻辑指示,而不是固定的语法结构限制。这使得模型得以创造出多样化的解法思路,实现细粒度的调整。为确保生成指令的效果,Jeremy设计了分阶段的修正策略。首先是个体修正阶段,模型根据单条指令在训练例中应用的结果与标准答案之间的差异,结合ASCII差异展示反馈,针对性地改进该条指令。第二阶段是集中修正,将多条表现良好的指令合并成一个上下文,模型尝试综合这些碎片信息,创新生成新的指令。这种方法既兼顾了局部深度优化,也兼顾了多样化思路的融合。

值得注意的是,相比普遍预期,多条指令的集中修正并没有每次都明显优于个体修正,原因在于语言模型在处理大量上下文时会遇到token限制,且过多信息容易导致"走神",影响推理质量。通过这些机制,Jeremy的方案实现了对每个任务尝试高达40个候选指令,既保证探索的广度,也兼顾精度提升。这种巧妙的计算分配大幅提升了整体效率与精准度。最终,这一自然语言进化测试时计算架构在ARC-AGI v1上达到了79.6%的得分,远超先前最高的75.7%,且每任务花费仅8.42美元,效率提升近25倍。此外,最新版本2(ARC-AGI v2)也突破了29.4%的新高,领先之前的25%。这一成绩的取得,向世人展示了自然语言本身蕴含的强大表达能力,同时证明了进化算法和多智能体协作在复杂推理任务中的巨大潜力。

Jeremy在总结中提出,当前大型语言模型的核心障碍在于"死推理区"(Dead Reasoning Zones)的存在。这些区域相当于模型权重中的逻辑失效点,当遇到未训练过的复杂推理问题时,模型会产生不合逻辑甚至谬误的结论。而人类的推理能力则十分连贯且可泛化,不论熟悉哪个领域,都能保持严密的逻辑一致性。现有神经网络被认为是受限于所训练的数据分布,无法超越这个范围进行根本推理能力的提升。Jeremy认为这是片面的,关键在于现有模型的推理电路与不同领域的知识电路相耦合,导致推理能力被碎片化,缺失统一的"逻辑核心"。因此,实现真正的通用人工智能(AGI)需要让模型掌握纯粹的、跨领域的推理技能,将逻辑演绎与一致性训练纳入模型基础能力中。

值得一提的是,强化学习(RL)的加入为这一挑战提供了新的方向。相较于仅依据语言模式预测下一词的传统训练思路,RL通过奖励机制,促使模型产出更符合逻辑和事实的输出,让模型在推理链条上更具一致性和准确率。Jeremy的研究从技术细节到理论高度,均指出了未来AGI发展的核心路径:将推理内化为模型训练分布的一部分,而非域外附加技能。基于自然语言的进化测试时计算架构,不仅提升了ARC-AGI挑战的水平,更为AI如何实现跨域、跨任务的高效推理揭示了新思路。目前该项目源码已公开,学界与工业界均可借鉴与拓展。结合多智能体系统的协作优势,未来有望将此思路推广至更多复杂认知任务,促进AI智能化的质的飞跃。

总的来说,Jeremy Berman的最新突破不仅是ARC-AGI排行榜上的胜利,也象征着迈向通用人工智能的里程碑。用最贴近日常人类沟通方式的自然语言替代刻板的编程代码,为AI赋能了更灵活、可演化的思考模式。随着模型推理能力和进化机制的深化,我们有理由期待不久的未来,人工智能能够像人类一样灵活且可靠地理解、推理与创造,真正跨越训练数据的限制,成为智力的全能助手。。