人工智能领域正经历前所未有的飞跃,尤其是在程序合成与符号推理方面。尽管深度学习模型在众多任务上取得了显著成果,但面向通用人工智能的核心能力评测 - - 抽象与推理语料库(ARC-AGI)依然是人工智能尚未攻克的堡垒。ARC-AGI旨在考察机器对新颖、难以凭借记忆解决的问题的适应能力,特别是在抽象推理及符号理解方面。最新一代的ARC-AGI-2竞赛更是提出了更高的挑战门槛。传统前沿模型在这项竞赛中的表现远未达到人类水平,迫切需要创新的解决方案。本文将带您深入探讨由Eric Pang提出的高效进化程序合成系统,该系统突破了ARC-AGI-1的效率限制,在ARC-AGI-2赛场上表现优异,成为当前性能成本最优的技术代表。
ARC-AGI基准测试区别于传统任务,其核心在于任务设计的多样性和复杂性。每一道任务都由输入输出的色彩网格构成,隐藏着尚未明文描述的规则,人工智能需要从有限的训练示例中推断规则,并正确应用于测试输入。与依赖大规模数据训练和模式匹配的模型不同,ARC-AGI更侧重于机器的抽象推理能力和组合逻辑处理。首代ARC-AGI已对业界产生深远影响,评测的严苛和多样性使得目前最强模型的最高成绩多停留在16%以内,而人类平均则可达到77%, 十个人组成的小组甚至接近满分。由此可见,ARC-AGI不仅是一项测试,更是人工智能理解和学习新知识能力的试金石。 回顾ARC-AGI-1时期,Jeremy Berman和Ryan Greenblat所开发的进化测试时计算(Evolutionary Test-time Compute)系统一度引领榜单。
该方法依赖LLM(大语言模型)生成大量Python候选程序,通过反复演化和测试筛选出高效解法。这种试错式的策略虽然提升了任务解答率,但效率低下,每个任务需要上百甚至上千次的程序调用,且未能实现跨任务知识迁移,导致资源浪费。此外,该方案把每道任务视为孤立个体,没有利用已学会的规则组合来解决新问题,这与人类的学习方式有显著差异,不利于应对ARC-AGI-2中要求更强组合推理能力的新挑战。 相较之下,DreamCoder方案则是一种神经符号程序合成器,通过"醒-睡"算法交替执行程序生成和知识库扩展。其利用基于类型理论的领域专用语言(DSL),通过抽象和重构程序积累复杂函数库,形成可迁移的知识体系。这种迭代方式有望提升跨任务学习效果。
然而,DreamCoder的弱点在于所用DSL限制了生成程序的多样性和通用性,且过度依赖人工作品,违背了当代追求机器自学习的趋势。此外,DSL的设计中隐含了人工智能的先验知识,这使评估模型是否真正"理解"问题变得模糊。 为弥补两者的缺陷,Eric Pang提出了创新性的高效进化程序合成方法,将强大的LLM能力与可扩展的程序库机制结合。他摒弃了限制性DSL,采用Python这类图灵完备的通用编程语言,使程序搜索空间大幅拓展。最关键的是,他设计了一个动态扩展的程序库系统,将每次利用LLM生成的最优程序纳入库中,并在后续任务提示中引入已有的最佳程序,迫使LLM在"已有知识"基础上进行改进,形成知识积累和迁移。系统通过计算两个准确率指标评估程序表现,分别是训练样例的整体正确率和单元格级别的细粒度匹配度,从而精准反映程序质量,以便挑选和提示最有效的程序。
在训练过程中,系统首先在ARC-AGI-2的训练集上以单轮单程序生成启动,渐渐构建包含数百个程序的知识库。之后在测试集中多轮生成更多程序,不断扩充与优化库内容。整个过程展现出渐进式学习和知识复用优势。值得关注的是,尽管每个任务只需少量(约10次)调用LLM,系统在ARC-AGI-1中的准确率高达77.1%,远超当时竞品,而在更具挑战性的ARC-AGI-2中也取得26%的领先成绩。相较Jeremy Berman及Greenblat高调用量的解决方案,Pang的系统以极低的资源消耗完成更优表现,在效率-准确率曲线(Pareto Frontier)上实现了突破。 为了进一步优化程序选择过程,Pang尝试引入基于神经网络的Latent Program Network(LPN)。
该模型通过编码任务与程序为潜在向量,利用梯度优化寻找最适合的程序潜变量,并以余弦相似度指导程序库的筛选。这种方法有望捕捉传统准确率计算无法辨别的细微语义差异,从而提升合成效果。虽然初步结果显示其潜力巨大,但实际运行时间超出当前竞赛的计算限制,仍需后续改进。 这一创新工作还引发了与谷歌DeepMind AlphaEvolve项目的对比。两者均强调基于LLM的程序进化与库扩展,体现了当今自动程序合成领域的研究趋势。AlphaEvolve通过标记程序组件进行局部进化,并且使用动态提示和集成多模型策略,有望进一步提升多任务适应与生成质量,提供了未来优化高效进化程序合成的有益借鉴。
该方法在提高ARC-AGI系列挑战中人工智能系统的理解决策效率和准确度方面开辟了新路径,并打破了性能与计算成本的传统制约。它不仅展示了结合神经符号方法与现代大语言模型的魅力,还呼应了机器自学习和知识迁移的核心理念。未来,随着模型能力持续提升以及算力资源优化,类似的高效进化程序合成框架有望广泛应用于更复杂的抽象推理任务及实际软件自动生成领域。 综观AI发展历程,突破效率瓶颈、实现跨任务知识迁移是通向通用人工智能的重要里程碑。Eric Pang的高效进化程序合成系统正是基于这一理念,通过无监督构建和迭代优化程序库,利用LLM强大的多样化生成能力,在ARC-AGI-2挑战中取得前所未有的效果。与此同时,其开源的代码库也为学术界和产业界研究者提供了宝贵的平台,可推动更多创新成果的诞生。
未来,结合更精细的神经引导搜索、动态提示策略以及多模态信息融合,智能程序合成技术将更加强大和灵活。高效进化程序合成不仅是学术探索的前沿,更是推动智能自动化与软件工程革命的关键技术支柱。随着技术的不断成熟,我们有望看到人工智能在理解复杂系统、解决抽象难题和自主创造软件程序方面展现出前所未有的能力。 。