ARC-AGI 基准

自 2010 年以来,计算能力价格持续下降(每十年下降两个数量级),极大地推动了深度学习模型的发展。更大的网络加上更多的数据,似乎能够可靠地在常见基准测试中取得更高的分数,并燃起了人们的希望:仅凭规模扩张就能最终实现通用人工智能 (AGI)。早在 2019 年,弗朗索瓦·肖莱 (François Chollet) 就提出了ARC-AGI基准。 来测量智力。


MMLUHELM等考试主要考察记忆的、特定任务的知识。缺少的是流体智力的信号——即理解和解决一个全新问题的能力。ARC -AGI-1 (“通用人工智能抽象与推理语料库”)包含 1000 个无法“学习”的独特任务。

每个谜题都是全新的,只需要一些基本的日常知识(物体、计数、简单的几何),而且远低于幼儿园水平——对人类来说。即使从基础的法学硕士(LLM)课程扩展了 5 万倍,命中率仍然略高于 0%。除了排行榜,您还可以直接在官方网站上尝试这些有趣的挑战。:

直到2024年,一种新的方法才打破了僵局:测试时自适应(TTA)允许模型在运行时调整其权重或合成程序。OpenAI内部微调的O3因此首次在ARC1上展现了人类水平的性能。从那时起,每种成功的ARC方法都使用了某种形式的TTA——从程序搜索到实时训练。

人类的表现很快就在 ARC1 上达到饱和,因此ARC-AGI-2也随之而来。它保留了 I/O 格式,但增加了每个任务的组合复杂度。圣地亚哥的 400 名受试者完成了所有任务;随机选择的 10 名获得多数票的受试者将达到 100% 的准确率。没有 TTA 的 LLM 准确率仍然保持在 0-2%,但 TTA 系统的表现仍然远低于人类。

ARC-AGI-3更进一步:模型被置于交互式的未知环境中,必须自行发现目标、控制和物理特性——所有这些都需要以高效时间和行动的方式完成。开发者预览版计划于 2025 年 7 月发布。为了掌握组合泛化能力,未来的系统必须将两种类型结合起来。关键在于快速、近似的 1 型启发式方法,以控制组合泛化爆炸。

ARC 并非最终目标,而是一个方向箭头:只要人类能够轻松设计出连最优秀的法学硕士(LLM)都无法完成的任务,通用人工智能(AGI)就尚未实现。ARC2 以及即将推出的 ARC3 的进展将表明,结合深度学习和程序搜索的混合架构能否实现流畅、数据和计算高效的智能。

背部