ARC-AGI 基准07
25

自 2010 年以来，计算能力价格持续下降（每十年下降两个数量级），极大地推动了深度学习模型的发展。更大的网络加上更多的数据，似乎能够可靠地在常见基准测试中取得更高的分数，并燃起了人们的希望：仅凭规模扩张就能最终实现通用人工智能 (AGI)。早在 2019 年，弗朗索瓦·肖莱 (François Chollet) 就提出了ARC-AGI基准。来测量智力。

MMLU或HELM等考试主要考察记忆的、特定任务的知识。缺少的是流体智力的信号——即理解和解决一个全新问题的能力。ARC -AGI-1 （“通用人工智能抽象与推理语料库”）包含 1000 个无法“学习”的独特任务。

每个谜题都是全新的，只需要一些基本的日常知识（物体、计数、简单的几何），而且远低于幼儿园水平——对人类来说。即使从基础的法学硕士（LLM）课程扩展了 5 万倍，命中率仍然略高于 0%。除了排行榜，您还可以直接在官方网站上尝试这些有趣的挑战。:

直到2024年，一种新的方法才打破了僵局：测试时自适应（TTA）允许模型在运行时调整其权重或合成程序。OpenAI内部微调的O3因此首次在ARC1上展现了人类水平的性能。从那时起，每种成功的ARC方法都使用了某种形式的TTA——从程序搜索到实时训练。

人类的表现很快就在 ARC1 上达到饱和，因此ARC-AGI-2也随之而来。它保留了 I/O 格式，但增加了每个任务的组合复杂度。圣地亚哥的 400 名受试者完成了所有任务；随机选择的 10 名获得多数票的受试者将达到 100% 的准确率。没有 TTA 的 LLM 准确率仍然保持在 0-2%，但 TTA 系统的表现仍然远低于人类。

ARC-AGI-3更进一步：模型被置于交互式的未知环境中，必须自行发现目标、控制和物理特性——所有这些都需要以高效时间和行动的方式完成。开发者预览版计划于 2025 年 7 月发布。为了掌握组合泛化能力，未来的系统必须将两种类型结合起来。关键在于快速、近似的 1 型启发式方法，以控制组合泛化爆炸。

ARC 并非最终目标，而是一个方向箭头：只要人类能够轻松设计出连最优秀的法学硕士（LLM）都无法完成的任务，通用人工智能（AGI）就尚未实现。ARC2 以及即将推出的 ARC3 的进展将表明，结合深度学习和程序搜索的混合架构能否实现流畅、数据和计算高效的智能。

背部

ARC-AGI 基准0725

ARC-AGI 基准07
25