ARC-AGI Benchmark

Continua pretii potentiae computandi decrementum — duo magnitudinis ordines per decennium — exempla discendi profundi ab anno 2010 ingenti modo auxit. Retia maiora una cum pluribus datis, ut videtur, certo modo altiores notas in communibus indicibus praebuisse — et spem incitaverunt fore ut scalatio sola ad AGI necessario duxisset. Iam anno 2019, Franciscus Chollet indicium ARC-AGI introduxit. ad intelligentiam metiendam.


Examinationes sicut MMLU vel HELM imprimis cognitionem memoratam, ad singula officia destinatam, metiuntur. Quod deest est signum intelligentiae fluidae — facultas intellegendi et solvendi problema omnino novum ad hoc. ARC-AGI-1 ("Abstract and Reasoning Corpus for Artificial General Intelligence") mille officia singularia continet quae "disci" non possunt.

Quaeque aenigma nova est, tantum fundamentalem cotidianam cognitionem requirit (res, numerationem, geometriam simplicem), et multo infra gradum kindergarten — pro hominibus — est. Etiam post saltum quinquaginta milium partium a simplicibus LLM, proportio successuum paulo supra nihil remansit. Praeter tabulam ducum , etiam provocationes interessantes directe in situ interretiali officiali experiri potes.:

Non ante annum 2024 nova methodus hanc difficultatem fregit: Adaptatio Temporis Probationis (TTA) permittit exemplaribus pondera sua vel programmata synthetica tempore executionis adaptare. Itaque O3, interne subtiliter adaptatum ab OpenAI, primum demonstravit efficaciam ad gradum humanum in ARC1. Ex eo tempore, omnis methodus ARC prospera aliquam formam TTA adhibuit — ab investigatione programmatis ad exercitationem in tempore reali.

Celeriter humanae actiones ARC1 perfecerunt, itaque ARC-AGI-2 secuta est. Formam I/O retinet, sed complexitatem compositionis cuiusque operis auget. Quadringenti subiecti San Diego omnia opera perfecerunt; decem individua temere selecta suffragiis maioris 100% consequerentur. LLMs sine TTA ad 0-2% manent, sed systemata TTA adhuc multo infra homines agunt.

ARC-AGI-3 ulterius progreditur: exemplar in ambitus interactivos et ignotos proicitur, et scopum, moderamina, et physicam per se detegere debet — dum hoc facit modo et tempore et actione efficiente. Praevisio a fabricatoribus facta mense Iulio anni 2025 divulganda est. Ut generalizationem compositionalem perficiant, systemata futura utrumque typum coniungere debent. Clavis in heuristicis Typi 1 celeribus et approximatis iacet, ut explosionem combinatorialem dometur.

ARC non ut finis finalis, sed potius ut sagitta directionalis fungitur: Quamdiu homines facile officia designare possunt in quibus etiam optimi LLM deficiunt, AGI nondum perfecta est. Progressus in ARC2 — et mox ARC3 — demonstrabit utrum architecturae hybridae, quae discendum profundum et investigationem programmatum coniungunt, gradum necessarium intelligentiae fluidae, datis et computatione efficacis attingunt.

Back