De ARC-AGI-benchmark07
25

De voortdurende daling van de prijs van rekenkracht – twee ordes van grootte per decennium – heeft deep learning-modellen sinds 2010 enorm gestimuleerd. Grotere netwerken en meer data leken steeds hogere scores te leveren op gangbare benchmarks – en voedden de hoop dat schaalvergroting op zichzelf onvermijdelijk tot AGI zou leiden. Al in 2019 introduceerde François Chollet de ARC-AGI- benchmark. om intelligentie te meten.

Examens zoals de MMLU of HELM meten voornamelijk gememoriseerde, taakspecifieke kennis. Wat ontbreekt, is een signaal van vloeiende intelligentie – het vermogen om een volledig nieuw probleem ad hoc te begrijpen en op te lossen. ARC-AGI-1 ("Abstract and Reasoning Corpus for Artificial General Intelligence") bevat 1000 unieke taken die niet kunnen worden "geleerd".

Elke puzzel is nieuw, vereist slechts basiskennis van alledag (objecten, tellen, eenvoudige meetkunde) en is ver onder het niveau van de kleuterklas – voor mensen. Zelfs na een 50.000-voudige schaalvergroting ten opzichte van de basisopleidingen LLM, bleef de trefkans net boven de 0%. Naast het scorebord kun je de interessante uitdagingen ook direct op de officiële website uitproberen .:

Pas in 2024 doorbrak een nieuwe aanpak de impasse: Test-Time Adaptation (TTA) stelt modellen in staat hun gewichten of een syntheseprogramma tijdens runtime aan te passen. OpenAI's intern verfijnde O3 demonstreerde zo voor het eerst prestaties op menselijk niveau op ARC1. Sindsdien heeft elke succesvolle ARC-methode een vorm van TTA gebruikt – van programmazoekopdrachten tot on-the-fly training.

Menselijke prestaties overbelastten ARC1 snel, dus volgde ARC-AGI-2 . Deze behoudt het I/O-formaat, maar verhoogt de compositionele complexiteit van elke taak. 400 proefpersonen in San Diego losten alle taken op; tien willekeurig geselecteerde personen met een meerderheidsstem zouden 100% behalen. LLM's zonder TTA blijven op 0-2%, maar TTA-systemen presteren nog steeds ver onder die van mensen.

ARC-AGI-3 gaat nog een stap verder: het model wordt in interactieve, onbekende omgevingen gegooid en moet zelfstandig zijn doel, bedieningselementen en fysica ontdekken – en dat alles op een tijd- en actie-efficiënte manier. Een preview voor ontwikkelaars staat gepland voor juli 2025. Om compositionele generalisatie onder de knie te krijgen, moeten toekomstige systemen beide typen combineren. De sleutel ligt in snelle, benaderende Type 1-heuristiek om de combinatorische explosie te temmen.

ARC dient niet als einddoel, maar eerder als een richtinggevende pijl: zolang mensen gemakkelijk taken kunnen ontwerpen waar zelfs de beste LLM's in falen, is AGI nog niet bereikt. De voortgang van ARC2 – en binnenkort ARC3 – zal uitwijzen of hybride architecturen die deep learning en programmazoekmachines combineren, het vereiste niveau van vloeiende, data- en rekenefficiënte intelligentie bereiken.

Terug

De ARC-AGI-benchmark0725

De ARC-AGI-benchmark07
25