ARC-AGI-benchmarken07
25

Det kontinuerlige fald i prisen på computerkraft – to størrelsesordener pr. årti – har givet næring til deep learning-modeller siden 2010. Større netværk plus flere data leverede tilsyneladende pålideligt stadigt højere scorer på almindelige benchmarks – og nærede håbet om, at skalering alene uundgåeligt ville føre til AGI. Allerede i 2019 introducerede François Chollet ARC-AGI- benchmarket. at måle intelligens.

Eksamener som MMLU eller HELM måler primært memoreret, opgavespecifik viden. Det, der mangler, er et signal om flydende intelligens - evnen til at forstå og løse et helt nyt problem ad hoc. ARC-AGI-1 ("Abstract and Reasoning Corpus for Artificial General Intelligence") indeholder 1.000 unikke opgaver, der ikke kan "læres".

Hver gåde er ny, kræver kun grundlæggende hverdagsviden (objekter, tælling, simpel geometri) og er langt under børnehaveniveau – for mennesker. Selv efter et 50.000-foldigt skaleringsspring fra grundlæggende LLM'er forblev succesraten lige over 0%. Udover ranglisten kan du også prøve de interessante udfordringer direkte på den officielle hjemmeside.:

Det var først i 2024, at en ny tilgang brød dødvandet: Test-Time Adaptation (TTA) giver modeller mulighed for at tilpasse deres vægte eller et synteseprogram under kørsel. OpenAIs internt finjusterede O3 demonstrerede således ydeevne på menneskeligt niveau på ARC1 for første gang. Siden da har alle succesfulde ARC-metoder brugt en eller anden form for TTA - fra programsøgning til træning undervejs.

Menneskelig ydeevne mættede hurtigt ARC1, så ARC-AGI-2 fulgte efter. Den bevarer I/O-formatet, men øger den kompositionelle kompleksitet af hver opgave. 400 forsøgspersoner i San Diego løste alle opgaver; ti tilfældigt udvalgte individer med et flertal af stemmer ville opnå 100%. LLM'er uden TTA forbliver på 0-2%, men TTA-systemer præsterer stadig langt under mennesker.

ARC-AGI-3 går et skridt videre: Modellen kastes ud i interaktive, ukendte miljøer og skal selv opdage sit mål, sine kontroller og sin fysik – alt imens det sker på en tids- og handlingseffektiv måde. En udvikler-preview er planlagt til udgivelse i juli 2025. For at mestre kompositionel generalisering skal fremtidige systemer kombinere begge typer. Nøglen ligger i hurtige, omtrentlige Type 1-heuristikker for at tæmme den kombinatoriske eksplosion.

ARC tjener ikke som et slutmål, men snarere som en retningspil: Så længe mennesker nemt kan designe opgaver, som selv de bedste LLM'er fejler i, er AGI ikke opnået. Fremskridt med ARC2 – og snart ARC3 – vil vise, om hybridarkitekturer, der kombinerer deep learning og programsøgning, opnår det nødvendige niveau af flydende, data- og beregningseffektiv intelligens.

Tilbage

ARC-AGI-benchmarken0725

ARC-AGI-benchmarken07
25