ARC-AGI-riktmärket

Den kontinuerliga nedgången i priset på datorkraft – två storleksordningar per decennium – har drivit djupinlärningsmodeller enormt sedan 2010. Större nätverk plus mer data levererade till synes tillförlitligt allt högre poäng på vanliga riktmärken – och gav näring åt hoppet om att skalning ensamt oundvikligen skulle leda till AGI. Redan 2019 introducerade François Chollet ARC-AGI- riktmärket. att mäta intelligens.


Prov som MMLU eller HELM mäter främst memorerad, uppgiftsspecifik kunskap. Det som saknas är en signal om flytande intelligens – förmågan att förstå och lösa ett helt nytt problem ad hoc. ARC-AGI-1 ("Abstract and Reasoning Corpus for Artificial General Intelligence") innehåller 1 000 unika uppgifter som inte kan "läras in".

Varje pussel är nytt, kräver endast grundläggande vardagskunskaper (objekt, räkning, enkel geometri) och är långt under förskolenivå – för människor. Även efter ett 50 000-faldigt skalningshopp från grundläggande LLM:er låg träffsäkerheten kvar strax över 0 %. Förutom topplistan kan du också prova de intressanta utmaningarna direkt på den officiella webbplatsen.:

Det var inte förrän 2024 som en ny metod bröt dödläget: Test-Time Adaptation (TTA) gör det möjligt för modeller att anpassa sina vikter eller ett syntesprogram vid körning. OpenAI:s internt finjusterade O3 demonstrerade därmed prestanda på mänsklig nivå på ARC1 för första gången. Sedan dess har varje framgångsrik ARC-metod använt någon form av TTA – från programsökning till träning under arbetets gång.

Mänsklig prestanda mättade snabbt ARC1, så ARC-AGI-2 följde. Den behåller I/O-formatet men ökar den kompositionella komplexiteten hos varje uppgift. 400 försökspersoner i San Diego löste alla uppgifter; tio slumpmässigt utvalda individer med majoritetsröstning skulle uppnå 100 %. Juridiska kandidater utan TTA ligger kvar på 0–2 %, men TTA-system presterar fortfarande långt sämre än människor.

ARC-AGI-3 går ett steg längre: Modellen kastas in i interaktiva, okända miljöer och måste upptäcka sitt mål, sina kontroller och sin fysik på egen hand – allt medan man gör det på ett tids- och handlingseffektivt sätt. En förhandsvisning för utvecklare är planerad att släppas i juli 2025. För att bemästra kompositionell generalisering måste framtida system kombinera båda typerna. Nyckeln ligger i snabba, approximativa typ 1-heuristik för att tämja den kombinatoriska explosionen.

ARC fungerar inte som ett slutmål, utan snarare som en riktningspil: Så länge människor enkelt kan utforma uppgifter som även de bästa juridikexperterna misslyckas med, har AGI inte uppnåtts. Framstegen med ARC2 – och snart ARC3 – kommer att visa om hybridarkitekturer som kombinerar djupinlärning och programsökning uppnår den nödvändiga nivån av flytande, data- och beräkningseffektiv intelligens.

Tillbaka