Scăderea continuă a prețului puterii de calcul — de două ordine de mărime pe deceniu — a alimentat enorm modelele de deep learning din 2010. Rețelele mai mari și mai multe date par să fi furnizat în mod fiabil scoruri din ce în ce mai mari la testele de referință comune — și au alimentat speranța că scalarea singură va duce inevitabil la AGI. Încă din 2019, François Chollet a introdus testul de referință ARC-AGI . pentru a măsura inteligența.
Examene precum MMLU sau HELM măsoară în principal cunoștințele memorate, specifice sarcinilor. Ceea ce lipsește este un semnal de inteligență fluidă - capacitatea de a înțelege și de a rezolva o problemă complet nouă ad-hoc. ARC-AGI-1 („Corpus de rezumate și raționament pentru inteligența artificială generală”) conține 1.000 de sarcini unice care nu pot fi „învățate”.
Fiecare puzzle este nou, necesită doar cunoștințe de bază de zi cu zi (obiecte, numărare, geometrie simplă) și este mult sub nivelul de grădiniță - pentru oameni. Chiar și după o creștere de 50.000 de ori față de LLM-urile de bază, rata de succes a rămas puțin peste 0%. Pe lângă clasament , puteți încerca și provocările interesante direct pe site-ul oficial.:

Abia în 2024 o nouă abordare a depășit impasul: Adaptarea în Timp de Testare (TTA) permite modelelor să își adapteze ponderile sau un program de sinteză în timpul execuției. Astfel, O3, reglat intern, al OpenAI a demonstrat pentru prima dată performanță la nivel uman pe ARC1. De atunci, fiecare metodă ARC de succes a folosit o formă de TTA - de la căutarea programului la antrenamentul din mers.
Performanța umană a saturat rapid ARC1, așa că a urmat ARC-AGI-2 . Acesta păstrează formatul I/O, dar crește complexitatea compozițională a fiecărei sarcini. 400 de subiecți din San Diego au rezolvat toate sarcinile; zece indivizi selectați aleatoriu cu vot majoritar ar obține 100%. LLM-urile fără TTA rămân la 0-2%, dar sistemele TTA încă au performanțe mult sub cele umane.
ARC-AGI-3 merge cu un pas mai departe: modelul este plasat în medii interactive, necunoscute, și trebuie să își descopere singur ținta, controalele și fizica - toate acestea făcând acest lucru într-un mod eficient din punct de vedere al timpului și al acțiunii. O previzualizare pentru dezvoltatori este programată pentru lansare în iulie 2025. Pentru a stăpâni generalizarea compozițională, sistemele viitoare trebuie să combine ambele tipuri. Cheia constă în euristicile rapide și aproximative de tip 1 pentru a stăpâni explozia combinatorială.
ARC nu servește ca un obiectiv final, ci mai degrabă ca o săgeată direcțională: Atâta timp cât oamenii pot proiecta cu ușurință sarcini la care chiar și cei mai buni LLM eșuează, AGI nu a fost atins. Progresele înregistrate în ARC2 - și în curând în ARC3 - vor arăta dacă arhitecturile hibride care combină învățarea profundă și căutarea de programe ating nivelul necesar de inteligență fluidă, eficientă din punct de vedere al datelor și al calculului.