Il continuo calo del prezzo della potenza di calcolo – due ordini di grandezza ogni decennio – ha alimentato enormemente i modelli di deep learning dal 2010. Reti più grandi e una maggiore quantità di dati hanno prodotto in modo apparentemente affidabile punteggi sempre più elevati nei benchmark comuni, alimentando la speranza che la sola scalabilità avrebbe inevitabilmente portato all'AGI. Già nel 2019, François Chollet ha introdotto il benchmark ARC-AGI . per misurare l'intelligenza.
Esami come l'MMLU o l'HELM misurano principalmente conoscenze memorizzate e specifiche per un compito. Ciò che manca è un segnale di intelligenza fluida: la capacità di comprendere e risolvere un problema completamente nuovo ad hoc. ARC-AGI-1 ("Abstract and Reasoning Corpus for Artificial General Intelligence") contiene 1.000 compiti unici che non possono essere "appresi".
Ogni puzzle è nuovo, richiede solo conoscenze di base quotidiane (oggetti, conteggio, geometria elementare) ed è ben al di sotto del livello di difficoltà della scuola materna, per gli umani. Anche dopo un balzo in avanti di 50.000 volte rispetto ai LLM di base, il tasso di successo è rimasto appena sopra lo 0%. Oltre alla classifica , puoi anche provare le interessanti sfide direttamente sul sito web ufficiale.:

Solo nel 2024 un nuovo approccio ha sbloccato la situazione: il Test-Time Adaptation (TTA) consente ai modelli di adattare i propri pesi o un programma di sintesi in fase di esecuzione. L'O3, ottimizzato internamente da OpenAI, ha quindi dimostrato per la prima volta prestazioni di livello umano su ARC1. Da allora, ogni metodo ARC di successo ha utilizzato una qualche forma di TTA, dalla ricerca del programma all'addestramento al volo.
Le prestazioni umane hanno rapidamente saturato ARC1, seguito da ARC-AGI-2 . Mantiene il formato I/O, ma aumenta la complessità compositiva di ogni compito. 400 soggetti a San Diego hanno risolto tutti i compiti; dieci individui selezionati casualmente con il voto di maggioranza avrebbero raggiunto il 100%. I sistemi LLM senza TTA rimangono allo 0-2%, ma i sistemi TTA hanno prestazioni ancora ben al di sotto di quelle umane.
ARC-AGI-3 fa un ulteriore passo avanti: il modello viene lanciato in ambienti interattivi e sconosciuti e deve scoprire autonomamente il suo bersaglio, i suoi controlli e la sua fisica, il tutto in modo efficiente in termini di tempo e azione. Un'anteprima per sviluppatori è prevista per luglio 2025. Per padroneggiare la generalizzazione compositiva, i sistemi futuri dovranno combinare entrambi i tipi. La chiave sta nelle euristiche di Tipo 1 rapide e approssimative per domare l'esplosione combinatoria.
L'ARC non rappresenta un obiettivo finale, ma piuttosto una freccia direzionale: finché gli esseri umani potranno facilmente progettare compiti in cui persino i migliori LLM falliscono, l'AGI non sarà stata raggiunta. I progressi su ARC2 – e presto su ARC3 – mostreranno se le architetture ibride che combinano deep learning e ricerca di programmi raggiungono il livello necessario di intelligenza fluida, efficiente in termini di dati e di elaborazione.