La baisse continue du prix de la puissance de calcul – deux ordres de grandeur par décennie – a considérablement stimulé les modèles d'apprentissage profond depuis 2010. Des réseaux plus vastes et un volume de données plus important ont permis d'obtenir des scores toujours plus élevés sur les benchmarks courants, et ont alimenté l'espoir que la seule mise à l'échelle mènerait inévitablement à l'IAG. Dès 2019, François Chollet a présenté le benchmark ARC-AGI . pour mesurer l'intelligence.
Les examens comme le MMLU ou le HELM évaluent principalement les connaissances mémorisées et spécifiques à une tâche. Ce qui manque, c'est un signe d'intelligence fluide : la capacité à comprendre et à résoudre un problème totalement nouveau ad hoc. L'ARC-AGI-1 (« Corpus abstrait et raisonné pour l'intelligence artificielle générale ») contient 1 000 tâches uniques qui ne peuvent pas être « appris ».
Chaque puzzle est nouveau, ne requiert que des connaissances de base (objets, calcul, géométrie simple) et est bien en deçà du niveau de la maternelle, pour les humains. Même après un changement d'échelle de 50 000 fois par rapport aux puzzles LLM de base, le taux de réussite est resté légèrement supérieur à 0 %. En plus du classement , vous pouvez également relever des défis passionnants directement sur le site officiel.:

Ce n'est qu'en 2024 qu'une nouvelle approche a permis de débloquer la situation : l'adaptation au temps de test (TTA), qui permet aux modèles d'adapter leurs pondérations ou un programme de synthèse à l'exécution. O3, optimisé en interne par OpenAI, a ainsi démontré pour la première fois des performances comparables à celles d'un humain sur ARC1. Depuis, toutes les méthodes ARC performantes ont utilisé une forme ou une autre de TTA, de la recherche de programme à l'apprentissage à la volée.
Les performances humaines ont rapidement saturé ARC1, et ARC-AGI-2 a suivi. Ce système conserve le format E/S, mais augmente la complexité de composition de chaque tâche. 400 sujets à San Diego ont résolu toutes les tâches ; dix personnes sélectionnées au hasard et par vote majoritaire ont obtenu 100 %. Les LLM sans TTA restent à 0-2 %, mais les systèmes TTA restent bien inférieurs aux humains.
ARC-AGI-3 va encore plus loin : le modèle est projeté dans des environnements interactifs et inconnus et doit découvrir sa cible, ses commandes et sa physique par lui-même, tout en optimisant le temps et l'action. Une version préliminaire destinée aux développeurs est prévue pour juillet 2025. Pour maîtriser la généralisation compositionnelle, les futurs systèmes devront combiner les deux types. La clé réside dans des heuristiques de type 1 rapides et approximatives pour maîtriser l'explosion combinatoire.
L'ARC ne constitue pas un objectif final, mais plutôt une flèche directionnelle : tant que les humains pourront concevoir facilement des tâches que même les meilleurs LLM ne maîtrisent pas, l'AGI ne sera pas atteinte. Les progrès d'ARC2, et bientôt d'ARC3, montreront si les architectures hybrides combinant apprentissage profond et recherche de programmes atteignent le niveau requis d'intelligence fluide et efficace en termes de données et de calcul.