Der ARC-AGI Benchmark

Der kontinuierliche Preisverfall für Rechenleistung – zwei Größenordnungen pro Dekade – hat Deep-Learning-Modelle seit 2010 enorm befeuert. Größere Netze plus mehr Daten lieferten scheinbar verlässlich immer höhere Punktzahlen auf gängigen Benchmarks – und nährten die Hoffnung, allein Skalierung führe unweigerlich zu AGI. Bereits 2019 stellte François Chollet den Benchmark ARC-AGI zur Messung von Intelligenz vor.


Prüfungen wie MMLU oder HELM messen vor allem memorisiertes, aufgabenspezifisches Wissen. Was fehlt, ist ein Signal für fluide Intelligenz – also die Fähigkeit, ein völlig neues Problem ad hoc zu verstehen und zu lösen. ARC-AGI-1 („Abstract and Reasoning Corpus for Artificial General Intelligence“) enthält 1000 einzigartige Aufgaben, die sich nicht „anlernen“ lassen.

Jedes Rätsel ist neu, verlangt nur Alltagsgrundwissen (Objekte, Zählen, einfache Geometrie) und liegt weit unter Kindergarten-Niveau – für Menschen. Selbst nach einem 50000-fachen Skalierungssprung von Basis-LLMs blieb die Trefferrate allerdings knapp über 0%. Neben dem Leaderboard kann man auf der offiziellen Webseite die interessanten Aufgaben auch direkt ausprobieren:

Erst 2024 löste ein neuer Ansatz den Stillstand: Test-Time Adaptation (TTA) erlaubt Modellen, ihre Gewichte oder ein Synthese-Programm zur Laufzeit anzupassen. OpenAIs intern fein-getuntes O3 zeigte damit erstmals menschliche Leistung auf ARC1. Seitdem nutzt jede erfolgreiche ARC-Methode irgendeine Form von TTA – von Programmsuche bis On-the-Fly-Training.

Die menschliche Leistung saturierte ARC1 rasch, also folgte ARC-AGI-2. Es behält das I/O-Format bei, erhöht aber die kompositionelle Komplexität jeder Aufgabe. 400 Probanden in San Diego lösten sämtliche Aufgaben; zehn zufällig ausgewählte Personen mit Mehrheitsvotum kämen auf 100%. LLMs ohne TTA bleiben bei 0-2%, TTA-Systeme aber immer noch weit unter dem Menschen.

ARC-AGI-3 geht einen Schritt weiter: Das Modell wird in interaktive unbekannte Umgebungen geworfen, muss Ziel, Steuerung und Physik selbst entdecken – und das alles aktions- und zeit-effizient schaffen. Ein Developer-Preview soll bereits im Juli 2025 erscheinen. Um kompositionelle Generalisierung zu beherrschen, müssen künftige Systeme beide Typen verbinden. Der Schlüssel liegt schnellen, approximativen Type-1-Heuristiken, um die kombinatorische Explosion zu bändigen.

ARC wirkt nicht als Endziel, sondern als Richtungspfeil: Solange Menschen problemlos Aufgaben entwerfen können, an denen selbst die besten LLMs scheitern, ist AGI nicht erreicht. Fortschritte auf ARC2 – und bald ARC3 – werden zeigen, ob hybride Architekturen aus Deep Learning und Programmsuche das notwendige Maß an fluider, daten- und compute-effizienter Intelligenz erreichen.

Zurück