{"id":4352,"date":"2025-07-07T12:03:25","date_gmt":"2025-07-07T10:03:25","guid":{"rendered":"https:\/\/vielhuber.de\/?p=4352"},"modified":"2025-07-07T12:16:20","modified_gmt":"2025-07-07T10:16:20","slug":"der-arc-agi-benchmark","status":"publish","type":"post","link":"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/","title":{"rendered":"Der ARC-AGI Benchmark"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Der kontinuierliche Preisverfall f\u00fcr Rechenleistung \u2013 zwei Gr\u00f6\u00dfenordnungen pro Dekade \u2013 hat Deep-Learning-Modelle seit 2010 enorm befeuert. Gr\u00f6\u00dfere Netze plus mehr Daten lieferten scheinbar verl\u00e4sslich immer h\u00f6here Punktzahlen auf g\u00e4ngigen Benchmarks \u2013 und n\u00e4hrten die Hoffnung, allein Skalierung f\u00fchre unweigerlich zu AGI. Bereits 2019 stellte Fran\u00e7ois Chollet den Benchmark <a href=\"https:\/\/arcprize.org\/arc-agi\" target=\"_blank\" rel=\"noreferrer noopener\">ARC-AGI<\/a><strong> <\/strong>zur Messung von Intelligenz vor.<\/p>\n\n\n\n<!--more-->\n\n\n\n<p class=\"wp-block-paragraph\">Pr\u00fcfungen wie <a href=\"https:\/\/huggingface.co\/datasets\/cais\/mmlu\" target=\"_blank\" rel=\"noreferrer noopener\">MMLU<\/a> oder <a href=\"https:\/\/github.com\/stanford-crfm\/helm\" target=\"_blank\" rel=\"noreferrer noopener\">HELM<\/a> messen vor allem memorisiertes, aufgabenspezifisches Wissen. Was fehlt, ist ein Signal f\u00fcr fluide Intelligenz \u2013 also die F\u00e4higkeit, ein v\u00f6llig neues Problem ad hoc zu verstehen und zu l\u00f6sen. <strong>ARC-AGI-1<\/strong> (\u201eAbstract and Reasoning Corpus for Artificial General Intelligence\u201c) enth\u00e4lt 1000 einzigartige Aufgaben, die sich nicht \u201eanlernen\u201c lassen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Jedes R\u00e4tsel ist neu, verlangt nur Alltagsgrundwissen (Objekte, Z\u00e4hlen, einfache Geometrie) und liegt weit unter Kindergarten-Niveau \u2013 f\u00fcr Menschen. Selbst nach einem 50000-fachen Skalierungssprung von Basis-LLMs blieb die Trefferrate allerdings knapp \u00fcber 0%. Neben dem <a href=\"https:\/\/arcprize.org\/leaderboard\" target=\"_blank\" rel=\"noreferrer noopener\">Leaderboard<\/a> kann man auf der offiziellen Webseite die interessanten Aufgaben auch direkt <a href=\"https:\/\/arcprize.org\/play\" target=\"_blank\" rel=\"noreferrer noopener\">ausprobieren<\/a>:<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1286\" height=\"611\" src=\"https:\/\/vielhuber.de\/wp-content\/uploads\/arc-agi-2-unsolved-1.png\" alt=\"\" class=\"wp-image-4366\"\/><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\">Erst 2024 l\u00f6ste ein neuer Ansatz den Stillstand: Test-Time Adaptation (TTA) erlaubt Modellen, ihre Gewichte oder ein Synthese-Programm zur Laufzeit anzupassen. OpenAIs intern fein-getuntes O3 zeigte damit erstmals menschliche Leistung auf ARC1. Seitdem nutzt jede erfolgreiche ARC-Methode irgendeine Form von TTA \u2013 von Programmsuche bis On-the-Fly-Training.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Die menschliche Leistung saturierte ARC1 rasch, also folgte <strong>ARC-AGI-2<\/strong>. Es beh\u00e4lt das I\/O-Format bei, erh\u00f6ht aber die kompositionelle Komplexit\u00e4t jeder Aufgabe. 400 Probanden in San Diego l\u00f6sten s\u00e4mtliche Aufgaben; zehn zuf\u00e4llig ausgew\u00e4hlte Personen mit Mehrheitsvotum k\u00e4men auf 100%. LLMs ohne TTA bleiben bei 0-2%, TTA-Systeme aber immer noch weit unter dem Menschen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>ARC-AGI-3<\/strong> geht einen Schritt weiter: Das Modell wird in interaktive unbekannte Umgebungen geworfen, muss Ziel, Steuerung und Physik selbst entdecken \u2013 und das alles aktions- und zeit-effizient schaffen. Ein Developer-Preview soll bereits im Juli 2025 erscheinen. Um kompositionelle Generalisierung zu beherrschen, m\u00fcssen k\u00fcnftige Systeme beide Typen verbinden. Der Schl\u00fcssel liegt schnellen, approximativen Type-1-Heuristiken, um die kombinatorische Explosion zu b\u00e4ndigen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">ARC wirkt nicht als Endziel, sondern als Richtungspfeil: Solange Menschen problemlos Aufgaben entwerfen k\u00f6nnen, an denen selbst die besten LLMs scheitern, ist AGI nicht erreicht. Fortschritte auf ARC2 \u2013 und bald ARC3 \u2013 werden zeigen, ob hybride Architekturen aus Deep Learning und Programmsuche das notwendige Ma\u00df an fluider, daten- und compute-effizienter Intelligenz erreichen.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Der kontinuierliche Preisverfall f\u00fcr Rechenleistung \u2013 zwei Gr\u00f6\u00dfenordnungen pro Dekade \u2013 hat Deep-Learning-Modelle seit 2010 enorm befeuert. Gr\u00f6\u00dfere Netze plus mehr Daten lieferten scheinbar verl\u00e4sslich immer h\u00f6here Punktzahlen auf g\u00e4ngigen Benchmarks \u2013 und n\u00e4hrten die Hoffnung, allein Skalierung f\u00fchre unweigerlich zu AGI. Bereits 2019 stellte Fran\u00e7ois Chollet den Benchmark ARC-AGI zur Messung von Intelligenz vor.<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"gtbabel_prevent_lngs":"","gtbabel_alt_lng":"","footnotes":""},"categories":[1],"tags":[],"class_list":["post-4352","post","type-post","status-publish","format-standard","category-blog"],"acf":[],"yoast_head":"<title>Der ARC-AGI Benchmark &#060; Vielhuber David<\/title>\n<meta name=\"description\" content=\"\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Der ARC-AGI Benchmark &#060; Vielhuber David\" \/>\n<meta property=\"og:description\" content=\"Der kontinuierliche Preisverfall f\u00fcr Rechenleistung \u2013 zwei Gr\u00f6\u00dfenordnungen pro Dekade \u2013 hat Deep-Learning-Modelle seit 2010 enorm befeuert. Gr\u00f6\u00dfere Netze\" \/>\n<meta property=\"og:url\" content=\"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/\" \/>\n<meta property=\"og:site_name\" content=\"Vielhuber David\" \/>\n<meta property=\"article:published_time\" content=\"2025-07-07T10:03:25+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2025-07-07T10:16:20+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/vielhuber.de\/wp-content\/uploads\/arc-agi-2-unsolved-1.png\" \/>\n\t<meta property=\"og:image:width\" content=\"1286\" \/>\n\t<meta property=\"og:image:height\" content=\"611\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"David\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@vielhuber\" \/>\n<meta name=\"twitter:site\" content=\"@vielhuber\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"David\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"3\u00a0Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/vielhuber.de\\\/blog\\\/der-arc-agi-benchmark\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/vielhuber.de\\\/blog\\\/der-arc-agi-benchmark\\\/\"},\"author\":{\"name\":\"David\",\"@id\":\"https:\\\/\\\/vielhuber.de\\\/#\\\/schema\\\/person\\\/64d4ff14713d413ea4d9b210d0c2c6ef\"},\"headline\":\"Der ARC-AGI Benchmark\",\"datePublished\":\"2025-07-07T10:03:25+00:00\",\"dateModified\":\"2025-07-07T10:16:20+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/vielhuber.de\\\/blog\\\/der-arc-agi-benchmark\\\/\"},\"wordCount\":385,\"publisher\":{\"@id\":\"https:\\\/\\\/vielhuber.de\\\/#\\\/schema\\\/person\\\/64d4ff14713d413ea4d9b210d0c2c6ef\"},\"image\":{\"@id\":\"https:\\\/\\\/vielhuber.de\\\/blog\\\/der-arc-agi-benchmark\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/vielhuber.de\\\/wp-content\\\/uploads\\\/arc-agi-2-unsolved-1.png\",\"articleSection\":[\"Blog\"],\"inLanguage\":\"de\"},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/vielhuber.de\\\/blog\\\/der-arc-agi-benchmark\\\/\",\"url\":\"https:\\\/\\\/vielhuber.de\\\/blog\\\/der-arc-agi-benchmark\\\/\",\"name\":\"Der ARC-AGI Benchmark &#060; Vielhuber David\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/vielhuber.de\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/vielhuber.de\\\/blog\\\/der-arc-agi-benchmark\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/vielhuber.de\\\/blog\\\/der-arc-agi-benchmark\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/vielhuber.de\\\/wp-content\\\/uploads\\\/arc-agi-2-unsolved-1.png\",\"datePublished\":\"2025-07-07T10:03:25+00:00\",\"dateModified\":\"2025-07-07T10:16:20+00:00\",\"description\":\"Der kontinuierliche Preisverfall f\u00fcr Rechenleistung \u2013 zwei Gr\u00f6\u00dfenordnungen pro Dekade \u2013 hat Deep-Learning-Modelle seit 2010 enorm befeuert. Gr\u00f6\u00dfere Netze\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/vielhuber.de\\\/blog\\\/der-arc-agi-benchmark\\\/#breadcrumb\"},\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/vielhuber.de\\\/blog\\\/der-arc-agi-benchmark\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/vielhuber.de\\\/blog\\\/der-arc-agi-benchmark\\\/#primaryimage\",\"url\":\"https:\\\/\\\/vielhuber.de\\\/wp-content\\\/uploads\\\/arc-agi-2-unsolved-1.png\",\"contentUrl\":\"https:\\\/\\\/vielhuber.de\\\/wp-content\\\/uploads\\\/arc-agi-2-unsolved-1.png\",\"width\":1286,\"height\":611},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/vielhuber.de\\\/blog\\\/der-arc-agi-benchmark\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/vielhuber.de\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Der ARC-AGI Benchmark\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/vielhuber.de\\\/#website\",\"url\":\"https:\\\/\\\/vielhuber.de\\\/\",\"name\":\"Vielhuber David\",\"description\":\"Full-Stack Developer\",\"publisher\":{\"@id\":\"https:\\\/\\\/vielhuber.de\\\/#\\\/schema\\\/person\\\/64d4ff14713d413ea4d9b210d0c2c6ef\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/vielhuber.de\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"de\"},{\"@type\":[\"Person\",\"Organization\"],\"@id\":\"https:\\\/\\\/vielhuber.de\\\/#\\\/schema\\\/person\\\/64d4ff14713d413ea4d9b210d0c2c6ef\",\"name\":\"David\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/vielhuber.de\\\/wp-content\\\/uploads\\\/about.jpg\",\"url\":\"https:\\\/\\\/vielhuber.de\\\/wp-content\\\/uploads\\\/about.jpg\",\"contentUrl\":\"https:\\\/\\\/vielhuber.de\\\/wp-content\\\/uploads\\\/about.jpg\",\"width\":700,\"height\":552,\"caption\":\"David\"},\"logo\":{\"@id\":\"https:\\\/\\\/vielhuber.de\\\/wp-content\\\/uploads\\\/about.jpg\"},\"sameAs\":[\"https:\\\/\\\/x.com\\\/vielhuber\"]}]}<\/script>","yoast_head_json":{"title":"Der ARC-AGI Benchmark &#060; Vielhuber David","description":"Der kontinuierliche Preisverfall f\u00fcr Rechenleistung \u2013 zwei Gr\u00f6\u00dfenordnungen pro Dekade \u2013 hat Deep-Learning-Modelle seit 2010 enorm befeuert. Gr?...","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/","og_locale":"de_DE","og_type":"article","og_title":"Der ARC-AGI Benchmark &#060; Vielhuber David","og_description":"Der kontinuierliche Preisverfall f\u00fcr Rechenleistung \u2013 zwei Gr\u00f6\u00dfenordnungen pro Dekade \u2013 hat Deep-Learning-Modelle seit 2010 enorm befeuert. Gr\u00f6\u00dfere Netze","og_url":"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/","og_site_name":"Vielhuber David","article_published_time":"2025-07-07T10:03:25+00:00","article_modified_time":"2025-07-07T10:16:20+00:00","og_image":[{"width":1286,"height":611,"url":"https:\/\/vielhuber.de\/wp-content\/uploads\/arc-agi-2-unsolved-1.png","type":"image\/png"}],"author":"David","twitter_card":"summary_large_image","twitter_creator":"@vielhuber","twitter_site":"@vielhuber","twitter_misc":{"Verfasst von":"David","Gesch\u00e4tzte Lesezeit":"3\u00a0Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/#article","isPartOf":{"@id":"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/"},"author":{"name":"David","@id":"https:\/\/vielhuber.de\/#\/schema\/person\/64d4ff14713d413ea4d9b210d0c2c6ef"},"headline":"Der ARC-AGI Benchmark","datePublished":"2025-07-07T10:03:25+00:00","dateModified":"2025-07-07T10:16:20+00:00","mainEntityOfPage":{"@id":"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/"},"wordCount":385,"publisher":{"@id":"https:\/\/vielhuber.de\/#\/schema\/person\/64d4ff14713d413ea4d9b210d0c2c6ef"},"image":{"@id":"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/#primaryimage"},"thumbnailUrl":"https:\/\/vielhuber.de\/wp-content\/uploads\/arc-agi-2-unsolved-1.png","articleSection":["Blog"],"inLanguage":"de"},{"@type":"WebPage","@id":"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/","url":"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/","name":"Der ARC-AGI Benchmark &#060; Vielhuber David","isPartOf":{"@id":"https:\/\/vielhuber.de\/#website"},"primaryImageOfPage":{"@id":"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/#primaryimage"},"image":{"@id":"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/#primaryimage"},"thumbnailUrl":"https:\/\/vielhuber.de\/wp-content\/uploads\/arc-agi-2-unsolved-1.png","datePublished":"2025-07-07T10:03:25+00:00","dateModified":"2025-07-07T10:16:20+00:00","description":"Der kontinuierliche Preisverfall f\u00fcr Rechenleistung \u2013 zwei Gr\u00f6\u00dfenordnungen pro Dekade \u2013 hat Deep-Learning-Modelle seit 2010 enorm befeuert. Gr\u00f6\u00dfere Netze","breadcrumb":{"@id":"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/#breadcrumb"},"inLanguage":"de","potentialAction":[{"@type":"ReadAction","target":["https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/"]}]},{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/#primaryimage","url":"https:\/\/vielhuber.de\/wp-content\/uploads\/arc-agi-2-unsolved-1.png","contentUrl":"https:\/\/vielhuber.de\/wp-content\/uploads\/arc-agi-2-unsolved-1.png","width":1286,"height":611},{"@type":"BreadcrumbList","@id":"https:\/\/vielhuber.de\/blog\/der-arc-agi-benchmark\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/vielhuber.de\/"},{"@type":"ListItem","position":2,"name":"Der ARC-AGI Benchmark"}]},{"@type":"WebSite","@id":"https:\/\/vielhuber.de\/#website","url":"https:\/\/vielhuber.de\/","name":"Vielhuber David","description":"Full-Stack Developer","publisher":{"@id":"https:\/\/vielhuber.de\/#\/schema\/person\/64d4ff14713d413ea4d9b210d0c2c6ef"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/vielhuber.de\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"de"},{"@type":["Person","Organization"],"@id":"https:\/\/vielhuber.de\/#\/schema\/person\/64d4ff14713d413ea4d9b210d0c2c6ef","name":"David","image":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/vielhuber.de\/wp-content\/uploads\/about.jpg","url":"https:\/\/vielhuber.de\/wp-content\/uploads\/about.jpg","contentUrl":"https:\/\/vielhuber.de\/wp-content\/uploads\/about.jpg","width":700,"height":552,"caption":"David"},"logo":{"@id":"https:\/\/vielhuber.de\/wp-content\/uploads\/about.jpg"},"sameAs":["https:\/\/x.com\/vielhuber"]}]}},"_links":{"self":[{"href":"https:\/\/vielhuber.de\/hi\/wp-json\/wp\/v2\/posts\/4352","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/vielhuber.de\/hi\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/vielhuber.de\/hi\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/vielhuber.de\/hi\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/vielhuber.de\/hi\/wp-json\/wp\/v2\/comments?post=4352"}],"version-history":[{"count":12,"href":"https:\/\/vielhuber.de\/hi\/wp-json\/wp\/v2\/posts\/4352\/revisions"}],"predecessor-version":[{"id":4372,"href":"https:\/\/vielhuber.de\/hi\/wp-json\/wp\/v2\/posts\/4352\/revisions\/4372"}],"wp:attachment":[{"href":"https:\/\/vielhuber.de\/hi\/wp-json\/wp\/v2\/media?parent=4352"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/vielhuber.de\/hi\/wp-json\/wp\/v2\/categories?post=4352"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/vielhuber.de\/hi\/wp-json\/wp\/v2\/tags?post=4352"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}