Test porównawczy ARC-AGI

Ciągły spadek cen mocy obliczeniowej — dwa rzędy wielkości na dekadę — ogromnie napędzał modele głębokiego uczenia od 2010 r. Większe sieci i więcej danych pozornie niezawodnie dostarczały coraz wyższe wyniki w typowych testach porównawczych — i podsycały nadzieję, że samo skalowanie nieuchronnie doprowadzi do AGI. Już w 2019 r. François Chollet wprowadził test porównawczy ARC-AGI . do pomiaru inteligencji.


Egzaminy takie jak MMLU lub HELM mierzą przede wszystkim zapamiętaną wiedzę dotyczącą konkretnych zadań. Brakuje sygnału inteligencji płynnej — zdolności do zrozumienia i rozwiązania zupełnie nowego problemu ad hoc. ARC-AGI-1 („Abstract and Reasoning Corpus for Artificial General Intelligence”) zawiera 1000 unikalnych zadań, których nie można „nauczyć się”.

Każda łamigłówka jest nowa, wymaga jedynie podstawowej wiedzy codziennej (przedmioty, liczenie, prosta geometria) i jest znacznie poniżej poziomu przedszkola — dla ludzi. Nawet po 50 000-krotnym skoku skalowania od podstawowych LLM, wskaźnik trafień pozostał nieco powyżej 0%. Oprócz tabeli liderów możesz również wypróbować interesujące wyzwania bezpośrednio na oficjalnej stronie internetowej.:

Dopiero w 2024 r. nowe podejście przełamało impas: adaptacja w czasie testu (TTA) pozwala modelom dostosowywać swoje wagi lub program syntezy w czasie wykonywania. Wewnętrznie dostrojony O3 OpenAI po raz pierwszy zademonstrował wydajność na poziomie ludzkim w ARC1. Od tego czasu każda udana metoda ARC wykorzystywała jakąś formę TTA — od wyszukiwania programów po trening w locie.

Wydajność człowieka szybko nasyciła ARC1, więc ARC-AGI-2 poszedł w jego ślady. Zachowuje format I/O, ale zwiększa złożoność kompozycyjną każdego zadania. 400 osób w San Diego rozwiązało wszystkie zadania; dziesięć losowo wybranych osób z większością głosów osiągnęłoby 100%. LLM bez TTA pozostają na poziomie 0-2%, ale systemy TTA nadal działają znacznie poniżej ludzi.

ARC-AGI-3 idzie o krok dalej: model zostaje wrzucony do interaktywnych, nieznanych środowisk i musi samodzielnie odkryć swój cel, sterowanie i fizykę — wszystko to w sposób efektywny czasowo i pod kątem działania. Wersja zapoznawcza dla deweloperów ma zostać wydana w lipcu 2025 r. Aby opanować generalizację kompozycyjną, przyszłe systemy muszą łączyć oba typy. Kluczem jest szybka, przybliżona heurystyka typu 1, aby oswoić eksplozję kombinatoryczną.

ARC nie służy jako cel końcowy, ale raczej jako strzałka kierunkowa: Dopóki ludzie mogą łatwo projektować zadania, w których nawet najlepsi LLM-owie zawodzą, AGI nie zostało osiągnięte. Postęp w ARC2 — a wkrótce w ARC3 — pokaże, czy hybrydowe architektury łączące głębokie uczenie się i wyszukiwanie programów osiągają niezbędny poziom płynnej, wydajnej pod względem danych i obliczeń inteligencji.

Plecy