Standardi ARC-AGI07
25

Rënia e vazhdueshme e çmimit të fuqisë llogaritëse - dy urdhra madhësie për dekadë - ka nxitur jashtëzakonisht shumë modelet e të mësuarit të thellë që nga viti 2010. Rrjetet më të mëdha plus më shumë të dhëna me sa duket kanë dhënë rezultate gjithnjë e më të larta në standardet e përbashkëta - dhe kanë ushqyer shpresën se vetëm shkallëzimi do të çonte në mënyrë të pashmangshme në AGI. Që në vitin 2019, François Chollet prezantoi standardin ARC-AGI . për të matur inteligjencën.

Provime si MMLU ose HELM matin kryesisht njohuritë e mësuara përmendësh, specifike për detyrën. Ajo që mungon është një sinjal i inteligjencës fluide - aftësia për të kuptuar dhe zgjidhur një problem krejtësisht të ri ad hoc. ARC-AGI-1 ("Korpusi Abstrakt dhe Arsyetues për Inteligjencën e Përgjithshme Artificiale") përmban 1,000 detyra unike që nuk mund të "mësohen".

Çdo enigmë është e re, kërkon vetëm njohuri bazë të përditshme (objekte, numërim, gjeometri të thjeshtë) dhe është shumë poshtë nivelit të kopshtit - për njerëzit. Edhe pas një kërcimi 50,000-fish të shkallëzimit nga LLM-të bazë, shkalla e suksesit mbeti pak mbi 0%. Përveç tabelës së renditjes , mund të provoni edhe sfidat interesante direkt në faqen zyrtare të internetit.:

Vetëm në vitin 2024 një qasje e re e theu bllokimin: Përshtatja në Kohë Testimi (TTA) u lejon modeleve të përshtasin peshat e tyre ose një program sinteze gjatë kohës së ekzekutimit. Kështu, O3 i OpenAI, i akorduar në mënyrë të brendshme, demonstroi performancë në nivel njerëzor në ARC1 për herë të parë. Që atëherë, çdo metodë e suksesshme ARC ka përdorur një formë të TTA-së - nga kërkimi i programit deri te trajnimi në lëvizje.

Performanca njerëzore e ngopi shpejt ARC1, kështu që pasoi ARC-AGI-2 . Ai ruan formatin I/O, por rrit kompleksitetin kompozitor të secilës detyrë. 400 subjekte në San Diego i zgjidhën të gjitha detyrat; dhjetë individë të zgjedhur rastësisht me shumicë votash do të arrinin 100%. Diplomat LLM pa TTA mbeten në 0-2%, por sistemet TTA ende performojnë shumë më poshtë se njerëzit.

ARC-AGI-3 shkon një hap më tej: Modeli hidhet në mjedise interaktive dhe të panjohura dhe duhet të zbulojë vetë objektivin, kontrollet dhe fizikën e tij - të gjitha duke e bërë këtë në një mënyrë efikase në kohë dhe veprim. Një parapamje nga zhvilluesi është planifikuar të publikohet në korrik 2025. Për të zotëruar përgjithësimin kompozitiv, sistemet e ardhshme duhet të kombinojnë të dy llojet. Çelësi qëndron në heuristikat e shpejta dhe të përafërta të Tipit 1 për të zbutur shpërthimin kombinatorik.

ARC nuk shërben si një qëllim përfundimtar, por më tepër si një shigjetë drejtimi: Për sa kohë që njerëzit mund të hartojnë lehtësisht detyra në të cilat edhe LLM-të më të mirë dështojnë, AGI nuk është arritur. Progresi në ARC2 - dhe së shpejti në ARC3 - do të tregojë nëse arkitekturat hibride që kombinojnë të mësuarit e thellë dhe kërkimin e programeve arrijnë nivelin e nevojshëm të inteligjencës fluide, efikase në të dhëna dhe në llogaritje.

Mbrapa

Standardi ARC-AGI0725

Standardi ARC-AGI07
25