La kontinua malkresko de la prezo de komputila povo — du ordoj de magnitudo po jardeko — grandege instigis profundajn lernado-modelojn ekde 2010. Pli grandaj retoj kaj pli da datumoj ŝajne fidinde liveris ĉiam pli altajn poentarojn en komunaj komparnormoj — kaj instigis la esperon, ke skalado sole neeviteble kondukus al AGI. Jam en 2019, François Chollet enkondukis la komparnormon ARC-AGI . por mezuri inteligentecon.
Ekzamenoj kiel MMLU aŭ HELM ĉefe mezuras parkerigitan, taskspecifan scion. Kio mankas estas signalo de fluida inteligenteco — la kapablo kompreni kaj solvi tute novan problemon ad hoc. ARC-AGI-1 ("Abstrakta kaj Rezonada Korpuso por Artefarita Ĝenerala Inteligenteco") enhavas 1 000 unikajn taskojn, kiujn oni ne povas "lerni".
Ĉiu puzlo estas nova, postulas nur bazan ĉiutagan scion (objektoj, kalkulado, simpla geometrio), kaj estas multe sub la nivelo de infanĝardenanoj — por homoj. Eĉ post 50.000-obla salto de la skalado kompare kun bazaj LLM-oj, la sukcesprocento restis iom super 0%. Aldone al la rangotabelo , vi ankaŭ povas provi la interesajn defiojn rekte en la oficiala retejo.:

Nur en 2024 nova aliro rompis la blokiĝon: Testtempa Adaptiĝo (TTA) permesas al modeloj adapti siajn pezojn aŭ sintezan programon dum la rulado. La interne fajne agordita O3 de OpenAI tiel unuafoje montris homnivelan rendimenton sur ARC1. Ekde tiam, ĉiu sukcesa ARC-metodo uzis ian formon de TTA - de programserĉado ĝis surloka trejnado.
Homa agado rapide saturis ARC1, do ARC-AGI-2 sekvis. Ĝi retenas la I/O-formaton sed pliigas la komponan kompleksecon de ĉiu tasko. 400 subjektoj en San-Diego solvis ĉiujn taskojn; dek hazarde elektitaj individuoj kun plimulta voĉdono atingus 100%. LLM-oj sen TTA restas je 0-2%, sed TTA-sistemoj ankoraŭ agas multe sub homoj.
ARC-AGI-3 iras ankoraŭ unu paŝon plu: La modelo estas ĵetita en interagajn, nekonatajn mediojn kaj devas memstare malkovri sian celon, kontrolojn kaj fizikon — ĉio farante tion temp- kaj ag-efike. Antaŭrigardo por programistoj estas planita por publikigo en julio 2025. Por majstri komponan ĝeneraligon, estontaj sistemoj devas kombini ambaŭ tipojn. La ŝlosilo kuŝas en rapidaj, proksimumaj Tipo 1 heŭristikoj por malsovaĝigi la kombinecan eksplodon.
ARC ne servas kiel fina celo, sed prefere kiel direkta sago: Dum homoj povas facile desegni taskojn, kiujn eĉ la plej bonaj LLM-oj malsukcesas, AGI ne estas atingita. Progreso pri ARC2 — kaj baldaŭ ARC3 — montros ĉu hibridaj arkitekturoj kombinantaj profundan lernadon kaj programserĉadon atingas la necesan nivelon de fluida, daten- kaj komputilefika inteligenteco.