ARC-AGI Benchmark07
25

Hoos-u-dhaca joogtada ah ee qiimaha awoodda xisaabinta-laba amar oo baaxad leh tobankii sanoba- ayaa sii kiciyay moodooyinka barasho qoto dheer tan iyo 2010. Shabakado waaweyn oo lagu daray xog badan ayaa u muuqda inay si kalsooni leh u keeneen buundooyinka weligood ka sarreeya ee jaangooyooyinka caadiga ah - waxayna sii kicisay rajada ah in miisaanka oo keliya ay si lama filaan ah u horseedi doonto AGI. Horraantii 2019, François Chollet wuxuu soo bandhigay bartilmaameedka ARC-AGI . si loo cabbiro garaadka.

Imtixaanada sida MMLU ama HELM ugu horrayn waxay cabbiraan aqoonta la xafiday, ee hawsha gaarka ah. Waxa maqan waa calaamad sirdoon dareere ah—awoodda lagu fahmo oo lagu xalliyo dhibka cusub ee ad hoc. ARC-AGI-1 ("Abstract and Reasoning Corpus for Intelligence General Artificial") ayaa ka kooban 1,000 hawlo gaar ah oo aan "la baran karin."

Halxiraale kastaa waa cusub yahay, wuxuu u baahan yahay oo kaliya aqoonta aasaasiga ah ee maalinlaha ah (walxaha, tirinta, joomatari fudud), aad ayuuna uga hooseeyaa heerka barbaarinta— bini aadamka. Xitaa ka dib 50,000-laab miisaan miisaan ka booday LLM-yada aasaasiga ah, heerka garaaca ayaa weli ka sarreeya 0%. Marka lagu daro hogaanka sare , waxaad sidoo kale isku dayi kartaa caqabadaha xiisaha leh si toos ah bogga rasmiga ah.:

Ma ahayn ilaa 2024 in hab cusub uu jabiyo xannibaadda: La qabsiga Waqtiga-Tijaabada (TTA) waxay u oggolaanaysaa moodooyinka inay la qabsadaan miisaankooda ama barnaamijka isku-darka wakhtiga runtime. O3 gudaha OpenAI ee si fiican loo habeeyey ayaa sidaas ku muujiyey waxqabadka heerka aadanaha ee ARC1 markii ugu horreysay. Wixii markaas ka dambeeyay, hab kasta oo ARC oo guulaysta waxa ay adeegsatay nooc ka mid ah TTA—laga bilaabo raadinta barnaamijka ilaa tababarka duulista.

Waxqabadka bini'aadamku si dhakhso ah ayuu u buuxsamay ARC1, sidaa darteed ARC-AGI-2 ayaa raacay. Waxay haysaa qaabka I/O laakiin waxay kordhisaa kakanaanta halabuurka hawl kasta. 400 oo maaddo oo San Diego ah ayaa xalliyey dhammaan hawlihii; toban qof oo si bakhtiyaa nasiib ah loo soo xulay oo leh cod aqlabiyad ah waxay gaari doonaan 100%. LLM-yada aan lahayn TTA waxay ku sii jiraan 0-2%, laakiin nidaamyada TTA waxay wali ka shaqeeyaan meel aad uga hooseeya bini'aadamka.

ARC-AGI-3 waxay sii socotaa hal talaabo oo dheeri ah: Qaabka waxaa lagu dhex tuuray bey'ad is dhexgal ah, oo aan la garanayn, waana inay daaha ka qaadaa yoolkeeda, koontaroolkeeda, iyo fiisigiska keligiis-dhammaan intaad sidaa u samaynayso waqti-iyo ficil-ku-ool ah. Horudhac horumariye ayaa loo qorsheeyay in la sii daayo Julaay 2025. Si loo maareeyo guud ahaan halabuurka, nidaamyada mustaqbalka waa in ay isku daraan labada nooc. Furuhu waxa uu ku jiraa dhaqsiyo badan, oo qiyaas ahaan nooca 1 heuristics si loo xakameeyo qaraxa isku-darka ah.

ARC uma adeegto hadafka dhamaadka, laakiin waa sida fallaadho jiho ah: Ilaa iyo inta aadanuhu si fudud u naqshadayn karo hawlo xitaa LLM-yada ugu fiican ay ku fashilmaan, AGI lama gaadhin. Horumarka ARC2-iyo dhawaan ARC3-waxay tusi doontaa in qaab-dhismeedka isku-dhafan ee isku-dhafan ee isku-dhafan barasho qoto dheer iyo barnaamij-raadinta ay gaadhaan heerka lagama maarmaanka ah ee dareeraha, xogta-iyo caqli-galnimada waxtarka leh.

Dib u laabo

ARC-AGI Benchmark0725

ARC-AGI Benchmark07
25