I-ARC-AGI Benchmark07
25

Ukwehla okuqhubekayo kwenani lamandla okwenza ikhompuyutha—ama-oda amabili obukhulu ngeshumi leminyaka—kuqhubekisele phambili amamodeli okufunda ajulile kakhulu kusukela ngo-2010. Amanethiwekhi amakhulu kanye nedatha eyengeziwe kubonakala sengathi iletha ngokuthembekile amaphuzu aphakeme njalo kuma-benchmarks avamile—futhi kwafaka ithemba lokuthi ukukala kukodwa kungaholela nakanjani ku-AGI. Kusukela ngo-2019, uFrançois Chollet wethula ibhentshimakhi ye-ARC-AGI . ukukala ubuhlakani.

Izivivinyo ezifana ne-MMLU noma i-HELM zikala ngokuyinhloko ulwazi olubanjwe ngekhanda, oluqondene nomsebenzi othize. Okushodayo isignali yobuhlakani obuwuketshezi—ikhono lokuqonda nokuxazulula inkinga entsha ngokuphelele. I-ARC-AGI-1 ("I-Abstract and Reasoning Corpus for Artificial General Intelligence") iqukethe imisebenzi eyi-1,000 eyingqayizivele "engenakuyifunda."

Indida ngayinye yintsha, idinga ulwazi oluyisisekelo kuphela lwansuku zonke (izinto, ukubala, ijometri elula), futhi ingaphansi kakhulu kwezinga lenkulisa—kubantu. Ngisho nangemva kokweqa okuphindwe izikhathi ezingu-50,000 kusuka kuma-LLM ayisisekelo, izinga lokushaya lahlala lingaphezu kuka-0%. Ngokungeziwe ebhodini labaphambili , ungaphinda uzame izinselele ezithakazelisayo ngqo kuwebhusayithi esemthethweni.:

Kwaze kwafika ngo-2024 lapho indlela entsha yaqeda khona isiphetho: Ukujwayela Isikhathi Sokuhlola (TTA) kuvumela amamodeli ukuthi aguqule izisindo zawo noma uhlelo lokuhlanganisa ngesikhathi sokusebenza. I-O3 ecushwe kahle yangaphakathi ye-OpenAI ngaleyo ndlela ibonise ukusebenza kwezinga lomuntu ku-ARC1 okokuqala ngqa. Kusukela lapho, yonke indlela ye-ARC ephumelelayo isebenzise uhlobo oluthile lwe-TTA—kusuka ekusesheni kohlelo kuya ekuqeqesheni lapho undiza.

Ukusebenza komuntu kwagcwala ngokushesha i-ARC1, ngakho-ke i-ARC-AGI-2 yalandela. Igcina ifomethi ye-I/O kodwa inyusa ubunkimbinkimbi bokuqamba bomsebenzi ngamunye. Izifundo ezingama-400 eSan Diego zaxazulula yonke imisebenzi; abantu abayishumi abakhethwe ngokungahleliwe abanevoti eliningi bazothola u-100%. Ama-LLM angenayo i-TTA ahlala ku-0-2%, kodwa izinhlelo ze-TTA zisasebenza ngaphansi kakhulu kwabantu.

I-ARC-AGI-3 iqhubekela phambili ngesinyathelo esisodwa: Imodeli iphonswa ezindaweni ezisebenzisanayo, ezingaziwa futhi kufanele izitholele ithagethi yayo, izilawuli, kanye nefiziksi iyodwa—ngaso sonke isikhathi yenza kanjalo ngendlela esebenza isikhathi futhi esebenza ngempumelelo. Ukubuka kuqala kukanjiniyela kuhlelelwe ukukhishwa ngoJulayi 2025. Ukuze ube yizingcweti zokuhlanganisa, amasistimu esikhathi esizayo kufanele ahlanganise zombili izinhlobo. Ukhiye ulele ku-heuristics esheshayo, elinganiselwa ku-Type 1 ukuze kuncishiswe ukuqhuma kwenhlanganisela.

I-ARC ayisebenzi njengomgomo wokugcina, kodwa njengomcibisholo oqondisayo: Inqobo nje uma abantu bengaklama kalula imisebenzi leyo ngisho nama-LLM angcono kakhulu ahlulekayo kuyo, i-AGI ayikafinyelelwa. Inqubekelaphambili ku-ARC2—futhi maduze i-ARC3—izobonisa ukuthi ingabe izakhiwo eziyingxubevange ezihlanganisa ukufunda okujulile kanye nosesho lohlelo luyafinyelela ezingeni elidingekayo lobuhlakani obunoketshezi, idatha kanye nekhompyutha.

Emuva

I-ARC-AGI Benchmark0725

I-ARC-AGI Benchmark07
25