Benchmark ARC-AGI07
25

Mudhunake rega daya komputasi sing terus-terusan - rong urutan magnitudo saben dasawarsa - wis nyebabake model pembelajaran sing jero banget wiwit 2010. Jaringan sing luwih gedhe lan luwih akeh data sing bisa dipercaya nyedhiyakake skor sing luwih dhuwur ing benchmark umum - lan mbudidaya pangarep-arep yen skala mung bakal nyebabake AGI. Wiwit taun 2019, François Chollet ngenalake pathokan ARC-AGI . kanggo ngukur intelijen.

Ujian kaya MMLU utawa HELM utamane ngukur kawruh sing wis diapalake, khusus tugas. Sing ilang yaiku sinyal intelijen cairan—kemampuan kanggo ngerti lan ngrampungake masalah ad hoc sing anyar. ARC-AGI-1 ("Abstract and Reasoning Corpus for Artificial General Intelligence") ngemot 1.000 tugas unik sing ora bisa "sinau."

Saben teka-teki anyar, mung mbutuhake kawruh saben dinten dhasar (obyek, pancacahan, geometri prasaja), lan adoh ing tingkat TK-kanggo manungsa. Malah sawise lompat skala 50.000 kali saka LLM dhasar, tingkat hit tetep mung ndhuwur 0%. Saliyane ing leaderboard , sampeyan uga bisa nyoba tantangan menarik langsung ing situs resmi.:

Ora nganti 2024 pendekatan anyar nyuwil deadlock: Test-Time Adaptation (TTA) ngidini model ngganti bobot utawa program sintesis nalika runtime. O3 sing disetel sacara internal OpenAI saéngga nuduhake kinerja tingkat manungsa ing ARC1 kanggo pisanan. Wiwit kuwi, saben cara ARC sing sukses wis nggunakake sawetara wangun TTA-saka program panelusuran kanggo latihan on-the-fly.

Kinerja manungsa kanthi cepet jenuh ARC1, mula ARC-AGI-2 nyusul. Iki nahan format I / O nanging nambah kerumitan komposisi saben tugas. 400 subjek ing San Diego ngrampungake kabeh tugas; sepuluh individu sing dipilih kanthi acak kanthi swara mayoritas bakal entuk 100%. LLM tanpa TTA tetep ana ing 0-2%, nanging sistem TTA isih nindakake adoh saka manungsa.

ARC-AGI-3 dadi siji langkah luwih: Model dibuwang menyang interaktif, lingkungan dingerteni lan kudu nemokake target, kontrol, lan fisika ing dhewe-kabeh nalika mengkono ing wektu- lan tumindak-efisien. Pratinjau pangembang dijadwalake bakal dirilis ing Juli 2025. Kanggo nguwasani generalisasi komposisi, sistem ing mangsa ngarep kudu nggabungake loro jinis kasebut. Kuncine ana ing heuristik Tipe 1 sing cepet, kira-kira kanggo ngatasi bledosan kombinatorial.

ARC ora dadi tujuan pungkasan, nanging minangka panah arah: Anggere manungsa bisa kanthi gampang ngrancang tugas sing malah gagal LLM paling apik, AGI durung entuk. Kemajuan ing ARC2-lan ora suwe ARC3-bakal nuduhake manawa arsitektur hibrida sing nggabungake sinau jero lan telusuran program entuk tingkat intelijen sing efisien, data lan komputasi sing dibutuhake.

Bali

Benchmark ARC-AGI0725

Benchmark ARC-AGI07
25