Kemerosotan berterusan dalam harga kuasa pengkomputeran—dua urutan magnitud setiap dekad—telah memacu model pembelajaran mendalam dengan sangat besar sejak 2010. Rangkaian yang lebih besar serta lebih banyak data nampaknya boleh dipercayai memberikan skor yang lebih tinggi pada penanda aras biasa—dan mendorong harapan bahawa penskalaan sahaja sudah pasti akan membawa kepada AGI. Seawal 2019, François Chollet memperkenalkan penanda aras ARC-AGI . untuk mengukur kecerdasan.
Peperiksaan seperti MMLU atau HELM terutamanya mengukur pengetahuan yang dihafal dan khusus tugasan. Apa yang hilang ialah isyarat kecerdasan cecair—keupayaan untuk memahami dan menyelesaikan masalah baharu secara ad hoc. ARC-AGI-1 ("Korpus Abstrak dan Penaakulan untuk Kecerdasan Am Buatan") mengandungi 1,000 tugas unik yang tidak boleh "dipelajari."
Setiap teka-teki adalah baharu, hanya memerlukan pengetahuan asas harian (objek, mengira, geometri mudah), dan jauh di bawah tahap tadika—untuk manusia. Walaupun selepas lonjakan skala 50,000 kali ganda daripada LLM asas, kadar hit kekal melebihi 0%. Selain papan pendahulu , anda juga boleh mencuba cabaran menarik secara terus di tapak web rasmi.:

Sehingga tahun 2024 pendekatan baharu memecah kebuntuan: Penyesuaian Masa Ujian (TTA) membenarkan model menyesuaikan pemberatnya atau program sintesis pada masa jalanan. O3 OpenAI yang diperhalusi secara dalaman sekali gus menunjukkan prestasi peringkat manusia pada ARC1 buat kali pertama. Sejak itu, setiap kaedah ARC yang berjaya telah menggunakan beberapa bentuk TTA—daripada carian program kepada latihan semasa.
Prestasi manusia dengan cepat tepu ARC1, jadi ARC-AGI-2 diikuti. Ia mengekalkan format I/O tetapi meningkatkan kerumitan komposisi setiap tugas. 400 subjek di San Diego menyelesaikan semua tugasan; sepuluh individu yang dipilih secara rawak dengan undi majoriti akan mencapai 100%. LLM tanpa TTA kekal pada 0-2%, tetapi sistem TTA masih berprestasi jauh di bawah manusia.
ARC-AGI-3 melangkah lebih jauh: Model dilemparkan ke dalam persekitaran interaktif yang tidak diketahui dan mesti menemui sasaran, kawalan dan fiziknya sendiri—semuanya sambil melakukannya dalam cara yang cekap masa dan tindakan. Pratonton pembangun dijadualkan untuk dikeluarkan pada Julai 2025. Untuk menguasai generalisasi komposisi, sistem masa hadapan mesti menggabungkan kedua-dua jenis. Kuncinya terletak pada heuristik Jenis 1 yang pantas dan anggaran untuk menjinakkan letupan gabungan.
ARC tidak berfungsi sebagai matlamat akhir, sebaliknya sebagai anak panah arah: Selagi manusia boleh mereka bentuk tugas dengan mudah yang walaupun LLM terbaik gagal, AGI belum tercapai. Kemajuan pada ARC2—dan tidak lama lagi ARC3—akan menunjukkan sama ada seni bina hibrid yang menggabungkan pembelajaran mendalam dan carian program mencapai tahap kecerdasan cekap cecair, data dan pengiraan yang diperlukan.