Tolok Ukur ARC-AGI

Penurunan berkelanjutan dalam harga daya komputasi—dua kali lipat per dekade—telah memicu model pembelajaran mendalam secara luar biasa sejak 2010. Jaringan yang lebih besar ditambah lebih banyak data tampaknya memberikan skor yang semakin tinggi pada tolok ukur umum—dan memicu harapan bahwa penskalaan saja pasti akan mengarah pada AGI. Pada awal 2019, François Chollet memperkenalkan tolok ukur ARC-AGI . untuk mengukur kecerdasan.


Ujian seperti MMLU atau HELM terutama mengukur pengetahuan yang dihafal dan spesifik untuk tugas tertentu. Yang hilang adalah sinyal kecerdasan cair—kemampuan untuk memahami dan memecahkan masalah yang sama sekali baru secara ad hoc. ARC-AGI-1 ("Abstract and Reasoning Corpus for Artificial General Intelligence") berisi 1.000 tugas unik yang tidak dapat "dipelajari."

Setiap teka-teki baru, hanya memerlukan pengetahuan dasar sehari-hari (objek, berhitung, geometri sederhana), dan jauh di bawah tingkat taman kanak-kanak—untuk manusia. Bahkan setelah peningkatan skala 50.000 kali lipat dari LLM dasar, tingkat keberhasilannya tetap sedikit di atas 0%. Selain papan peringkat , Anda juga dapat mencoba tantangan menarik langsung di situs web resmi.:

Baru pada tahun 2024 pendekatan baru memecahkan kebuntuan: Adaptasi Waktu Uji (TTA) memungkinkan model untuk menyesuaikan bobot atau program sintesisnya saat dijalankan. O3 OpenAI yang disetel secara internal dengan baik menunjukkan kinerja setingkat manusia pada ARC1 untuk pertama kalinya. Sejak saat itu, setiap metode ARC yang berhasil telah menggunakan beberapa bentuk TTA—mulai dari pencarian program hingga pelatihan on-the-fly.

Kinerja manusia dengan cepat memenuhi ARC1, sehingga ARC-AGI-2 mengikutinya. Ia mempertahankan format I/O tetapi meningkatkan kompleksitas komposisi setiap tugas. 400 subjek di San Diego menyelesaikan semua tugas; sepuluh orang yang dipilih secara acak dengan suara mayoritas akan mencapai 100%. LLM tanpa TTA tetap pada 0-2%, tetapi sistem TTA masih berkinerja jauh di bawah manusia.

ARC-AGI-3 melangkah lebih jauh: Model tersebut dilemparkan ke lingkungan interaktif yang tidak dikenal dan harus menemukan target, kontrol, dan fisikanya sendiri—semuanya dilakukan dengan cara yang hemat waktu dan tindakan. Pratinjau pengembang dijadwalkan untuk dirilis pada bulan Juli 2025. Untuk menguasai generalisasi komposisi, sistem masa depan harus menggabungkan kedua jenis tersebut. Kuncinya terletak pada heuristik Tipe 1 yang cepat dan mendekati untuk menjinakkan ledakan kombinatorial.

ARC tidak berfungsi sebagai tujuan akhir, tetapi lebih sebagai penunjuk arah: Selama manusia dapat dengan mudah merancang tugas yang bahkan tidak dapat dilakukan oleh LLM terbaik, AGI belum tercapai. Kemajuan pada ARC2—dan segera ARC3—akan menunjukkan apakah arsitektur hibrida yang menggabungkan pembelajaran mendalam dan pencarian program mencapai tingkat kecerdasan yang lancar, efisien dalam data, dan komputasi.

Kembali