ARC-AGI Ölçütü07
25

Bilgisayar gücü fiyatındaki sürekli düşüş (on yılda iki büyüklük sırası) 2010'dan beri derin öğrenme modellerini muazzam bir şekilde körükledi. Daha büyük ağlar ve daha fazla veri, ortak ölçütlerde güvenilir bir şekilde daha yüksek puanlar sağladı ve ölçeklemenin tek başına kaçınılmaz olarak AGI'ye yol açacağı umudunu körükledi. François Chollet, 2019'un başlarında ARC-AGI ölçütünü tanıttı. zekayı ölçmek için.

MMLU veya HELM gibi sınavlar öncelikli olarak ezberlenmiş, göreve özgü bilgiyi ölçer. Eksik olan şey, akışkan zekanın bir sinyalidir; tamamen yeni bir problemi ad hoc olarak anlama ve çözme yeteneği. ARC-AGI-1 ("Yapay Genel Zeka için Soyut ve Mantık Derlemi") "öğrenilemeyen" 1.000 benzersiz görev içerir.

Her bulmaca yeni, sadece temel günlük bilgi (nesneler, sayma, basit geometri) gerektiriyor ve anaokulu seviyesinin çok altında—insanlar için. Temel LLM'lerden 50.000 kat ölçeklendirme sıçramasından sonra bile, isabet oranı %0'ın hemen üzerinde kaldı. Liderlik tablosuna ek olarak, ilginç zorlukları doğrudan resmi web sitesinde de deneyebilirsiniz .:

2024'e kadar yeni bir yaklaşım çıkmazı aşmadı: Test Zamanı Uyarlaması (TTA), modellerin ağırlıklarını veya bir sentez programını çalışma zamanında uyarlamalarına olanak tanır. OpenAI'nin dahili olarak ince ayarlanmış O3'ü böylece ilk kez ARC1'de insan seviyesinde performans gösterdi. O zamandan beri, her başarılı ARC yöntemi bir tür TTA kullandı - program aramasından anında eğitime kadar.

İnsan performansı ARC1'i hızla doyurdu, bu yüzden ARC-AGI-2 onu takip etti. G/Ç formatını korur ancak her görevin kompozisyonel karmaşıklığını artırır. San Diego'daki 400 denek tüm görevleri çözdü; çoğunluk oyu alan rastgele seçilen on kişi %100'e ulaşırdı. TTA'sız LLM'ler %0-2'de kalır, ancak TTA sistemleri hala insanlardan çok daha düşük performans gösterir.

ARC-AGI-3 bir adım daha ileri gidiyor: Model etkileşimli, bilinmeyen ortamlara atılıyor ve hedefini, kontrollerini ve fiziğini kendi başına keşfetmeli; tüm bunları zaman ve eylem açısından verimli bir şekilde yaparken. Temmuz 2025'te bir geliştirici önizlemesi yayınlanması planlanıyor. Kompozisyonel genellemede ustalaşmak için, gelecekteki sistemler her iki türü birleştirmelidir. Anahtar, kombinasyonel patlamayı evcilleştirmek için hızlı, yaklaşık Tip 1 buluşsal yöntemlerinde yatmaktadır.

ARC bir nihai hedef olarak değil, daha çok bir yön oku olarak hizmet eder: İnsanlar en iyi LLM'lerin bile başarısız olduğu görevleri kolayca tasarlayabildiği sürece, AGI başarılmış değildir. ARC2'deki ve yakında ARC3'teki ilerleme, derin öğrenme ve program aramasını birleştiren hibrit mimarilerin gerekli akıcı, veri ve hesaplama açısından verimli zeka seviyesine ulaşıp ulaşmadığını gösterecektir.

Geri

ARC-AGI Ölçütü0725

ARC-AGI Ölçütü07
25