एआरसी-एजीआई बेंचमार्क

कंप्यूटिंग शक्ति की कीमत में लगातार गिरावट - प्रति दशक दो ऑर्डर ऑफ़ मैग्निट्यूड - ने 2010 से डीप लर्निंग मॉडल को काफ़ी बढ़ावा दिया है। बड़े नेटवर्क और ज़्यादा डेटा ने आम बेंचमार्क पर लगातार बेहतर स्कोर दिए हैं - और इस उम्मीद को बढ़ावा दिया है कि सिर्फ़ स्केलिंग ही अनिवार्य रूप से AGI की ओर ले जाएगी। 2019 की शुरुआत में, फ़्राँस्वा चोलेट ने ARC-AGI बेंचमार्क पेश किया। बुद्धि को मापने के लिए.


एम.एम.एल.यू. या एच.ई.एल.एम. जैसी परीक्षाएं मुख्य रूप से याद किए गए, कार्य-विशिष्ट ज्ञान को मापती हैं। जो चीज गायब है वह है तरल बुद्धि का संकेत - एक पूरी तरह से नई समस्या को समझने और हल करने की क्षमता। ए.आर.सी.-ए.जी.आई.-1 ("कृत्रिम सामान्य बुद्धि के लिए सार और तर्क कोष") में 1,000 अद्वितीय कार्य हैं जिन्हें "सीखा" नहीं जा सकता।

प्रत्येक पहेली नई है, इसके लिए केवल बुनियादी रोज़मर्रा के ज्ञान (वस्तुएँ, गिनती, सरल ज्यामिति) की आवश्यकता होती है, और यह मनुष्यों के लिए किंडरगार्टन स्तर से बहुत नीचे है। बुनियादी एलएलएम से 50,000 गुना स्केलिंग जंप के बाद भी, हिट दर 0% से थोड़ा ऊपर रही। लीडरबोर्ड के अलावा, आप आधिकारिक वेबसाइट पर सीधे दिलचस्प चुनौतियों को भी आज़मा सकते हैं।:

2024 तक एक नए दृष्टिकोण ने गतिरोध को नहीं तोड़ा: टेस्ट-टाइम अनुकूलन (TTA) मॉडल को रनटाइम पर अपने वज़न या संश्लेषण कार्यक्रम को अनुकूलित करने की अनुमति देता है। इस प्रकार OpenAI के आंतरिक रूप से ठीक-ठाक O3 ने पहली बार ARC1 पर मानव-स्तर का प्रदर्शन प्रदर्शित किया। तब से, हर सफल ARC विधि ने TTA के किसी न किसी रूप का उपयोग किया है - प्रोग्राम खोज से लेकर ऑन-द-फ्लाई प्रशिक्षण तक।

मानव प्रदर्शन ने जल्दी ही ARC1 को संतृप्त कर दिया, इसलिए ARC-AGI-2 ने इसका अनुसरण किया। यह I/O प्रारूप को बनाए रखता है लेकिन प्रत्येक कार्य की संरचनागत जटिलता को बढ़ाता है। सैन डिएगो में 400 विषयों ने सभी कार्यों को हल किया; बहुमत के साथ यादृच्छिक रूप से चुने गए दस व्यक्ति 100% प्राप्त करेंगे। TTA के बिना LLM 0-2% पर बने रहते हैं, लेकिन TTA सिस्टम अभी भी मनुष्यों से बहुत कम प्रदर्शन करते हैं।

ARC-AGI-3 एक कदम और आगे जाता है: मॉडल को इंटरैक्टिव, अज्ञात वातावरण में फेंक दिया जाता है और उसे अपने लक्ष्य, नियंत्रण और भौतिकी को खुद ही खोजना होता है - यह सब समय और कार्रवाई-कुशल तरीके से करना होता है। डेवलपर पूर्वावलोकन जुलाई 2025 में रिलीज़ के लिए निर्धारित है। कंपोजिशनल सामान्यीकरण में महारत हासिल करने के लिए, भविष्य की प्रणालियों को दोनों प्रकारों को मिलाना होगा। कुंजी संयोजन विस्फोट को नियंत्रित करने के लिए तेज़, अनुमानित टाइप 1 हेयुरिस्टिक्स में निहित है।

एआरसी अंतिम लक्ष्य के रूप में काम नहीं करता, बल्कि दिशात्मक तीर के रूप में काम करता है: जब तक मनुष्य आसानी से ऐसे कार्य डिजाइन कर सकते हैं, जिनमें सबसे अच्छे एलएलएम भी विफल हो जाते हैं, तब तक एजीआई हासिल नहीं किया जा सकता है। एआरसी2 और जल्द ही एआरसी3 पर प्रगति यह दिखाएगी कि क्या डीप लर्निंग और प्रोग्राम सर्च को मिलाकर हाइब्रिड आर्किटेक्चर तरल, डेटा और कंप्यूट-कुशल बुद्धिमत्ता के आवश्यक स्तर को प्राप्त कर सकते हैं।

वापस