معيار ARC-AGI

أدى الانخفاض المستمر في تكلفة قوة الحوسبة - بمعدل مرتبتين من حيث الحجم كل عقد - إلى تعزيز نماذج التعلم العميق بشكل هائل منذ عام ٢٠١٠. وقد حققت الشبكات الأكبر حجمًا، بالإضافة إلى كميات أكبر من البيانات، نتائج أعلى باستمرار على معايير الأداء الشائعة، مما عزز الأمل في أن التوسع وحده سيؤدي حتمًا إلى الذكاء الاصطناعي العام. في وقت مبكر من عام ٢٠١٩، قدم فرانسوا شوليت معيار ARC-AGI . لقياس الذكاء.


تقيس امتحانات مثل MMLU أو HELM بشكل أساسي المعرفة المحفوظة والمتعلقة بمهام محددة. ما ينقصها هو مؤشر الذكاء السلس - القدرة على فهم وحل مشكلة جديدة تمامًا بشكل تلقائي. يحتوي ARC-AGI-1 (مجموعة الملخصات والاستدلالات للذكاء الاصطناعي العام) على 1000 مهمة فريدة لا يمكن "تعلمها".

كل لغز جديد، ولا يتطلب سوى معرفة يومية أساسية (الأشياء، العد، الهندسة البسيطة)، وهو أقل بكثير من مستوى رياض الأطفال - للبشر. حتى بعد قفزة في المستوى بمقدار 50,000 ضعف من مستويات الماجستير الأساسية، ظل معدل النجاح أعلى بقليل من 0%. بالإضافة إلى قائمة المتصدرين ، يمكنك أيضًا تجربة التحديات الشيقة مباشرةً على الموقع الرسمي.:

لم يُكسر الجمود إلا في عام ٢٠٢٤ عندما ظهر نهج جديد: يسمح التكيف مع وقت الاختبار (TTA) للنماذج بتكييف أوزانها أو برنامج التوليف أثناء التشغيل. وهكذا، أظهر نظام O3 المُعدّل داخليًا من OpenAI أداءً يُضاهي أداء الإنسان على ARC1 لأول مرة. ومنذ ذلك الحين، استخدمت كل طريقة ناجحة في ARC شكلاً من أشكال التكيف مع وقت الاختبار - من البحث عن البرنامج إلى التدريب الفوري.

سرعان ما تشبع الأداء البشري بـ ARC1، فتبعه ARC-AGI-2 . يحتفظ هذا النظام بصيغة الإدخال/الإخراج، ولكنه يزيد من تعقيد تركيب كل مهمة. حلّ 400 مشارك في سان دييغو جميع المهام؛ وسيحقق عشرة أفراد تم اختيارهم عشوائيًا بأغلبية الأصوات 100%. يبقى معدل نجاح برامج الماجستير في القانون بدون TTA عند 0-2%، لكن أداء أنظمة TTA لا يزال أقل بكثير من أداء البشر.

يتقدم ARC-AGI-3 خطوةً أبعد: يُلقى النموذج في بيئات تفاعلية مجهولة، ويجب عليه اكتشاف هدفه وأدوات التحكم والفيزياء بنفسه - كل ذلك بأسلوب فعال من حيث الوقت والجهد. من المقرر إصدار معاينة للمطورين في يوليو 2025. لإتقان التعميم التركيبي، يجب على الأنظمة المستقبلية الجمع بين كلا النوعين. يكمن السر في استدلالات النوع الأول السريعة والتقريبية لكبح جماح الانفجار التركيبي.

لا يُعدّ ARC هدفًا نهائيًا، بل هو بمثابة مؤشر اتجاه: طالما أن البشر قادرون على تصميم مهام يفشل فيها حتى أفضل طلاب الماجستير في القانون، فإن الذكاء الاصطناعي العام لم يتحقق بعد. سيُظهر التقدم في ARC2 - وقريبًا ARC3 - ما إذا كانت البنى الهجينة التي تجمع بين التعلم العميق والبحث البرمجي تحقق المستوى اللازم من الذكاء السلس والفعال في استخدام البيانات والحوسبة.

عودة