معیار ARC-AGI

کاهش مداوم قیمت قدرت محاسباتی - دو برابر در هر دهه - از سال ۲۰۱۰ به طور چشمگیری به مدل‌های یادگیری عمیق دامن زده است. شبکه‌های بزرگتر به همراه داده‌های بیشتر، ظاهراً به طور قابل اعتمادی نمرات بالاتری را در معیارهای رایج ارائه می‌دهند - و این امید را تقویت می‌کنند که مقیاس‌پذیری به تنهایی ناگزیر به هوش مصنوعی عمومی منجر شود. در اوایل سال ۲۰۱۹، فرانسوا شولت معیار ARC-AGI را معرفی کرد. برای سنجش هوش.


آزمون‌هایی مانند MMLU یا HELM در درجه اول دانش حفظی و مختص به وظیفه را می‌سنجند. چیزی که کم است، نشانه‌ای از هوش سیال است - توانایی درک و حل یک مسئله کاملاً جدید و موردی. ARC-AGI-1 ("مجموعه انتزاعی و استدلالی برای هوش عمومی مصنوعی") شامل ۱۰۰۰ وظیفه منحصر به فرد است که نمی‌توان آنها را "یاد گرفت".

هر معما جدید است، فقط به دانش اولیه روزمره (اشیاء، شمارش، هندسه ساده) نیاز دارد و بسیار پایین‌تر از سطح مهدکودک - برای انسان‌ها - است. حتی پس از جهش ۵۰،۰۰۰ برابری در مقیاس از LLM های پایه، میزان موفقیت کمی بالاتر از ۰٪ باقی ماند. علاوه بر جدول امتیازات ، می‌توانید چالش‌های جالب را مستقیماً در وب‌سایت رسمی نیز امتحان کنید .:

تا سال ۲۰۲۴، رویکرد جدیدی این بن‌بست را شکست: تطبیق زمان آزمون (TTA) به مدل‌ها اجازه می‌دهد تا وزن‌های خود یا یک برنامه سنتز را در زمان اجرا تطبیق دهند. بنابراین، O3 تنظیم‌شده داخلی OpenAI برای اولین بار عملکردی در سطح انسان را در ARC1 نشان داد. از آن زمان، هر روش موفق ARC از نوعی TTA استفاده کرده است - از جستجوی برنامه گرفته تا آموزش در حین کار.

عملکرد انسان به سرعت ARC1 را اشباع کرد، بنابراین ARC-AGI-2 به دنبال آن آمد. این الگوریتم فرمت ورودی/خروجی را حفظ می‌کند اما پیچیدگی ترکیبی هر وظیفه را افزایش می‌دهد. ۴۰۰ آزمودنی در سن دیگو تمام وظایف را حل کردند؛ ده نفر که به صورت تصادفی انتخاب شده بودند با اکثریت آرا به ۱۰۰٪ رسیدند. LLM های بدون TTA در ۰-۲٪ باقی می‌مانند، اما سیستم‌های TTA هنوز عملکرد بسیار پایین‌تری نسبت به انسان دارند.

ARC-AGI-3 یک قدم فراتر می‌رود: مدل در محیط‌های تعاملی و ناشناخته قرار می‌گیرد و باید هدف، کنترل‌ها و فیزیک خود را به تنهایی کشف کند - همه این کارها را به روشی زمان‌بر و با کارایی بالا انجام می‌دهد. قرار است پیش‌نمایش توسعه‌دهندگان در ژوئیه ۲۰۲۵ منتشر شود. برای تسلط بر تعمیم ترکیبی، سیستم‌های آینده باید هر دو نوع را با هم ترکیب کنند. کلید این کار در اکتشافات سریع و تقریبی نوع ۱ برای مهار انفجار ترکیبی نهفته است.

ARC به عنوان یک هدف نهایی عمل نمی‌کند، بلکه بیشتر به عنوان یک پیکان جهت‌دار عمل می‌کند: تا زمانی که انسان‌ها بتوانند به راحتی وظایفی را طراحی کنند که حتی بهترین LLMها در آنها شکست می‌خورند، AGI محقق نشده است. پیشرفت در ARC2 - و به زودی ARC3 - نشان خواهد داد که آیا معماری‌های ترکیبی که یادگیری عمیق و جستجوی برنامه را ترکیب می‌کنند، به سطح لازم از هوش سیال، داده‌ای و محاسباتی کارآمد دست می‌یابند یا خیر.

بازگشت