کاهش مداوم قیمت قدرت محاسباتی - دو برابر در هر دهه - از سال ۲۰۱۰ به طور چشمگیری به مدلهای یادگیری عمیق دامن زده است. شبکههای بزرگتر به همراه دادههای بیشتر، ظاهراً به طور قابل اعتمادی نمرات بالاتری را در معیارهای رایج ارائه میدهند - و این امید را تقویت میکنند که مقیاسپذیری به تنهایی ناگزیر به هوش مصنوعی عمومی منجر شود. در اوایل سال ۲۰۱۹، فرانسوا شولت معیار ARC-AGI را معرفی کرد. برای سنجش هوش.
آزمونهایی مانند MMLU یا HELM در درجه اول دانش حفظی و مختص به وظیفه را میسنجند. چیزی که کم است، نشانهای از هوش سیال است - توانایی درک و حل یک مسئله کاملاً جدید و موردی. ARC-AGI-1 ("مجموعه انتزاعی و استدلالی برای هوش عمومی مصنوعی") شامل ۱۰۰۰ وظیفه منحصر به فرد است که نمیتوان آنها را "یاد گرفت".
هر معما جدید است، فقط به دانش اولیه روزمره (اشیاء، شمارش، هندسه ساده) نیاز دارد و بسیار پایینتر از سطح مهدکودک - برای انسانها - است. حتی پس از جهش ۵۰،۰۰۰ برابری در مقیاس از LLM های پایه، میزان موفقیت کمی بالاتر از ۰٪ باقی ماند. علاوه بر جدول امتیازات ، میتوانید چالشهای جالب را مستقیماً در وبسایت رسمی نیز امتحان کنید .:

تا سال ۲۰۲۴، رویکرد جدیدی این بنبست را شکست: تطبیق زمان آزمون (TTA) به مدلها اجازه میدهد تا وزنهای خود یا یک برنامه سنتز را در زمان اجرا تطبیق دهند. بنابراین، O3 تنظیمشده داخلی OpenAI برای اولین بار عملکردی در سطح انسان را در ARC1 نشان داد. از آن زمان، هر روش موفق ARC از نوعی TTA استفاده کرده است - از جستجوی برنامه گرفته تا آموزش در حین کار.
عملکرد انسان به سرعت ARC1 را اشباع کرد، بنابراین ARC-AGI-2 به دنبال آن آمد. این الگوریتم فرمت ورودی/خروجی را حفظ میکند اما پیچیدگی ترکیبی هر وظیفه را افزایش میدهد. ۴۰۰ آزمودنی در سن دیگو تمام وظایف را حل کردند؛ ده نفر که به صورت تصادفی انتخاب شده بودند با اکثریت آرا به ۱۰۰٪ رسیدند. LLM های بدون TTA در ۰-۲٪ باقی میمانند، اما سیستمهای TTA هنوز عملکرد بسیار پایینتری نسبت به انسان دارند.
ARC-AGI-3 یک قدم فراتر میرود: مدل در محیطهای تعاملی و ناشناخته قرار میگیرد و باید هدف، کنترلها و فیزیک خود را به تنهایی کشف کند - همه این کارها را به روشی زمانبر و با کارایی بالا انجام میدهد. قرار است پیشنمایش توسعهدهندگان در ژوئیه ۲۰۲۵ منتشر شود. برای تسلط بر تعمیم ترکیبی، سیستمهای آینده باید هر دو نوع را با هم ترکیب کنند. کلید این کار در اکتشافات سریع و تقریبی نوع ۱ برای مهار انفجار ترکیبی نهفته است.
ARC به عنوان یک هدف نهایی عمل نمیکند، بلکه بیشتر به عنوان یک پیکان جهتدار عمل میکند: تا زمانی که انسانها بتوانند به راحتی وظایفی را طراحی کنند که حتی بهترین LLMها در آنها شکست میخورند، AGI محقق نشده است. پیشرفت در ARC2 - و به زودی ARC3 - نشان خواهد داد که آیا معماریهای ترکیبی که یادگیری عمیق و جستجوی برنامه را ترکیب میکنند، به سطح لازم از هوش سیال، دادهای و محاسباتی کارآمد دست مییابند یا خیر.