Эсептөө кубаттуулугунун баасынын тынымсыз төмөндөшү - он жылда эки эсеге - 2010-жылдан бери терең үйрөнүү моделдерин эбегейсиз күчөттү. Чоңураак тармактар жана көбүрөөк маалыматтар жалпы көрсөткүчтөр боюнча ишенимдүү түрдө көбүрөөк упайларды алып келди жана масштабдаштыруунун өзү сөзсүз түрдө AGIга алып келет деген үмүттү күчөттү. 2019-жылы эле Франсуа Чоллет ARC-AGI эталондорун киргизген. акыл өлчөө үчүн.
MMLU же HELM сыяктуу сынактар, биринчи кезекте, жаттап калган, тапшырмага тиешелүү билимди өлчөйт. Жетишпеген нерсе - суюк интеллекттин сигналы — такыр жаңы көйгөйдү түшүнүү жана чечүү жөндөмү. ARC-AGI-1 ("Жасалма жалпы интеллект үчүн абстракттуу жана ой жүгүртүү корпусу") "үйрөнүүгө" мүмкүн болбогон 1000 уникалдуу тапшырмаларды камтыйт.
Ар бир табышмак жаңы, күнүмдүк негизги билимди гана талап кылат (объекттер, эсептөө, жөнөкөй геометрия) жана бала бакчанын деңгээлинен бир топ төмөн — адамдар үчүн. Негизги LLMлерден 50,000 эселенген масштабдуу секириктен кийин да, хиттин деңгээли 0%дан бир аз жогору бойдон калды. Лидер тактасынан тышкары, сиз расмий веб-сайтта түздөн-түз кызыктуу чакырыктарды сынап көрүңүз .:

2024-жылга чейин жаңы ыкма туюктан чыкты: Test-Time Adaptation (TTA) моделдерге өз салмагын же синтез программасын аткаруу учурунда ылайыкташтырууга мүмкүндүк берет. Ошентип, OpenAIдин ички оңдолгон O3 ARC1де биринчи жолу адам деңгээлиндеги аткарууну көрсөттү. Ошондон бери, ар бир ийгиликтүү ARC методу TTAнын кандайдыр бир түрүн колдонду — программаны издөөдөн баштап, учуу учурунда машыгууга чейин.
Адамдын иштеши ARC1ди тез каныктырды, ошондуктан ARC-AGI-2 артынан келди. Ал киргизүү/чыгаруу форматын сактайт, бирок ар бир тапшырманын композициялык татаалдыгын жогорулатат. Сан-Диегодогу 400 субъект бардык тапшырмаларды чечти; көпчүлүк добуш менен туш келди тандалган он адам 100% жетишмек. TTA жок LLMs 0-2% бойдон калууда, бирок TTA системалары дагы эле адамдардан алда канча төмөн иштейт.
ARC-AGI-3 бир кадам алдыга барат: Модель интерактивдүү, белгисиз чөйрөлөргө ыргытылат жана анын максатын, башкаруу элементтерин жана физикасын өз алдынча табышы керек — мунун бардыгын убакыт жана иш-аракетти үнөмдүү түрдө жасоодо. Иштеп чыгуучунун алдын ала көрүүсүн 2025-жылдын июлунда чыгаруу пландаштырылууда. Композициялык жалпылоону өздөштүрүү үчүн, келечектеги системалар эки түрдү тең айкалыштырышы керек. Ачкыч комбинатордук жарылууну басаңдатуучу тез, болжолдуу 1-тип эвристикасында жатат.
ARC акыркы максат эмес, тескерисинче, багыт берүүчү жебе катары кызмат кылат: адамдар эң мыкты LLMлер да аткара албаган тапшырмаларды оңой эле иштеп чыга алышса, AGI жетише элек. ARC2 жана жакында ARC3 боюнча прогресс терең үйрөнүү менен программалык издөөнү айкалыштырган гибриддик архитектуралар суюктуктун, маалыматтардын жана эсептөөнүн эффективдүү интеллектинин керектүү деңгээлине жете аларын көрсөтөт.