ការធ្លាក់ចុះជាបន្តបន្ទាប់នៃតម្លៃថាមពលកុំព្យូទ័រ—លំដាប់ពីរនៃរ៉ិចទ័រក្នុងមួយទសវត្សរ៍—បានជំរុញឱ្យមានគំរូសិក្សាស៊ីជម្រៅយ៉ាងខ្លាំងចាប់តាំងពីឆ្នាំ 2010 មក។ បណ្តាញធំជាង បូកនឹងទិន្នន័យកាន់តែច្រើនហាក់ដូចជាអាចជឿទុកចិត្តបានដែលផ្តល់ពិន្ទុខ្ពស់ជាងមិនធ្លាប់មាននៅលើស្តង់ដារទូទៅ—ហើយជំរុញឱ្យមានក្តីសង្ឃឹមថាការធ្វើមាត្រដ្ឋានតែម្នាក់ឯងនឹងនាំទៅរក AGI ដោយជៀសមិនរួច។ នៅដើមឆ្នាំ 2019 លោក François Chollet បានណែនាំអំពីស្តង់ដារ ARC-AGI ។ ដើម្បីវាស់ស្ទង់បញ្ញា។
ការប្រឡងដូចជា MMLU ឬ HELM ជាចម្បងវាស់ស្ទង់ចំណេះដឹងជាក់លាក់នៃកិច្ចការដែលទន្ទេញចាំ។ អ្វីដែលបាត់នោះគឺជាសញ្ញានៃភាពឆ្លាតវៃរាវ—សមត្ថភាពក្នុងការយល់និងដោះស្រាយបញ្ហាថ្មីទាំងស្រុង។ ARC-AGI-1 ("Abstract and Reasoning Corpus for Artificial General Intelligence") មានកិច្ចការពិសេសចំនួន 1,000 ដែលមិនអាច "រៀន" បាន។
ល្បែងផ្គុំរូបនីមួយៗគឺថ្មី ទាមទារតែចំណេះដឹងប្រចាំថ្ងៃជាមូលដ្ឋាន (វត្ថុ ការរាប់ ធរណីមាត្រសាមញ្ញ) ហើយទាបជាងកម្រិតមត្តេយ្យ - សម្រាប់មនុស្ស។ សូម្បីតែបន្ទាប់ពីការលោតធ្វើមាត្រដ្ឋាន 50,000 ដងពី LLMs មូលដ្ឋានក៏ដោយ ក៏អត្រានៃការវាយលុកនៅតែលើសពី 0% ប៉ុណ្ណោះ។ បន្ថែមពីលើ តារាងពិន្ទុ អ្នកក៏អាច សាកល្បង បញ្ហាប្រឈមគួរឱ្យចាប់អារម្មណ៍ដោយផ្ទាល់នៅលើគេហទំព័រផ្លូវការ។:

វាមិនមែនរហូតដល់ឆ្នាំ 2024 ដែលវិធីសាស្រ្តថ្មីមួយបានបំបែកភាពជាប់គាំង: Test-Time Adaptation (TTA) អនុញ្ញាតឱ្យម៉ូដែលសម្របទម្ងន់របស់ពួកគេ ឬកម្មវិធីសំយោគនៅពេលដំណើរការ។ O3 ដែលត្រូវបានកែសម្រួលយ៉ាងល្អិតល្អន់ខាងក្នុងរបស់ OpenAI ដូច្នេះបានបង្ហាញពីការអនុវត្តកម្រិតមនុស្សនៅលើ ARC1 ជាលើកដំបូង។ ចាប់តាំងពីពេលនោះមក រាល់វិធីសាស្ត្រ ARC ដែលទទួលបានជោគជ័យបានប្រើទម្រង់មួយចំនួននៃ TTA—ពីការស្វែងរកកម្មវិធីរហូតដល់ការបណ្តុះបណ្តាលនៅលើយន្តហោះ។
ការអនុវត្តរបស់មនុស្សបានឆ្អែត ARC1 យ៉ាងឆាប់រហ័ស ដូច្នេះ ARC-AGI-2 បានធ្វើតាម។ វារក្សាទម្រង់ I/O ប៉ុន្តែបង្កើនភាពស្មុគស្មាញនៃសមាសភាពនៃកិច្ចការនីមួយៗ។ មុខវិជ្ជាចំនួន 400 នៅ San Diego បានដោះស្រាយបញ្ហាទាំងអស់; បុគ្គលដែលជ្រើសរើសដោយចៃដន្យចំនួនដប់នាក់ដែលមានសំឡេងភាគច្រើននឹងសម្រេចបាន 100% ។ LLMs ដោយគ្មាន TTA នៅតែមាន 0-2% ប៉ុន្តែប្រព័ន្ធ TTA នៅតែដំណើរការទាបជាងមនុស្ស។
ARC-AGI-3 ឈានទៅមុខមួយជំហានទៀត៖ គំរូនេះត្រូវបានគេបោះចូលទៅក្នុងបរិយាកាសអន្តរកម្ម ដែលមិនស្គាល់ ហើយត្រូវតែស្វែងរកគោលដៅ ការគ្រប់គ្រង និងរូបវិទ្យារបស់វាដោយខ្លួនឯង — ទាំងអស់នៅពេលធ្វើដូច្នេះក្នុងលក្ខណៈទាន់ពេលវេលា និងមានប្រសិទ្ធភាព។ ការមើលជាមុនរបស់អ្នកអភិវឌ្ឍន៍ត្រូវបានកំណត់ពេលសម្រាប់ការចេញផ្សាយនៅខែកក្កដា ឆ្នាំ 2025។ ដើម្បីធ្វើជាម្ចាស់ការទូទៅនៃសមាសភាព ប្រព័ន្ធនាពេលអនាគតត្រូវតែបញ្ចូលគ្នាទាំងពីរប្រភេទ។ គន្លឹះស្ថិតនៅក្នុងការស្រាវជ្រាវបែបប្រហាក់ប្រហែលប្រភេទទី 1 ដែលមានល្បឿនលឿនដើម្បីទប់ទល់នឹងការផ្ទុះផ្សំ។
ARC មិនបម្រើជាគោលដៅបញ្ចប់នោះទេ ប៉ុន្តែជាព្រួញតម្រង់ទិស៖ ដរាបណាមនុស្សអាចរៀបចំភារកិច្ចបានយ៉ាងងាយស្រួលដែលសូម្បីតែ LLMs ល្អបំផុតក៏បរាជ័យ AGI ក៏មិនបានសម្រេចដែរ។ វឌ្ឍនភាពនៅលើ ARC2—ហើយឆាប់ៗនេះ ARC3—នឹងបង្ហាញថាតើស្ថាបត្យកម្មកូនកាត់ដែលរួមបញ្ចូលគ្នានូវការរៀនសូត្រជ្រៅ និងការស្វែងរកកម្មវិធីសម្រេចបាននូវកម្រិតចាំបាច់នៃអង្គធាតុរាវ ទិន្នន័យ និងបញ្ញាដែលមានប្រសិទ្ធភាពគណនា។