Орієнтир ARC-AGI

Постійне зниження ціни на обчислювальну потужність — на два порядки величини за десятиліття — надзвичайно підживлювало моделі глибокого навчання з 2010 року. Більші мережі та більше даних, здавалося б, надійно забезпечували дедалі вищі бали за загальними тестами — і підживлювали надію на те, що саме масштабування неминуче призведе до AGI. Ще у 2019 році Франсуа Шолле представив тест ARC-AGI . вимірювати інтелект.


Такі іспити, як MMLU або HELM, в основному оцінюють запам'ятовані знання, що відповідають конкретним завданням. Бракує ознаки гнучкого інтелекту — здатності розуміти та вирішувати абсолютно нову проблему ad hoc. ARC-AGI-1 («Корпус рефератів та міркувань для загального штучного інтелекту») містить 1000 унікальних завдань, які неможливо «вивчити».

Кожна головоломка нова, вимагає лише базових повсякденних знань (предмети, лічба, проста геометрія) та значно нижча за рівень дитячого садка — для людей. Навіть після 50 000-кратного збільшення масштабу порівняно з базовими LLM, відсоток влучень залишався трохи вище 0%. Окрім таблиці лідерів , ви також можете спробувати цікаві завдання безпосередньо на офіційному вебсайті.:

Лише у 2024 році новий підхід вирвав цю глухий кут: адаптація під час тестування (TTA) дозволяє моделям адаптувати свої ваги або програму синтезу під час виконання. Таким чином, внутрішньо налаштований O3 OpenAI вперше продемонстрував продуктивність на рівні людини в ARC1. Відтоді кожен успішний метод ARC використовував певну форму TTA — від пошуку програми до навчання на льоту.

Людська продуктивність швидко перенаситила ARC1, тому було запропоновано ARC-AGI-2 . Вона зберігає формат вводу/виводу, але збільшує композиційну складність кожного завдання. 400 учасників у Сан-Дієго вирішили всі завдання; десять випадково обраних осіб більшістю голосів досягли б 100%. LLM без TTA залишаються на рівні 0-2%, але системи TTA все ще виконують набагато менше, ніж люди.

ARC-AGI-3 йде ще далі: модель потрапляє в інтерактивне, невідоме середовище та повинна самостійно визначити свою ціль, елементи керування та фізику — і все це ефективно з точки зору часу та дій. Випуск попередньої версії для розробників заплановано на липень 2025 року. Щоб опанувати композиційне узагальнення, майбутні системи повинні поєднувати обидва типи. Ключ полягає в швидкій, наближеній евристиці типу 1, щоб приборкати комбінаторний вибух.

ARC не служить кінцевою метою, а радше стрілкою напрямку: доки люди можуть легко розробляти завдання, з якими не справляються навіть найкращі LLM, AGI ще не досягнуто. Прогрес у розробці ARC2 — а незабаром і ARC3 — покаже, чи гібридні архітектури, що поєднують глибоке навчання та пошук програм, досягнуть необхідного рівня гнучкого, ефективного з точки зору даних та обчислень інтелекту.

Назад