Постоянное снижение стоимости вычислительной мощности — на два порядка за десятилетие — чрезвычайно подпитывало модели глубокого обучения с 2010 года. Более крупные сети и больше данных, казалось бы, надежно обеспечивали все более высокие баллы на общих бенчмарках — и подпитывали надежду, что масштабирование само по себе неизбежно приведет к AGI. Еще в 2019 году Франсуа Шолле представил бенчмарк ARC-AGI . для измерения интеллекта.
Такие экзамены, как MMLU или HELM, в первую очередь измеряют заученные знания, связанные с конкретными задачами. Чего не хватает, так это сигнала подвижного интеллекта — способности понимать и решать совершенно новую проблему ad hoc. ARC-AGI-1 («Корпус абстрактных и рассуждающих знаний для искусственного интеллекта») содержит 1000 уникальных задач, которые нельзя «выучить».
Каждая головоломка новая, требует только базовых повседневных знаний (предметы, счет, простая геометрия) и намного ниже уровня детского сада — для людей. Даже после 50 000-кратного скачка масштабирования от базовых LLM, процент попаданий остался чуть выше 0%. В дополнение к таблице лидеров , вы также можете попробовать интересные задачи прямо на официальном сайте.:

Только в 2024 году новый подход вывел из тупика: Test-Time Adaptation (TTA) позволяет моделям адаптировать свои веса или программу синтеза во время выполнения. Таким образом, внутренне настроенный O3 OpenAI впервые продемонстрировал производительность человеческого уровня на ARC1. С тех пор каждый успешный метод ARC использовал ту или иную форму TTA — от поиска программы до обучения на лету.
Человеческая производительность быстро насытила ARC1, поэтому последовал ARC-AGI-2 . Он сохраняет формат ввода-вывода, но увеличивает композиционную сложность каждой задачи. 400 испытуемых в Сан-Диего решили все задачи; десять случайно выбранных лиц с большинством голосов достигли бы 100%. LLM без TTA остаются на уровне 0-2%, но системы TTA все еще работают намного хуже людей.
ARC-AGI-3 делает еще один шаг вперед: модель помещается в интерактивные, неизвестные среды и должна самостоятельно обнаружить свою цель, элементы управления и физику — и все это в режиме, эффективном по времени и действиям. Предварительный просмотр для разработчиков запланирован к выпуску в июле 2025 года. Чтобы освоить композиционное обобщение, будущие системы должны будут сочетать оба типа. Ключ заключается в быстрых, приблизительных эвристиках типа 1 для усмирения комбинаторного взрыва.
ARC не является конечной целью, а скорее стрелкой направления: пока люди могут легко разрабатывать задачи, с которыми не справляются даже лучшие LLM, AGI не будет достигнут. Прогресс в ARC2 — а вскоре и в ARC3 — покажет, смогут ли гибридные архитектуры, объединяющие глубокое обучение и программный поиск, достичь необходимого уровня гибкого, эффективного с точки зрения данных и вычислений интеллекта.