La continua disminución del precio de la potencia computacional (dos órdenes de magnitud por década) ha impulsado enormemente los modelos de aprendizaje profundo desde 2010. Redes más grandes, junto con un mayor número de datos, aparentemente fiables, arrojaron puntuaciones cada vez más altas en los indicadores comunes, y alimentaron la esperanza de que el escalamiento por sí solo conduciría inevitablemente a la IA general. Ya en 2019, François Chollet introdujo el indicador ARC-AGI . para medir la inteligencia.
Exámenes como el MMLU o el HELM miden principalmente el conocimiento memorizado y específico de cada tarea. Lo que falta es una señal de inteligencia fluida: la capacidad de comprender y resolver un problema completamente nuevo ad hoc. ARC-AGI-1 ("Corpus Abstracto y de Razonamiento para la Inteligencia Artificial General") contiene 1000 tareas únicas que no se pueden "aprender".
Cada rompecabezas es nuevo, requiere solo conocimientos básicos del día a día (objetos, contar, geometría simple) y está muy por debajo del nivel de un niño de preescolar (para humanos). Incluso después de un aumento de 50.000 veces en la escala desde los LLM básicos, la tasa de aciertos se mantuvo ligeramente por encima del 0 %. Además de la tabla de clasificación , también puedes probar los interesantes desafíos directamente en el sitio web oficial.:

No fue hasta 2024 que un nuevo enfoque rompió el estancamiento: la Adaptación en Tiempo de Prueba (TTA) permite que los modelos adapten sus ponderaciones o un programa de síntesis en tiempo de ejecución. De este modo, el O3 de OpenAI, optimizado internamente, demostró por primera vez un rendimiento a nivel humano en ARC1. Desde entonces, todos los métodos ARC exitosos han utilizado alguna forma de TTA, desde la búsqueda de programas hasta el entrenamiento sobre la marcha.
El rendimiento humano saturó rápidamente ARC1, por lo que le siguió ARC-AGI-2 . Conserva el formato de E/S, pero aumenta la complejidad compositiva de cada tarea. 400 sujetos en San Diego resolvieron todas las tareas; diez individuos seleccionados al azar con una mayoría de votos lograrían el 100 %. Los LLM sin TTA se mantienen entre el 0 % y el 2 %, pero los sistemas con TTA aún tienen un rendimiento muy inferior al de los humanos.
ARC-AGI-3 va un paso más allá: el modelo se lanza a entornos interactivos desconocidos y debe descubrir su objetivo, controles y física por sí solo, todo ello de forma eficiente en tiempo y acción. Se prevé el lanzamiento de una versión preliminar para desarrolladores en julio de 2025. Para dominar la generalización compositiva, los sistemas futuros deben combinar ambos tipos. La clave reside en una heurística de Tipo 1 rápida y aproximada para controlar la explosión combinatoria.
ARC no sirve como objetivo final, sino como una flecha direccional: mientras los humanos puedan diseñar fácilmente tareas en las que incluso los mejores LLM fallan, no se habrá alcanzado la IAG. Los avances en ARC2, y pronto en ARC3, demostrarán si las arquitecturas híbridas que combinan aprendizaje profundo y búsqueda de programas alcanzan el nivel necesario de inteligencia fluida y eficiente en datos y computación.