コンピューティング能力の価格が10年ごとに2桁ずつ低下し続けていることは、2010年以降、ディープラーニングモデルの開発を飛躍的に加速させてきました。ネットワークの大規模化とデータ量の増大により、一般的なベンチマークにおいて、これまで以上に高いスコアが確実に得られるようになり、スケーリングだけでAGIが実現できるという期待が高まりました。フランソワ・ショレは早くも2019年にARC-AGIベンチマークを発表しました。 知能を測定するため。
MMLUやHELMのような試験は、主に記憶された特定のタスクに関する知識を測定します。そこに欠けているのは、流動性知能、つまり全く新しい問題を臨機応変に理解し解決する能力です。ARC -AGI-1 (「汎用人工知能のための抽象推論コーパス」)には、「学習」できない1,000の固有のタスクが含まれています。
それぞれのパズルは新しく、基本的な日常知識(物体、数え方、簡単な幾何学)のみを必要とし、人間にとっては幼稚園レベルをはるかに下回る難易度です。基本的なLLMから5万倍にスケールアップした後でも、ヒット率は0%をわずかに上回っています。リーダーボードに加えて、公式ウェブサイトで直接、興味深いチャレンジに挑戦することもできます。:

2024年になってようやく、新たなアプローチが行き詰まりを打破しました。テスト時適応(TTA)により、モデルは実行時に重みや合成プログラムを適応させることが可能になりました。OpenAIが内部的に微調整したO3は、ARC1で初めて人間レベルのパフォーマンスを発揮しました。それ以来、成功したARC手法はすべて、プログラム探索からオンザフライ学習まで、何らかの形でTTAを活用してきました。
ARC1は人間のパフォーマンスで急速に飽和状態になったため、 ARC-AGI-2が登場しました。ARC-AGI-2はI/O形式を維持しながら、各タスクの構成の複雑さを高めています。サンディエゴで400人の被験者がすべてのタスクを解いたところ、無作為に選ばれた10人が多数決で100%を達成しました。TTAのないLLMは0~2%の成績にとどまりますが、TTAシステムは依然として人間をはるかに下回るパフォーマンスを示しています。
ARC-AGI-3はさらに一歩進んでいます。モデルはインタラクティブな未知の環境に放り込まれ、ターゲット、制御、そして物理法則を自ら発見しなければなりません。しかも、これらはすべて時間と動作を効率的に実行しなければなりません。開発者プレビューは2025年7月にリリース予定です。構成的一般化を習得するには、将来のシステムは両方のタイプを組み合わせる必要があります。鍵となるのは、組み合わせ爆発を抑制するための高速で近似的なタイプ1ヒューリスティックです。
ARCは最終目標ではなく、むしろ方向を示す矢印です。人間が最高の法学修士でさえ達成できないタスクを容易に設計できる限り、AGIは実現されていません。ARC2、そして間もなく登場するARC3の進展は、深層学習とプログラム探索を組み合わせたハイブリッドアーキテクチャが、必要なレベルの流動的でデータ効率と計算効率に優れた知能を実現できるかどうかを示すでしょう。