Điểm chuẩn ARC-AGI07
25

Sự suy giảm liên tục về giá năng lực tính toán—hai cấp độ mỗi thập kỷ—đã thúc đẩy mạnh mẽ các mô hình học sâu kể từ năm 2010. Các mạng lưới lớn hơn cùng với nhiều dữ liệu hơn dường như đáng tin cậy hơn khi cung cấp điểm số ngày càng cao hơn trên các chuẩn mực chung—và thúc đẩy hy vọng rằng chỉ riêng việc mở rộng quy mô chắc chắn sẽ dẫn đến AGI. Ngay từ năm 2019, François Chollet đã giới thiệu chuẩn mực ARC-AGI . để đo trí thông minh.

Các kỳ thi như MMLU hoặc HELM chủ yếu đo lường kiến thức ghi nhớ, cụ thể về nhiệm vụ. Điều còn thiếu là tín hiệu của trí thông minh lưu loát—khả năng hiểu và giải quyết một vấn đề hoàn toàn mới một cách ngẫu nhiên. ARC-AGI-1 ("Abstract and Reasoning Corpus for Artificial General Intelligence") chứa 1.000 nhiệm vụ độc đáo không thể "học được".

Mỗi câu đố đều mới, chỉ yêu cầu kiến thức cơ bản hàng ngày (đồ vật, đếm, hình học đơn giản) và thấp hơn nhiều so với trình độ mẫu giáo—đối với con người. Ngay cả sau khi tăng gấp 50.000 lần so với LLM cơ bản, tỷ lệ trúng vẫn chỉ ở mức trên 0%. Ngoài bảng xếp hạng , bạn cũng có thể thử các thử thách thú vị trực tiếp trên trang web chính thức.:

Phải đến năm 2024, một phương pháp tiếp cận mới mới phá vỡ được bế tắc: Thích ứng thời gian thử nghiệm (TTA) cho phép các mô hình điều chỉnh trọng số hoặc chương trình tổng hợp khi chạy. Do đó, O3 được tinh chỉnh nội bộ của OpenAI đã chứng minh hiệu suất ở cấp độ con người trên ARC1 lần đầu tiên. Kể từ đó, mọi phương pháp ARC thành công đều sử dụng một số hình thức TTA—từ tìm kiếm chương trình đến đào tạo tức thời.

Hiệu suất của con người nhanh chóng bão hòa ARC1, do đó ARC-AGI-2 theo sau. Nó giữ nguyên định dạng I/O nhưng làm tăng độ phức tạp về mặt thành phần của mỗi nhiệm vụ. 400 đối tượng ở San Diego đã giải quyết tất cả các nhiệm vụ; mười cá nhân được chọn ngẫu nhiên với số phiếu bầu đa số sẽ đạt được 100%. LLM không có TTA vẫn ở mức 0-2%, nhưng hệ thống TTA vẫn hoạt động kém xa con người.

ARC-AGI-3 tiến xa hơn một bước nữa: Mô hình được đưa vào các môi trường tương tác, không xác định và phải tự khám phá mục tiêu, điều khiển và vật lý của nó—tất cả đều thực hiện theo cách hiệu quả về thời gian và hành động. Bản xem trước dành cho nhà phát triển dự kiến phát hành vào tháng 7 năm 2025. Để làm chủ được khái quát hóa thành phần, các hệ thống trong tương lai phải kết hợp cả hai loại. Chìa khóa nằm ở các phương pháp tìm kiếm nhanh, gần đúng Loại 1 để chế ngự sự bùng nổ kết hợp.

ARC không đóng vai trò là mục tiêu cuối cùng, mà là một mũi tên chỉ hướng: Miễn là con người có thể dễ dàng thiết kế các nhiệm vụ mà ngay cả những LLM giỏi nhất cũng không làm được, thì AGI vẫn chưa đạt được. Tiến trình trên ARC2—và sớm thôi là ARC3—sẽ cho thấy liệu các kiến trúc lai kết hợp học sâu và tìm kiếm chương trình có đạt được mức độ thông minh cần thiết về tính lưu động, dữ liệu và tính toán hiệu quả hay không.

Trở lại

Điểm chuẩn ARC-AGI0725

Điểm chuẩn ARC-AGI07
25