Το σημείο αναφοράς ARC-AGI

Η συνεχής μείωση της τιμής της υπολογιστικής ισχύος —δύο τάξεις μεγέθους ανά δεκαετία— έχει τροφοδοτήσει σε μεγάλο βαθμό τα μοντέλα βαθιάς μάθησης από το 2010. Τα μεγαλύτερα δίκτυα και περισσότερα δεδομένα φαινομενικά απέδωσαν αξιόπιστα ολοένα και υψηλότερες βαθμολογίες σε κοινά benchmarks— και τροφοδότησαν την ελπίδα ότι η κλιμάκωση από μόνη της θα οδηγούσε αναπόφευκτα στην AGI. Ήδη από το 2019, ο François Chollet παρουσίασε το benchmark ARC-AGI . για να μετρήσουν την νοημοσύνη.


Εξετάσεις όπως το MMLU ή το HELM μετρούν κυρίως απομνημονευμένες γνώσεις που αφορούν συγκεκριμένες εργασίες. Αυτό που λείπει είναι ένα σήμα ρευστής νοημοσύνης - η ικανότητα κατανόησης και επίλυσης ενός εντελώς νέου προβλήματος ad hoc. Το ARC-AGI-1 ("Abstract and Reasoning Corpus for Artificial General Intelligence") περιέχει 1.000 μοναδικές εργασίες που δεν μπορούν να "μαθευτούν".

Κάθε παζλ είναι καινούργιο, απαιτεί μόνο βασικές καθημερινές γνώσεις (αντικείμενα, μέτρηση, απλή γεωμετρία) και είναι πολύ κάτω από το επίπεδο του νηπιαγωγείου—για τους ανθρώπους. Ακόμα και μετά από ένα άλμα κλίμακας 50.000 φορές από τα βασικά LLM, το ποσοστό επιτυχίας παρέμεινε λίγο πάνω από 0%. Εκτός από τον πίνακα κατάταξης , μπορείτε επίσης να δοκιμάσετε τις ενδιαφέρουσες προκλήσεις απευθείας στον επίσημο ιστότοπο.:

Μόλις το 2024 μια νέα προσέγγιση έσπασε το αδιέξοδο: Η Προσαρμογή σε Χρόνο Δοκιμής (TTA) επιτρέπει στα μοντέλα να προσαρμόζουν τα βάρη τους ή ένα πρόγραμμα σύνθεσης κατά τον χρόνο εκτέλεσης. Έτσι, το εσωτερικά βελτιστοποιημένο O3 της OpenAI επέδειξε απόδοση σε ανθρώπινο επίπεδο στο ARC1 για πρώτη φορά. Έκτοτε, κάθε επιτυχημένη μέθοδος ARC έχει χρησιμοποιήσει κάποια μορφή TTA - από την αναζήτηση προγράμματος έως την εκπαίδευση εν κινήσει.

Η ανθρώπινη απόδοση γρήγορα κορέστηκε από το ARC1, οπότε ακολούθησε το ARC-AGI-2 . Διατηρεί τη μορφή εισόδου/εξόδου, αλλά αυξάνει την πολυπλοκότητα σύνθεσης κάθε εργασίας. 400 άτομα στο Σαν Ντιέγκο έλυσαν όλες τις εργασίες. Δέκα τυχαία επιλεγμένα άτομα με πλειοψηφία θα επιτύγχαναν 100%. Τα LLM χωρίς TTA παραμένουν στο 0-2%, αλλά τα συστήματα TTA εξακολουθούν να έχουν πολύ χαμηλότερη απόδοση από τους ανθρώπους.

Το ARC-AGI-3 πηγαίνει ένα βήμα παραπέρα: Το μοντέλο μεταφέρεται σε διαδραστικά, άγνωστα περιβάλλοντα και πρέπει να ανακαλύψει τον στόχο, τα χειριστήρια και τη φυσική του μόνο του—όλα αυτά με τρόπο που να είναι χρονικά και να λειτουργεί αποτελεσματικά. Μια προεπισκόπηση για προγραμματιστές έχει προγραμματιστεί να κυκλοφορήσει τον Ιούλιο του 2025. Για να κατακτήσουν τη γενίκευση της σύνθεσης, τα μελλοντικά συστήματα πρέπει να συνδυάζουν και τους δύο τύπους. Το κλειδί έγκειται σε γρήγορες, προσεγγιστικές ευρετικές Τύπου 1 για να τιθασεύσουν την συνδυαστική έκρηξη.

Το ARC δεν χρησιμεύει ως τελικός στόχος, αλλά μάλλον ως ένα κατευθυντικό βέλος: Όσο οι άνθρωποι μπορούν εύκολα να σχεδιάζουν εργασίες στις οποίες αποτυγχάνουν ακόμη και οι καλύτεροι LLM, η AGI δεν έχει επιτευχθεί. Η πρόοδος στο ARC2 - και σύντομα στο ARC3 - θα δείξει εάν οι υβριδικές αρχιτεκτονικές που συνδυάζουν βαθιά μάθηση και αναζήτηση προγραμμάτων επιτυγχάνουν το απαραίτητο επίπεδο ρευστής, αποδοτικής ως προς τα δεδομένα και τους υπολογισμούς νοημοσύνης.

Πίσω