Az ARC-AGI referenciaérték07
25

A számítási teljesítmény árának folyamatos – évtizedenként két nagyságrendnyi – csökkenése 2010 óta óriási mértékben táplálta a mélytanulási modelleket. A nagyobb hálózatok és a több adat látszólag megbízhatóan egyre magasabb pontszámokat hoztak a közös benchmarkokon – és táplálta azt a reményt, hogy a skálázás önmagában elkerülhetetlenül az AGI-hoz vezet. François Chollet már 2019-ben bevezette az ARC-AGI benchmarkot. az intelligencia mérésére.

Az olyan vizsgák, mint az MMLU vagy a HELM, elsősorban a memorizált, feladatspecifikus tudást mérik. Ami hiányzik belőlük, az a fluid intelligencia jele – az a képesség, hogy egy teljesen új problémát ad hoc módon megértsünk és megoldjunk. Az ARC-AGI-1 („Absztrakt és érvelő korpusz a mesterséges általános intelligenciához”) 1000 egyedi feladatot tartalmaz, amelyeket nem lehet „megtanulni”.

Minden rejtvény új, csak alapvető mindennapi ismereteket igényel (tárgyak, számolás, egyszerű geometria), és messze az óvodai szint – az emberek számára – alatt van. Még az alapvető LLM-ekhez képest 50 000-szeres ugrás után is a találati arány alig 0% felett maradt. A ranglista mellett közvetlenül a hivatalos weboldalon is kipróbálhatod az érdekes kihívásokat.:

Csak 2024-ben tört át egy új megközelítés a patthelyzeten: a tesztidő-adaptáció (TTA) lehetővé teszi a modellek számára, hogy futásidejűleg adaptálják súlyaikat vagy egy szintézisprogramot. Az OpenAI belsőleg finomhangolt O3-a így elsőként mutatott emberi szintű teljesítményt az ARC1-en. Azóta minden sikeres ARC-módszer valamilyen formában használta a TTA-t – a programkereséstől a menet közbeni betanításig.

Az emberi teljesítmény gyorsan telítette az ARC1-et, így az ARC-AGI-2 következett. Megtartja az I/O formátumot, de növeli az egyes feladatok kompozíciós összetettségét. San Diegóban 400 alany oldotta meg az összes feladatot; tíz véletlenszerűen kiválasztott személy többségi szavazattal elérte a 100%-os eredményt. A TTA nélküli LLM-ek 0-2% között maradnak, de a TTA rendszerek még mindig messze az emberek alatt teljesítenek.

Az ARC-AGI-3 egy lépéssel továbbmegy: a modellt interaktív, ismeretlen környezetbe dobják, és önállóan kell felfedeznie a célpontját, a vezérlőket és a fizikát – mindezt idő- és cselekvéshatékony módon. A fejlesztői előzetes megjelenése 2025 júliusában várható. A kompozíciós általánosítás elsajátításához a jövőbeli rendszereknek mindkét típust kombinálniuk kell. A kulcs a gyors, közelítő 1-es típusú heurisztikákban rejlik, amelyekkel meg lehet fékezni a kombinatorikus robbanást.

Az ARC nem végcélként szolgál, hanem inkább iránymutatóként: Amíg az emberek könnyen tudnak olyan feladatokat tervezni, amelyekben még a legjobb LLM-ek is kudarcot vallanak, addig az AGI még nem valósult meg. Az ARC2 – és hamarosan az ARC3 – fejlesztése megmutatja, hogy a mélytanulást és a programkeresést ötvöző hibrid architektúrák elérik-e a szükséges folyékony, adat- és számításhatékony intelligencia szintet.

Vissza

Az ARC-AGI referenciaérték0725

Az ARC-AGI referenciaérték07
25