ARC-AGI չափանիշը

Հաշվողական հզորության գնի շարունակական անկումը՝ տասնամյակում երկու կարգի մեծությամբ, 2010 թվականից ի վեր հսկայականորեն խթանել է խորը ուսուցման մոդելների ստեղծումը: Ավելի մեծ ցանցերը և ավելի շատ տվյալները, կարծես թե, հուսալիորեն ապահովում էին ավելի բարձր միավորներ ընդհանուր չափանիշներով և խթանում էին այն հույսը, որ միայն մասշտաբավորումը անխուսափելիորեն կհանգեցնի AGI-ի: Դեռևս 2019 թվականին Ֆրանսուա Շոլեն ներկայացրեց ARC-AGI չափանիշը: ինտելեկտը չափելու համար։


MMLU-ի կամ HELM-ի նման քննությունները հիմնականում չափում են անգիր արված, առաջադրանքին հատուկ գիտելիքները: Բացակայում է հոսուն ինտելեկտի ազդանշանը՝ բոլորովին նոր խնդիր ad hoc հասկանալու և լուծելու ունակությունը: ARC-AGI-1-ը («Արհեստական ընդհանուր ինտելեկտի աբստրակտ և դատողությունների կորպուս») պարունակում է 1000 եզակի առաջադրանքներ, որոնք հնարավոր չէ «սովորել»:

Յուրաքանչյուր հանելուկ նոր է, պահանջում է միայն տարրական առօրյա գիտելիքներ (առարկաներ, հաշվել, պարզ երկրաչափություն) և շատ ավելի ցածր է, քան մանկապարտեզի մակարդակում՝ մարդկանց համար։ Նույնիսկ հիմնական իրավաբանության դասընթացներից 50,000 անգամ մեծանալուց հետո, հաղթահարման մակարդակը մնացել է մի փոքր ավելի բարձր, քան 0%-ը։ Բացի առաջատարների ցուցակից , կարող եք նաև փորձել հետաքրքիր մարտահրավերները անմիջապես պաշտոնական կայքում։:

Միայն 2024 թվականին ստեղծվեց նոր մոտեցում. Փորձարկման ժամանակի հարմարվողականությունը (TTA) թույլ է տալիս մոդելներին հարմարեցնել իրենց կշիռները կամ սինթեզի ծրագիրը աշխատանքի ընթացքում: Այսպիսով, OpenAI-ի ներքին ճշգրտմամբ O3-ը առաջին անգամ ցուցադրեց մարդկային մակարդակի արդյունավետություն ARC1-ի վրա: Այդ ժամանակվանից ի վեր, ARC-ի յուրաքանչյուր հաջողակ մեթոդ օգտագործել է TTA-ի որևէ ձև՝ ծրագրի որոնումից մինչև անմիջական ուսուցում:

Մարդկային կատարողականը արագորեն հագեցրեց ARC1-ը, ուստի հաջորդեց ARC-AGI-2-ը : Այն պահպանում է I/O ձևաչափը, բայց մեծացնում է յուրաքանչյուր առաջադրանքի կոմպոզիցիոն բարդությունը: Սան Դիեգոյում 400 մասնակիցներ լուծել են բոլոր խնդիրները. տասը պատահականորեն ընտրված անհատներ՝ մեծամասնության ձայներով, կհասնեին 100%-ի: TTA առանց LLM-ի մակարդակը մնում է 0-2%, բայց TTA համակարգերը դեռևս շատ ավելի ցածր են աշխատում, քան մարդիկ:

ARC-AGI-3-ը մեկ քայլ առաջ է գնում. մոդելը նետվում է ինտերակտիվ, անհայտ միջավայրեր և պետք է ինքնուրույն հայտնաբերի իր թիրախը, կառավարման համակարգերը և ֆիզիկան՝ միաժամանակ դա անելով ժամանակի և գործողությունների արդյունավետ եղանակով: Մշակողների համար նախատեսված նախնական տարբերակը նախատեսված է թողարկել 2025 թվականի հուլիսին: Կոմպոզիցիոն ընդհանրացումը տիրապետելու համար ապագա համակարգերը պետք է համատեղեն երկու տեսակները: Հիմնականը կայանում է արագ, մոտավոր 1-ին տիպի էվրիստիկաների մեջ՝ կոմբինատոր պայթյունը զսպելու համար:

ARC-ն չի ծառայում որպես վերջնական նպատակ, այլ որպես ուղղորդող նետ. քանի դեռ մարդիկ կարող են հեշտությամբ մշակել այնպիսի առաջադրանքներ, որոնցում նույնիսկ լավագույն իրավաբանները չեն կարողանում կատարել, արհեստական ինտելեկտի զարգացումը դեռևս չի իրականացվել: ARC2-ի, և շուտով նաև ARC3-ի վրա առաջընթացը ցույց կտա, թե արդյոք խորը ուսուցումը և ծրագրային որոնումը համատեղող հիբրիդային ճարտարապետությունները հասնում են հոսուն, տվյալների և հաշվարկների արդյունավետության անհրաժեշտ մակարդակին:

Վերադառնալ