ARC-AGI அளவுகோல்

கணினி சக்தியின் விலையில் தொடர்ச்சியான சரிவு - ஒரு தசாப்தத்திற்கு இரண்டு ஆர்டர்கள் அளவு - 2010 முதல் ஆழ்ந்த கற்றல் மாதிரிகளை பெருமளவில் தூண்டியுள்ளது. பெரிய நெட்வொர்க்குகள் மற்றும் அதிக தரவு ஆகியவை பொதுவான அளவுகோல்களில் எப்போதும் இல்லாத அளவுக்கு அதிக மதிப்பெண்களை வழங்குவதாகத் தெரிகிறது - மேலும் அளவிடுதல் மட்டும் தவிர்க்க முடியாமல் AGI க்கு வழிவகுக்கும் என்ற நம்பிக்கையைத் தூண்டியது. 2019 ஆம் ஆண்டின் தொடக்கத்தில், பிரான்சுவா சோலெட் ARC-AGI அளவுகோலை அறிமுகப்படுத்தினார். நுண்ணறிவை அளவிட.


MMLU அல்லது HELM போன்ற தேர்வுகள் முதன்மையாக மனப்பாடம் செய்யப்பட்ட, பணி சார்ந்த அறிவை அளவிடுகின்றன. காணாமல் போனது திரவ நுண்ணறிவின் சமிக்ஞை - முற்றிலும் புதிய சிக்கலைப் புரிந்துகொண்டு தீர்க்கும் திறன். ARC-AGI-1 ("செயற்கை பொது நுண்ணறிவுக்கான சுருக்கம் மற்றும் பகுத்தறிவு கார்பஸ்") "கற்றுக்கொள்ள" முடியாத 1,000 தனித்துவமான பணிகளைக் கொண்டுள்ளது.

ஒவ்வொரு புதிரும் புதியது, அடிப்படை அன்றாட அறிவு மட்டுமே தேவைப்படுகிறது (பொருள்கள், எண்ணுதல், எளிய வடிவியல்), மேலும் மனிதர்களுக்கு மழலையர் பள்ளி மட்டத்தை விட மிகவும் கீழே உள்ளது. அடிப்படை LLM களில் இருந்து 50,000 மடங்கு அளவிடுதல் தாவலுக்குப் பிறகும், வெற்றி விகிதம் 0% க்கு சற்று மேலேயே இருந்தது. லீடர்போர்டுக்கு கூடுதலாக, அதிகாரப்பூர்வ வலைத்தளத்தில் நீங்கள் சுவாரஸ்யமான சவால்களையும் நேரடியாக முயற்சி செய்யலாம்.:

2024 ஆம் ஆண்டு வரை ஒரு புதிய அணுகுமுறை முட்டுக்கட்டையை உடைத்தது: சோதனை-நேர தழுவல் (TTA) மாதிரிகள் தங்கள் எடைகளை அல்லது இயக்க நேரத்தில் ஒரு தொகுப்பு நிரலை மாற்றியமைக்க அனுமதிக்கிறது. OpenAI இன் உள்நாட்டில் நன்றாகச் சரிசெய்யப்பட்ட O3, ARC1 இல் முதல் முறையாக மனித அளவிலான செயல்திறனை நிரூபித்தது. அப்போதிருந்து, ஒவ்வொரு வெற்றிகரமான ARC முறையும் ஏதோ ஒரு வகையான TTA ஐப் பயன்படுத்தியுள்ளது - நிரல் தேடலில் இருந்து பறக்கும் பயிற்சி வரை.

மனித செயல்திறன் விரைவாக ARC1 ஐ நிறைவு செய்தது, எனவே ARC-AGI-2 அதைத் தொடர்ந்து வந்தது. இது I/O வடிவமைப்பைத் தக்க வைத்துக் கொள்கிறது, ஆனால் ஒவ்வொரு பணியின் கலவை சிக்கலையும் அதிகரிக்கிறது. சான் டியாகோவில் 400 பாடங்கள் அனைத்து பணிகளையும் தீர்த்தன; பெரும்பான்மை வாக்குகளுடன் சீரற்ற முறையில் தேர்ந்தெடுக்கப்பட்ட பத்து நபர்கள் 100% ஐ அடைவார்கள். TTA இல்லாத LLMகள் 0-2% இல் உள்ளன, ஆனால் TTA அமைப்புகள் இன்னும் மனிதர்களை விட மிகக் குறைவாகவே செயல்படுகின்றன.

ARC-AGI-3 ஒரு படி மேலே செல்கிறது: இந்த மாதிரி ஊடாடும், அறியப்படாத சூழல்களுக்குள் தள்ளப்படுகிறது, மேலும் அதன் இலக்கு, கட்டுப்பாடுகள் மற்றும் இயற்பியலை அதன் சொந்தமாகக் கண்டறிய வேண்டும் - அதே நேரத்தில் நேரத்திலும் செயல் திறனிலும் அதைச் செய்ய வேண்டும். ஒரு டெவலப்பர் முன்னோட்டம் ஜூலை 2025 இல் வெளியிட திட்டமிடப்பட்டுள்ளது. தொகுப்பு பொதுமைப்படுத்தலில் தேர்ச்சி பெற, எதிர்கால அமைப்புகள் இரண்டு வகைகளையும் இணைக்க வேண்டும். கூட்டு வெடிப்பைக் கட்டுப்படுத்த வேகமான, தோராயமான வகை 1 ஹூரிஸ்டிக்ஸில் முக்கியமானது.

ARC ஒரு இறுதி இலக்காக அல்ல, மாறாக ஒரு திசை அம்புக்குறியாக செயல்படுகிறது: சிறந்த LLMகள் கூட தோல்வியடையும் பணிகளை மனிதர்கள் எளிதாக வடிவமைக்க முடியும் வரை, AGI அடையப்படவில்லை. ARC2 இல் முன்னேற்றம் - மற்றும் விரைவில் ARC3 - ஆழமான கற்றல் மற்றும் நிரல் தேடலை இணைக்கும் கலப்பின கட்டமைப்புகள் தேவையான அளவிலான திரவம், தரவு மற்றும் கணினி-திறமையான நுண்ணறிவை அடைகிறதா என்பதைக் காண்பிக்கும்.

மீண்டும்