ARC-AGI বেঞ্চমার্ক07
25

কম্পিউটিং পাওয়ারের দামের ক্রমাগত পতন—প্রতি দশকে দুই ক্রমিক মাত্রা—২০১০ সাল থেকে গভীর শিক্ষার মডেলগুলিকে ব্যাপকভাবে উৎসাহিত করেছে। বৃহত্তর নেটওয়ার্ক এবং আরও ডেটা আপাতদৃষ্টিতে নির্ভরযোগ্যভাবে সাধারণ মানদণ্ডে উচ্চতর স্কোর প্রদান করেছে—এবং এই আশা জাগিয়ে তুলেছে যে শুধুমাত্র স্কেলিং অনিবার্যভাবে AGI-এর দিকে পরিচালিত করবে। ২০১৯ সালের প্রথম দিকে, ফ্রাঁসোয়া চোলেট ARC-AGI বেঞ্চমার্ক চালু করেছিলেন। বুদ্ধিমত্তা পরিমাপ করার জন্য।

MMLU বা HELM-এর মতো পরীক্ষাগুলি মূলত মুখস্থ, কার্য-নির্দিষ্ট জ্ঞান পরিমাপ করে। যা অনুপস্থিত তা হল তরল বুদ্ধিমত্তার একটি সংকেত - একটি সম্পূর্ণ নতুন সমস্যা অ্যাডহক বোঝার এবং সমাধান করার ক্ষমতা। ARC-AGI-1 ("কৃত্রিম সাধারণ বুদ্ধিমত্তার জন্য সারাংশ এবং যুক্তি কর্পাস") তে 1,000টি অনন্য কাজ রয়েছে যা "শেখা" যায় না।

প্রতিটি ধাঁধা নতুন, শুধুমাত্র মৌলিক দৈনন্দিন জ্ঞানের (বস্তু, গণনা, সহজ জ্যামিতি) প্রয়োজন, এবং কিন্ডারগার্টেন স্তরের অনেক নিচে—মানুষের জন্য। বেসিক LLM থেকে ৫০,০০০ গুণ স্কেলিং লাফ দেওয়ার পরেও, হিট রেট ০% এর উপরেই রয়ে গেছে। লিডারবোর্ড ছাড়াও, আপনি সরাসরি অফিসিয়াল ওয়েবসাইটে আকর্ষণীয় চ্যালেঞ্জগুলি চেষ্টা করে দেখতে পারেন।:

২০২৪ সালের আগে একটি নতুন পদ্ধতি এই অচলাবস্থা ভেঙে ফেলেনি: টেস্ট-টাইম অ্যাডাপ্টেশন (TTA) মডেলগুলিকে রানটাইমে তাদের ওজন বা সংশ্লেষণ প্রোগ্রাম অভিযোজিত করার অনুমতি দেয়। OpenAI-এর অভ্যন্তরীণভাবে সূক্ষ্ম-সুরক্ষিত O3 এইভাবে প্রথমবারের মতো ARC1-এ মানব-স্তরের কর্মক্ষমতা প্রদর্শন করেছে। তারপর থেকে, প্রতিটি সফল ARC পদ্ধতিতে প্রোগ্রাম অনুসন্ধান থেকে শুরু করে অন-দ্য-ফ্লাই প্রশিক্ষণ পর্যন্ত কোনও না কোনও ধরণের TTA ব্যবহার করা হয়েছে।

মানুষের কর্মক্ষমতা দ্রুত ARC1-কে পরিপূর্ণ করে, তাই ARC-AGI-2-এর পরে আসে। এটি I/O ফর্ম্যাট ধরে রাখে কিন্তু প্রতিটি কাজের রচনাগত জটিলতা বৃদ্ধি করে। সান দিয়েগোতে ৪০০ জন বিষয় সমস্ত কাজ সমাধান করে; সংখ্যাগরিষ্ঠ ভোটের মাধ্যমে দশজন এলোমেলোভাবে নির্বাচিত ব্যক্তি ১০০% অর্জন করবে। TTA ছাড়া LLM ০-২% এ থাকে, কিন্তু TTA সিস্টেমগুলি এখনও মানুষের চেয়ে অনেক কম পারফর্ম করে।

ARC-AGI-3 আরও এক ধাপ এগিয়ে: মডেলটিকে ইন্টারেক্টিভ, অজানা পরিবেশে নিক্ষেপ করা হয়েছে এবং এর লক্ষ্য, নিয়ন্ত্রণ এবং পদার্থবিদ্যা নিজেই আবিষ্কার করতে হবে - সময় এবং কর্ম-দক্ষ পদ্ধতিতে এটি করার সময়। একটি বিকাশকারী প্রিভিউ 2025 সালের জুলাই মাসে প্রকাশের জন্য নির্ধারিত হয়েছে। রচনাগত সাধারণীকরণ আয়ত্ত করতে, ভবিষ্যতের সিস্টেমগুলিকে উভয় ধরণের একত্রিত করতে হবে। কম্বিনেটরিয়াল বিস্ফোরণকে নিয়ন্ত্রণ করার জন্য দ্রুত, আনুমানিক টাইপ 1 হিউরিস্টিকের মূল চাবিকাঠি নিহিত।

ARC কোনও চূড়ান্ত লক্ষ্য হিসেবে কাজ করে না, বরং একটি দিকনির্দেশক তীর হিসেবে কাজ করে: যতক্ষণ পর্যন্ত মানুষ সহজেই এমন কাজগুলি ডিজাইন করতে পারে যা সেরা LLMরাও ব্যর্থ হয়, ততক্ষণ পর্যন্ত AGI অর্জন করা সম্ভব হয়নি। ARC2-এর অগ্রগতি—এবং শীঘ্রই ARC3-এর অগ্রগতি—দেখবে যে গভীর শিক্ষা এবং প্রোগ্রাম অনুসন্ধানের সমন্বয়ে তৈরি হাইব্রিড আর্কিটেকচারগুলি প্রয়োজনীয় স্তরের তরলতা, ডেটা- এবং কম্পিউট-দক্ষ বুদ্ধিমত্তা অর্জন করে কিনা।

পেছনে

ARC-AGI বেঞ্চমার্ক0725

ARC-AGI বেঞ্চমার্ক07
25