"ஒரு இயந்திரம் அதிக நினைவாற்றலைக் கொண்டிருக்கலாம், ஆனால் நாம் அதைக் கற்பிக்காவிட்டால் அதனால் சிந்திக்க முடியாது." – ஆலன் டூரிங். GPT-4 அல்லது Llama போன்ற நவீன AI மாதிரிகள் மிகப்பெரிய தரவுத் தொகுப்புகள் மற்றும் சிக்கலான கணித கட்டமைப்புகளை அடிப்படையாகக் கொண்டவை. ஆனால் உண்மையில் அதன் பின்னால் என்ன இருக்கிறது? இந்தக் கட்டுரையில், ஒரு மொழி மாதிரியை புதிதாக உருவாக்கத் தேவையான முக்கிய கூறுகளைப் பார்ப்போம்.
பெரிய மொழி மாதிரிகள் (LLMகள்) என்பது அதிக அளவிலான உரையுடன் பயிற்சி பெற்ற நரம்பியல் நெட்வொர்க்குகள் ஆகும். மனிதனைப் போன்ற உரையை உருவாக்கும், உள்ளடக்கத்தைச் சுருக்கி, குறியீட்டை எழுதும் திறனில் அவற்றின் பலம் உள்ளது. இந்த மாதிரிகளின் மையமானது டிரான்ஸ்ஃபார்மர் கட்டமைப்பாகும் , இது உரைகளுக்குள் உள்ள சார்புகளைப் பிடிக்கவும் சூழல் கணிப்புகளைச் செய்யவும் உதவுகிறது.
அளவிடப்பட்ட எடைகள் மாதிரியை குறிப்பாக மெலிதாக சுருக்க அனுமதிக்கின்றன, வன்பொருள் தடைகளை திறம்பட கடக்கின்றன. அறிவு வடிகட்டுதல் மாதிரி அளவையும் குறைக்கிறது: ஒரு பெரிய மாதிரி அதன் அறிவை மிகவும் சிறிய மாறுபாட்டிற்கு மாற்றுகிறது. கத்தரித்தல் தேவையற்ற அளவுருக்களை நீக்குகிறது, இதன் விளைவாக துல்லியத்தை தியாகம் செய்யாமல் மெலிந்த, திறமையான கட்டிடக்கலை கிடைக்கிறது.
சொற்பொருள் ஆழத்தை அதிகரிக்க முகமூடி மொழி மாதிரியாக்கத்தைப் பயன்படுத்தலாம். இந்த மாதிரியானது முழுமையற்ற உரைகளை மறுகட்டமைக்கிறது, இதனால் தொழில் சார்ந்த சொற்களைப் புரிந்துகொள்கிறது. அதேபோல், தொழில் சார்ந்த தொழில்நுட்ப மொழிக்கு அடுத்த சொல் கணிப்பு பயன்படுத்தப்படலாம். ஒரு மாதிரியைப் பயிற்றுவிப்பதற்கு முன், டோக்கனைசேஷன் , உட்பொதித்தல் மற்றும் பைட் ஜோடி குறியாக்கம் மூலம் நரம்பியல் நெட்வொர்க்குகள் புரிந்துகொள்ளக்கூடிய வடிவமாக உரையை மாற்ற வேண்டும்.
தொழில் சார்ந்த பயிற்சி தரவு பற்றாக்குறையை ஈடுசெய்ய, பரிமாற்ற கற்றல் மற்றும் செயற்கை தரவு பெருக்குதல் ஆகியவை பயன்படுத்தப்படுகின்றன. லீன் ஃபீட்ஃபார்வர்டு தொகுதிகள் மற்றும் மேம்படுத்தப்பட்ட உட்பொதிப்புகள் அவற்றை தொழில்துறை சார்ந்த தரவுகளுக்கு ஏற்ப மாற்றியமைக்கின்றன. மின்மாற்றி மாதிரிகளின் ஒரு முக்கிய அங்கம் சுய-கவனிப்பு பொறிமுறையாகும் . ஒவ்வொரு டோக்கனும் வாக்கியத்தில் உள்ள மற்ற எல்லா டோக்கன்களுடன் ஒப்பிடும்போது எடைபோடப்படுகிறது, இது ஒரு வார்த்தையின் சூழலை தெளிவுபடுத்துகிறது.
உதாரணமாக, "பூனை பசியால் மேசையில் குதித்தது" போன்ற ஒரு வாக்கியம் "அவள்" தான் பூனை என்பதைக் குறிக்கலாம். ஒவ்வொரு வார்த்தைக்கும் ஒரு முக்கியத்துவத்தை ஒதுக்குவதன் மூலம் இந்த மாதிரி அத்தகைய தொடர்புகளை அங்கீகரிக்கிறது. இது சூழலை நன்றாகப் புரிந்துகொள்ள உதவுகிறது. இந்த பொறிமுறையானது, ஒரு உரைக்குள் சிக்கலான சார்புநிலைகள் மற்றும் சொற்பொருள் அர்த்தங்களைக் கற்றுக்கொள்ள மாதிரியை செயல்படுத்துகிறது.
முன் பயிற்சி பெற்ற மாதிரிகள் உள் அறிவை ஒருங்கிணைக்கின்றன. இந்த கலவையானது தரவு பன்முகத்தன்மையை அதிகரிக்கிறது மற்றும் வரையறுக்கப்பட்ட உள்ளூர் தரவுத் தொகுப்புகள் இருந்தபோதிலும் உயர் மாதிரி தரத்தை செயல்படுத்துகிறது. AI மாதிரிகளின் செயல்திறன் குறிப்பிட்ட அளவீடுகளைப் பயன்படுத்தி மதிப்பிடப்படுகிறது: எடையுள்ள-F1 மற்றும் குழப்பம் உரை செயலாக்க பணிகளின் தரத்தை அளவிடுகின்றன, அதே நேரத்தில் மறுமொழி நேரம் மற்றும் பிழை விகிதம் நடைமுறை பொருத்தத்தை வெளிப்படையாகக் குறிக்கின்றன.
டைனமிக் ஒழுங்குமுறை கட்டமைப்புகளுக்கு தொடர்ச்சியான தழுவல் கட்டுப்பாட்டு கற்றல் மூலம் அடையப்படுகிறது, எடுத்துக்காட்டாக, வேறுபட்ட தனியுரிமையைப் பயன்படுத்தி தரவு பாதுகாப்பு வழிகாட்டுதல்களை நேரடியாக AI மாதிரியில் ஒருங்கிணைக்கிறது. மாற்றியமைக்கக்கூடிய விதிகளின் தொகுப்பு மற்றும் கள-குறிப்பிட்ட நுணுக்கச் சரிப்படுத்தும் செயல்முறைகள் புதிய விதிமுறைகளுக்கு நெகிழ்வாகவும் விரைவாகவும் பதிலளிக்க நம்மை அனுமதிக்கின்றன.
ஒரு மொழி மாதிரியின் பயிற்சி செயல்முறையின் முதல் படி முன் பயிற்சி ஆகும். பொதுவான மொழி வடிவங்கள், வாக்கிய அமைப்புகள் மற்றும் வார்த்தை அர்த்தங்களைக் கற்றுக்கொள்வதற்காக, இந்த மாதிரி அதிக அளவு கட்டமைக்கப்படாத உரையால் நிரப்பப்பட்டுள்ளது. இந்தச் செயல்பாட்டின் போது, மாதிரி ஒரு குறிப்பிட்ட பணியில் கவனம் செலுத்தாமல் ஒரு வாக்கியத்தில் அடுத்த சொற்களைக் கணிக்க முயற்சிக்கிறது. இது மொழி பற்றிய ஒரு வகையான உலகளாவிய புரிதலை உருவாக்குகிறது.
முன் பயிற்சி பெற்ற மாதிரி ஒரு குறிப்பிட்ட பணிக்காக நிபுணத்துவம் பெறுவதற்கான இரண்டாவது படிதான் ஃபைன்-ட்யூனிங் ஆகும். இது சிறிய, மிகவும் குறிப்பிட்ட தரவுத் தொகுப்புகளுடன் பயிற்சி அளிக்கப்படுகிறது, எடுத்துக்காட்டாக வாடிக்கையாளர் விசாரணைகளுக்கு பதிலளிக்க, உரைகளை வகைப்படுத்த அல்லது சுருக்கங்களை உருவாக்க. வரையறுக்கப்பட்ட பயன்பாட்டுப் பகுதிக்கு மாதிரி மிகவும் துல்லியமான மற்றும் சூழல் சார்ந்த பதில்களை வழங்குவதை ஃபைன்-ட்யூனிங் உறுதி செய்கிறது.
ஒரு எல்எல்எம் பயிற்சிக்கு அதிக கணினி சக்தி தேவை. செயல்முறையை மிகவும் திறமையாக்க, பல்வேறு தேர்வுமுறை முறைகளைப் பயன்படுத்தலாம். இது மாதிரி எடைகளைச் சேமித்து பின்னர் அவற்றை ஏற்ற அல்லது முன் பயிற்சி பெற்ற, வெளியிடப்பட்ட அளவுருக்களைப் பதிவிறக்க உங்களை அனுமதிக்கிறது. குறைந்த கணக்கீட்டு முயற்சியுடன் நன்றாகச் சரிசெய்வதற்கும் LoRA (குறைந்த-தர தழுவல்) பயன்படுத்தப்படுகிறது.
புதிய கண்டுபிடிப்புகள் மற்றும் தேவைகளுக்கு ஏற்ப தொடர்ச்சியான மேம்பாடு மற்றும் தழுவலுக்கு ஆன்லைன் கற்றல் வளையம் பயன்படுத்தப்படுகிறது. இது மாதிரி செயல்திறனைத் தொடர்ந்து கண்காணிக்கிறது, புதிய தரவு மற்றும் பயனர் கருத்துக்களை பகுப்பாய்வு செய்கிறது, மேலும் தேவைப்பட்டால் மாதிரியை தானாகவே சரிசெய்கிறது. வேறுபட்ட தனியுரிமை நுட்பங்கள் மற்றும் தேவையற்ற இணைப்புகளை அகற்றுவதன் மூலம் தரவு பாதுகாப்பு மற்றும் செயல்திறன் உறுதி செய்யப்படுகிறது.
சிறப்பாக திட்டமிடப்பட்ட பைதான் ஸ்கிரிப்ட் ஒரு மொழி மாதிரியை திறமையாகப் பயிற்றுவிக்க முடியும். இது முன் பயிற்சி பெற்ற மாதிரியிலிருந்து வெளிப்புற எடைகளையும் ஏற்ற முடியும். குறிப்பிட்ட தரவுகளுக்கு ஏற்ப மாற்றியமைப்பதன் மூலம், ஒரு குறிப்பிட்ட பணிக்கு ஏற்றவாறு இந்த மாதிரி மேம்படுத்தப்படுகிறது. பயிற்சி முடிந்ததும், ஸ்கிரிப்ட் புதுப்பிக்கப்பட்ட எடைகளைச் சேமிக்கிறது, இதனால் அவை எதிர்கால பயன்பாட்டிற்குக் கிடைக்கும்.
a0aa20559d62cebe2e1991af1d9d15e0
வாடிக்கையாளர் சேவை முதல் உள்ளடக்க உருவாக்கம் வரை, மொழி மாதிரிகள் ஏற்கனவே பல தொழில்களில் புரட்சியை ஏற்படுத்தியுள்ளன. இலக்கு வைக்கப்பட்ட முன் பயிற்சி மற்றும் நன்றாகச் சரிசெய்தல் மூலம், மாதிரிகளை பல்வேறு பணிகளுக்கு ஏற்றவாறு மாற்றியமைக்க முடியும். இந்த செயல்முறைகளைப் பற்றிய ஆழமான புரிதலை வளர்த்துக் கொள்பவர்கள் தங்களுக்கென தனிப்பயனாக்கப்பட்ட AI தீர்வுகளை உருவாக்கி தொழில்நுட்ப முன்னேற்றத்தை தீவிரமாக வடிவமைக்க முடியும்.