நீங்கள் எந்த வேலைக்கான செயற்கை நுண்ணறிவு மென்பொருளை உருவாக்க வேண்டுமோ அந்த வேலைக்கான தகவலை திரட்ட வேண்டும். இணைய உலகில் தகவலுக்குப் பஞ்சம் இல்லை. பின்பு மனிதர்களைக் கொண்டு அந்த தகவல்களை லேபிள் செய்ய வேண்டும். அங்குதான் ஸ்கேல் மாதிரியான நிறுவனங்கள் உள்ளே வருகின்றன. லேபிள் செய்த தகவல்களை மீண்டும் மென்பொருளுக்கு கொடுத்து அதைப் பயிற்றுவிக்க வேண்டும். பயிற்றுவித்த மென்பொருளை பரிசோதிக்க வேண்டும். அது சரியாக பதில் அளிக்கிறதா என்பதை பொறுத்து, நீங்கள் உள்ளிடும் தகவல்களை மேம்படுத்த வேண்டும். பிழையான தகவல்களை நீங்கள் உள்ளிட்டால் செயற்கை நுண்ணறிவு மென்பொருள் வெளியான தகவல்களையே உங்களுக்கு தரும். 2007 ஆம் ஆண்டு பிரின்ஸ்டன் பல்கலைக்கழகத்தில் செயற்கை நுண்ணறிவு தொடர்பான ஆய்வுகளில் ஈடுபட்டிருந்தார் ஃபெய்-ஃபெய் லீ (Fei-Fei Lee) . புகைப்படங்களை பகுப்பாய்ந்து கற்கும் செயற்கை நுண்ணறிவு பிரிவில் ஆய்வு செய்து வந்த ‘லீ ’க்கு ஒரு விஷயம் புலப்பட்டது.
செயற்கை நுண்ணறிவு புகைப்படங்களில் இருந்து கற்க வேண்டும் என்றால் அதை பல்லாயிரம் புகைப்படங்களைக் கொண்டு பயிற்றுவிக்க வேண்டும். எவ்வளவு அதிகமாக தகவலை நாம் உள்ளிடுகிறோமோ அந்த அளவிற்கு அது சிறப்பாக கற்கிறது என்பதை அவர் புரிந்து கொண்டார். ஆனால் அவ்வளவு புகைப்படங்களுக்கு எங்கே செல்வது? புகைப் படங்கள் கிடைத்தாலும் அதை லேபிள் செய்ய வேண்டும். இல்லை என்றால் செயற்கை நுண்ணறிவு மென்பொரு ளுக்கு புரியாது. அவ்வளவு புகைப்படங்களையும் லேபிள் செய்வது என்பது மலையாயப் பணி. பல்கலைக்கழ கத்தில் கொடுக்கும் நிதி உதவி அதற்கு போதவே போதாது. இந்த நேரத்தில்தான் லீ அமேசானின் ஒரு பிரிவான மெக்கானிக்கல் டர்க் (Mechanical Turk) எனும் வலைதளத்தை நாடினார். அதில் வீட்டிலிருந்தபடியே குறைந்த சம்பளத்திற்கு வேலை செய்யும் ஆட்களை பிடித்தார். அவர்களைக் கொண்டு மிகக் குறைந்த பணத்தை செலவு செய்து, அதிகமான புகைப்படங்களை லேபிள் செய்யும் வேலையையும் மிகக் குறைவான நேரத்தில் செய்து முடித்தார். உலகம் முழுவதிலிருந்தும் பலர் பங்கேற்றதால், பலவிதமான புகைப்படங்கள் ‘லீ’க்கு கிடைத்தது ஒரு போனஸ் தான். அன்று அவர் உருவாக்கிய புகைப்படத் தரவு தளமான IMAGENET இன்றளவும் பல்கலைக்கழகங்களில் மெஷின் லேர்னிங் ஆய்வுகளுக்கு பயன்படுத்தப்படுகிறது.
தகவல் குறிப்பாளர்கள் எனும் துறை
முதன் முதல் தகவல் குறிப்பாளர்கள் இங்கே வேலை செய்தவர்கள் தான். அவர்கள் தான் இந்த துறைக்கு வித்திட்டார்கள். இன்று நியூரல் நெட்வொர்க்கை அடிப்படையாகக் கொண்ட பல்வேறு செயற்கை நுண்ணறிவு நிறுவனங்கள் வந்துவிட்டன. அவர்களுக்கு தேவையான தகவல்களை உற்பத்தி செய்யவும் அந்தத் தகவல்களை லேபிள் செய்யவும் ஒரு துறையை உருவாக்கி விட்டார்கள். டிக் டாக் வீடியோக்களில் உள்ள உணர்வுகளை லேபிள் செய்வது. கிரெடிட் கார்டு பரிவர்த்தனைகளில் உள்ள குறிப்பிட்ட பரிவர்த்தனைகளில் லேபிள் செய்வது. உதாரணம் உணவுக்காக செலவழித்த பரிவர்த்தனைகளை மாத்திரம் லேபிள் செய்வது உடைகளுக்காக செலவழித்த பரிவர்த்தனைகளை மாத்திரம் லேபிள் செய்வது. அலெக்சா, சிரி, கூகுள் அசிஸ்டன்ட் போன்ற சாட் பாட்களின் மொழியை சரி செய்வது. குறிப்பிட்ட உணர்வு கொண்ட பேச்சுக்களை லேபிள் செய்வது . தானியங்கி டிராக்டர்களுக்காக வயல்வெளி தொடர்பான படங்களை லேபிள் செய்வது. தானியங்கி கார்களுக்கு சாலை தொடர்பான வீடியோக்களில் உள்ள மனிதர்கள், பிற வண்டி ஓட்டிகள், டிராபிக் சிக்னல் போன்றவற்றை லேபிள் செய்வது என பல்வேறு செயற்கை நுண்ணறிவு நிறுவனங்களுக்கு தேவையான லேபிள் செய்ய வேண்டிய தகவல்கள் குவிந்து கிடக்கின்றன.
இன்னொரு பக்கம் அவர்களுக்கு தேவையான தகவல்களை உருவாக்குவது. சில நேரங்களில் அவர்களுக்கு குறிப்பிட்ட தகவல்கள் தேவைப்படும். உதாரணத்திற்கு இந்தியாவை சேர்ந்த மக்களின் உணர்வுகளை பிரதிபளிக்கும் முகங்கள். இந்தியாவை சேர்ந்த ஒருவரை குறிப்பிட்ட டாலர்களுக்கு ஒவ்வொரு உணர்வுகளை வெளிப்படுத்தும் சிறு சிறு புகைப்படங்கள் அல்லது வீடியோக்களை எடுத்து பின் லேபிள் செய்து அனுப்பச் சொல்லுவார்கள். அல்லது சிறுவர்களின் புகைப்படங்கள் அல்லது வீடியோக்களை புதிதாக எடுத்து பின்பு அதை அவர்களின் மென்பொருள் களில் லேபிள் செய்து அனுப்பச் சொல்லு வார்கள். அனைத்திற்கும் ஒரு கட்டணம். லேபிள் செய்யப்பட்ட தகவல்களிலிருந்து தாமாக கற்கும் மெஷின் லேர்னிங் அல்காரிதங் களை மாடல் என்று அழைப்பார்கள். ஒரு வேலையை செய்வதற்கான சரியான மெஷின் லேர்னிங் மாடலை நீங்கள் உருவாக்கிவிட்டால், மேலும் உங்களுக்கு தகவல் குறிப்பாளர்களின் தேவை இல்லை தான். ஆனால் அண்மைய காலம் செயற்கை நுண்ணறிவு பல்வேறுதுறை களிலும் நுழைந்துள்ளதால் தற்போதைக்கு குவிந்து வரும் தகவல்களை லேபிள் செய்வதன் அவசியம் அதிகமாகிறது. அதனால் இன்னும் சில ஆண்டு களுக்கு தகவல் குறிப்பாளர்களின் அவசியம் இருக்கும்.
ஒருமுறை நீங்கள் உருவாக்கிவிட்ட மாடல் முழுமை அடைந்து விடுவதில்லை என்பதே செயற்கை நுண்ணறிவில் உள்ள சிக்கல். மேலும் புதிது புதிதாக தகவல்கள் உருவாக அதை லேபிள் செய்ய வேண்டிய தேவையும் இருந்து கொண்டே இருக்கிறது. உதாரணத்திற்கு உபர் நிறுவனத்தின் தானியங்கி கார் ஒன்று ஒரு விபத்தை ஏற்படுத்தி விட்டது. சாலையில் தாமாக கார் ஓட்டும் செட்டிங்கை செய்துவிட்டு காரின் சொந்தக் காரர் படுத்து தூங்கிவிட்டார். சாலை யில் சென்று கொண்டிருந்த கார், ஒரு நபரை இடித்து கொன்று விட்டது. உண்மையில் அந்த செயற்கை நுண்ணறிவு காருக்கு போதுமான அளவு லேபிள் செய்யப்பட்ட தகவல்கள் கொடுக்கப்பட்டிருந்தன. லேபிள் செய்யப்பட்ட “சாலையை கடக்கும் நபர் பற்றிய புகைப்படம்”, “சைக்கிளில் செல்லும் நபரின் புகைப்படம்” என்று பயிற்றுவிக்கப் பட்டிருந்தாலும், “பழுதடைந்த சைக்கிளை தன் கையில் சுமந்து கொண்டு சாலையை கடக்க முயன்ற ஒரு நபரின் புகைப்படத்தை லேபிள் செய்து அந்த காரின் மென்பொருளை பயிற்றுவிக்கவில்லை. அதனால் கையில் சைக்கிளை தூக்கிக்கொண்டு நடந்த அந்த நபரை முட்டி மோதி கொன்றுவிட்டது. இதுதான் மென்பொருள் உலகில் ‘எட்ஜ் கேஸ்’ (Edge Case) என்பார்கள். மென்பொருளாளர் சற்றும் எதிர்பார்க்காத புதிய தகவல், ஒரு புதிய உள்ளீட்டால், செயற்கை நுண்ணறிவு குழம்பி விட்டது. அதனால் கொன்றுவிட்டது. இதுபோன்ற விபத்துக்களை நடைமுறையில் தவிர்க்க வேண்டும் என்றால் புதிது புதிதாக வரும் தகவல்களை தொடர்ந்து லேபில் செய்து, அந்த மென்பொருளை பயிற்றுவித்துக் கொண்டே இருக்க வேண்டும்.மேம்படுத்திக் கொண்டே இருக்க வேண்டும். இது தொடர வேண்டும் என்றால் தகவல் குறிப்பாளர்கள் இருந்து கொண்டே இருக்க வேண்டும்.
உண்மையாக இந்த வேலைகளின் முழு பயனும் ஓபன் ஏ ஐ, மைக்ரோசாப்ட், கூகுள், பை டான்ஸ், பேஸ்புக் என பிரபல நிறுவனங்களுக்கு சென்றாலும், அந்நிறுவனங்கள் நேரடியாக இந்தப் பணிகளை செய்வதில்லை. மாறாக வேறு ஒரு நிறுவனத்திற்கு ஒப்பந்த அடிப்படையில் இந்த பணிகளை கொடுக்கிறார்கள். சட்ட சிக்கல்களை எதிர்கொள்வதற்காகத் தான் இந்த மறைமுக நடவடிக்கை. அமெரிக்க ஐரோப்பிய நாடுகளில் தனிநபர் தகவல் தொடர்பான சட்டங்கள் வலுவாக உள்ளன. ஆனால் செயற்கை நுண்ணறிவு மென்பொருட் களை பயிற்றுவிப்பதற்காக தேவைப்படும் தகவல்கள் மலையளவு. இந்த தகவல்களை பெறவும் அதை கையாளவும் நிறைய விதிமுறைகளை பின்பற்ற வேண்டும் என்பதால், அவர்கள் ஆப்பிரிக்க நாடுகளையும் ஆசிய நாடுகளைச் சேர்ந்த மக்களையுமே குறி வைக்கிறார்கள். இந்த நாடுகளில் தனிநபர் தகவல் தொடர்பான சட்டங்கள் வலுவிழந்தவை. ஒரு வேலைக்கு கொடுக்கப்படும் அடிப்படை ஊதியம் என்பதும் இந்நாடுகளில் வரையறுக்கப்பட வில்லை. அமெரிக்காவில் ஒரு மணி நேரம் வேலை செய்தால் எட்டு டாலர்கள் கொடுக்கும் இந்நிறுவனம் கென்யாவில் வேலை செய்பவ ருக்கு 1.5 டாலர்களைத்தான் கொடுக்கிறது. இந்தியாவில் இரண்டு டாலர்கள். இதைத்தான் தகவல் காலனியாதிக்கம் (Data Colonization) என்கிறார்கள்.
கென்னியர்களுக்கும் இந்தியர்களுக்கும் ஓரளவு இது பெரிய பணம் என்பதால், அவர்களின் அந்தரங்க தகவலையும் உழைப்பு சுரண்டலையும் அவர்கள் பெரிதுபடுத்துவதில்லை. இதெல்லாம் ஆரம்பத்தில் மட்டும்தான். இந்த வேலையை தொடர்ந்து செய்யச் செய்ய இதனால் ஏற்படும் உடல் ரீதியான சிக்கலும் உளவியல் சிக்கலும் அதிகம் என்கிறார்கள் ஆராய்ச்சியாளர்கள். அது ஏன் என அடுத்து பார்ப்போம்!