science

img

செயற்கை நுண்ணறிவு : தகவல் காலனியாதிக்கம் - வினோத் ஆறுமுகம்

நீங்கள் எந்த வேலைக்கான செயற்கை நுண்ணறிவு மென்பொருளை உருவாக்க வேண்டுமோ அந்த வேலைக்கான தகவலை திரட்ட வேண்டும்.  இணைய உலகில் தகவலுக்குப் பஞ்சம் இல்லை.  பின்பு மனிதர்களைக் கொண்டு அந்த தகவல்களை லேபிள் செய்ய வேண்டும்.  அங்குதான் ஸ்கேல் மாதிரியான நிறுவனங்கள் உள்ளே வருகின்றன. லேபிள் செய்த தகவல்களை மீண்டும் மென்பொருளுக்கு கொடுத்து அதைப் பயிற்றுவிக்க வேண்டும். பயிற்றுவித்த மென்பொருளை பரிசோதிக்க வேண்டும்.  அது சரியாக பதில் அளிக்கிறதா என்பதை பொறுத்து,  நீங்கள் உள்ளிடும் தகவல்களை மேம்படுத்த வேண்டும்.  பிழையான தகவல்களை நீங்கள் உள்ளிட்டால் செயற்கை நுண்ணறிவு மென்பொருள் வெளியான தகவல்களையே  உங்களுக்கு தரும். 2007 ஆம் ஆண்டு  பிரின்ஸ்டன் பல்கலைக்கழகத்தில் செயற்கை நுண்ணறிவு தொடர்பான ஆய்வுகளில் ஈடுபட்டிருந்தார் ஃபெய்-ஃபெய் லீ (Fei-Fei Lee) . புகைப்படங்களை பகுப்பாய்ந்து கற்கும் செயற்கை நுண்ணறிவு பிரிவில் ஆய்வு செய்து வந்த ‘லீ ’க்கு ஒரு விஷயம் புலப்பட்டது.

 செயற்கை நுண்ணறிவு புகைப்படங்களில் இருந்து கற்க வேண்டும் என்றால் அதை  பல்லாயிரம் புகைப்படங்களைக் கொண்டு பயிற்றுவிக்க வேண்டும்.  எவ்வளவு அதிகமாக தகவலை நாம் உள்ளிடுகிறோமோ அந்த அளவிற்கு அது சிறப்பாக கற்கிறது என்பதை அவர் புரிந்து கொண்டார்.  ஆனால் அவ்வளவு புகைப்படங்களுக்கு எங்கே செல்வது?  புகைப் படங்கள் கிடைத்தாலும் அதை லேபிள்  செய்ய வேண்டும். இல்லை என்றால் செயற்கை நுண்ணறிவு மென்பொரு ளுக்கு புரியாது.  அவ்வளவு புகைப்படங்களையும் லேபிள் செய்வது  என்பது மலையாயப் பணி.   பல்கலைக்கழ கத்தில் கொடுக்கும் நிதி உதவி அதற்கு போதவே போதாது.  இந்த நேரத்தில்தான் லீ அமேசானின் ஒரு பிரிவான மெக்கானிக்கல் டர்க் (Mechanical Turk) எனும் வலைதளத்தை நாடினார்.  அதில் வீட்டிலிருந்தபடியே குறைந்த சம்பளத்திற்கு வேலை செய்யும் ஆட்களை பிடித்தார்.  அவர்களைக் கொண்டு மிகக் குறைந்த பணத்தை செலவு செய்து,  அதிகமான புகைப்படங்களை லேபிள் செய்யும் வேலையையும் மிகக் குறைவான நேரத்தில் செய்து முடித்தார்.  உலகம் முழுவதிலிருந்தும் பலர் பங்கேற்றதால், பலவிதமான புகைப்படங்கள் ‘லீ’க்கு கிடைத்தது ஒரு போனஸ் தான்.  அன்று அவர் உருவாக்கிய புகைப்படத் தரவு தளமான IMAGENET  இன்றளவும் பல்கலைக்கழகங்களில் மெஷின் லேர்னிங் ஆய்வுகளுக்கு பயன்படுத்தப்படுகிறது.

தகவல் குறிப்பாளர்கள் எனும் துறை

முதன் முதல் தகவல் குறிப்பாளர்கள் இங்கே வேலை செய்தவர்கள் தான். அவர்கள் தான் இந்த துறைக்கு வித்திட்டார்கள்.  இன்று நியூரல் நெட்வொர்க்கை அடிப்படையாகக் கொண்ட பல்வேறு செயற்கை நுண்ணறிவு நிறுவனங்கள் வந்துவிட்டன.  அவர்களுக்கு தேவையான தகவல்களை உற்பத்தி செய்யவும் அந்தத் தகவல்களை லேபிள் செய்யவும் ஒரு துறையை உருவாக்கி விட்டார்கள்.   டிக் டாக் வீடியோக்களில் உள்ள உணர்வுகளை லேபிள் செய்வது.  கிரெடிட் கார்டு பரிவர்த்தனைகளில்  உள்ள குறிப்பிட்ட பரிவர்த்தனைகளில் லேபிள் செய்வது.  உதாரணம் உணவுக்காக செலவழித்த பரிவர்த்தனைகளை மாத்திரம் லேபிள் செய்வது உடைகளுக்காக செலவழித்த பரிவர்த்தனைகளை மாத்திரம் லேபிள் செய்வது. அலெக்சா,  சிரி,  கூகுள் அசிஸ்டன்ட் போன்ற சாட் பாட்களின் மொழியை சரி செய்வது.  குறிப்பிட்ட உணர்வு கொண்ட  பேச்சுக்களை லேபிள் செய்வது . தானியங்கி டிராக்டர்களுக்காக  வயல்வெளி தொடர்பான படங்களை லேபிள் செய்வது.  தானியங்கி கார்களுக்கு சாலை தொடர்பான வீடியோக்களில் உள்ள மனிதர்கள்,  பிற வண்டி ஓட்டிகள்,  டிராபிக் சிக்னல் போன்றவற்றை லேபிள் செய்வது என பல்வேறு செயற்கை நுண்ணறிவு நிறுவனங்களுக்கு தேவையான லேபிள் செய்ய வேண்டிய தகவல்கள் குவிந்து கிடக்கின்றன.

இன்னொரு பக்கம் அவர்களுக்கு தேவையான தகவல்களை உருவாக்குவது.  சில நேரங்களில் அவர்களுக்கு குறிப்பிட்ட தகவல்கள் தேவைப்படும். உதாரணத்திற்கு இந்தியாவை சேர்ந்த மக்களின் உணர்வுகளை பிரதிபளிக்கும் முகங்கள்.  இந்தியாவை சேர்ந்த ஒருவரை குறிப்பிட்ட டாலர்களுக்கு ஒவ்வொரு உணர்வுகளை வெளிப்படுத்தும் சிறு சிறு புகைப்படங்கள் அல்லது வீடியோக்களை   எடுத்து பின் லேபிள் செய்து அனுப்பச் சொல்லுவார்கள்.  அல்லது சிறுவர்களின் புகைப்படங்கள் அல்லது வீடியோக்களை புதிதாக எடுத்து பின்பு அதை அவர்களின் மென்பொருள் களில் லேபிள் செய்து அனுப்பச் சொல்லு வார்கள். அனைத்திற்கும் ஒரு கட்டணம்.  லேபிள் செய்யப்பட்ட தகவல்களிலிருந்து தாமாக கற்கும் மெஷின் லேர்னிங் அல்காரிதங் களை  மாடல் என்று அழைப்பார்கள்.  ஒரு  வேலையை செய்வதற்கான சரியான மெஷின் லேர்னிங் மாடலை நீங்கள் உருவாக்கிவிட்டால், மேலும் உங்களுக்கு தகவல் குறிப்பாளர்களின் தேவை இல்லை தான்.  ஆனால் அண்மைய காலம்  செயற்கை நுண்ணறிவு பல்வேறுதுறை களிலும் நுழைந்துள்ளதால் தற்போதைக்கு குவிந்து வரும் தகவல்களை லேபிள் செய்வதன் அவசியம்  அதிகமாகிறது.  அதனால் இன்னும் சில ஆண்டு களுக்கு தகவல் குறிப்பாளர்களின் அவசியம் இருக்கும். 

 ஒருமுறை நீங்கள் உருவாக்கிவிட்ட மாடல் முழுமை அடைந்து விடுவதில்லை என்பதே செயற்கை நுண்ணறிவில் உள்ள சிக்கல்.  மேலும் புதிது புதிதாக தகவல்கள் உருவாக அதை லேபிள் செய்ய வேண்டிய தேவையும் இருந்து கொண்டே இருக்கிறது.  உதாரணத்திற்கு உபர் நிறுவனத்தின் தானியங்கி கார் ஒன்று ஒரு விபத்தை ஏற்படுத்தி  விட்டது.  சாலையில் தாமாக கார் ஓட்டும்  செட்டிங்கை செய்துவிட்டு காரின் சொந்தக் காரர் படுத்து தூங்கிவிட்டார்.  சாலை யில் சென்று கொண்டிருந்த கார்,  ஒரு நபரை இடித்து கொன்று விட்டது.  உண்மையில் அந்த செயற்கை நுண்ணறிவு காருக்கு போதுமான அளவு லேபிள் செய்யப்பட்ட தகவல்கள் கொடுக்கப்பட்டிருந்தன.   லேபிள் செய்யப்பட்ட “சாலையை கடக்கும் நபர் பற்றிய புகைப்படம்”,  “சைக்கிளில் செல்லும்  நபரின் புகைப்படம்”  என்று பயிற்றுவிக்கப் பட்டிருந்தாலும்,  “பழுதடைந்த சைக்கிளை தன் கையில் சுமந்து கொண்டு சாலையை கடக்க முயன்ற ஒரு நபரின் புகைப்படத்தை லேபிள் செய்து அந்த காரின் மென்பொருளை பயிற்றுவிக்கவில்லை. அதனால் கையில் சைக்கிளை தூக்கிக்கொண்டு நடந்த  அந்த நபரை முட்டி மோதி கொன்றுவிட்டது.  இதுதான் மென்பொருள் உலகில் ‘எட்ஜ் கேஸ்’ (Edge Case)  என்பார்கள்.  மென்பொருளாளர் சற்றும் எதிர்பார்க்காத  புதிய தகவல்,  ஒரு புதிய உள்ளீட்டால்,  செயற்கை நுண்ணறிவு குழம்பி விட்டது. அதனால் கொன்றுவிட்டது.  இதுபோன்ற விபத்துக்களை நடைமுறையில் தவிர்க்க வேண்டும் என்றால் புதிது புதிதாக வரும் தகவல்களை தொடர்ந்து லேபில் செய்து, அந்த மென்பொருளை பயிற்றுவித்துக் கொண்டே இருக்க வேண்டும்.மேம்படுத்திக் கொண்டே இருக்க வேண்டும்.  இது தொடர வேண்டும் என்றால் தகவல் குறிப்பாளர்கள் இருந்து கொண்டே இருக்க வேண்டும்.

உண்மையாக  இந்த வேலைகளின் முழு பயனும்  ஓபன் ஏ ஐ,  மைக்ரோசாப்ட்,  கூகுள்,  பை டான்ஸ்,  பேஸ்புக்  என பிரபல நிறுவனங்களுக்கு சென்றாலும்,  அந்நிறுவனங்கள் நேரடியாக இந்தப் பணிகளை செய்வதில்லை. மாறாக வேறு ஒரு நிறுவனத்திற்கு ஒப்பந்த அடிப்படையில் இந்த பணிகளை கொடுக்கிறார்கள்.  சட்ட சிக்கல்களை எதிர்கொள்வதற்காகத் தான் இந்த மறைமுக நடவடிக்கை.  அமெரிக்க ஐரோப்பிய நாடுகளில் தனிநபர் தகவல் தொடர்பான சட்டங்கள் வலுவாக உள்ளன.  ஆனால் செயற்கை நுண்ணறிவு மென்பொருட் களை பயிற்றுவிப்பதற்காக தேவைப்படும் தகவல்கள் மலையளவு.  இந்த தகவல்களை பெறவும் அதை கையாளவும்  நிறைய விதிமுறைகளை பின்பற்ற வேண்டும் என்பதால், அவர்கள் ஆப்பிரிக்க நாடுகளையும் ஆசிய நாடுகளைச் சேர்ந்த மக்களையுமே குறி வைக்கிறார்கள்.  இந்த நாடுகளில் தனிநபர் தகவல் தொடர்பான சட்டங்கள் வலுவிழந்தவை.  ஒரு வேலைக்கு கொடுக்கப்படும் அடிப்படை ஊதியம் என்பதும் இந்நாடுகளில் வரையறுக்கப்பட வில்லை.  அமெரிக்காவில் ஒரு மணி நேரம்  வேலை செய்தால் எட்டு டாலர்கள் கொடுக்கும் இந்நிறுவனம் கென்யாவில் வேலை செய்பவ ருக்கு 1.5 டாலர்களைத்தான் கொடுக்கிறது.  இந்தியாவில் இரண்டு டாலர்கள். இதைத்தான்  தகவல் காலனியாதிக்கம்  (Data Colonization) என்கிறார்கள். 

கென்னியர்களுக்கும் இந்தியர்களுக்கும் ஓரளவு இது பெரிய பணம் என்பதால், அவர்களின் அந்தரங்க தகவலையும் உழைப்பு சுரண்டலையும் அவர்கள் பெரிதுபடுத்துவதில்லை.  இதெல்லாம் ஆரம்பத்தில் மட்டும்தான். இந்த வேலையை தொடர்ந்து செய்யச் செய்ய இதனால் ஏற்படும் உடல் ரீதியான சிக்கலும் உளவியல்  சிக்கலும் அதிகம் என்கிறார்கள் ஆராய்ச்சியாளர்கள்.  அது ஏன் என அடுத்து பார்ப்போம்!