இயந்திர மொழிபெயர்ப்பின் பரிமாணங்கள்
1.0 அறிமுகம்
மனித மொழிபெயர்ப்பைக் காட்டிலும் இயந்திர மொழிபெயர்ப்பு விரைவானதாகும். மனித மொழிபெயர்ப்பில் கால விரயமும் களைப்பும் ஏற்படும். சரியாக நடைமுறைப்படுத்தப்பட்டால் இயந்திர மொழிபெயர்ப்பு மனித மொழிபெயர்ப்பிற்கு இணையாகச் சிறப்பாக அமையும். இயந்திர மொழிபெயர்ப்பின் போது பல துணைக்கருவிகள் உருவாக்கப்படுகின்றன. இவை மொழியாய்விற்கும் பலவித மொழிப் பயன்பாடுகளுக்கும் உதவி புரியும். கணிப்பொறி வழி மொழிபெயர்ப்பதன் தேவையையும் அதன் வகைகளையும் அவற்றிற்கான முயற்சிகளையும் எல்லைகளையும் ஆய்வது தான் இப்பகுதியின் நோக்கம் ஆகும்.
1.1 கணிப்பொறி வழி மொழிபெயர்ப்பின் தேவை
ஒரு மொழியில் உள்ள தகவலை அதன் கருத்து மாறாமல் மற்றொரு மொழியில் மாற்றுவதையே மொழிபெயர்ப்பு என்கிறோம். இத்தகைய மொழிபெயர்ப்பின் போது தகவல் எந்த மொழிக்கு மாற்றம் செய்யப்படுகிறதோ அம்மொழியின் இயல்புத் தன்மை மாறாது பாதுகாத்தல் வேண்டும். தகவல் எம்மொழியில் உள்ளதோ அதை மூல மொழி (Source Language) என்கிறோம். தகவல் எந்த மொழிக்கு மாற்றம் செய்யப்படுகின்றதோ அதை இலக்கு மொழி (Target Language) என்கிறோம். இத்தகைய மொழிபெயர்ப்புகளை மனித முயற்சியால் மட்டும் மேற்கொள்வது என்பது கடினமான பணியாகும். எனவே மொழிபெயர்ப்புப் பணிகளைக் கணிப்பொறி வழி மேற்கொள்வதற்கான கட்டாயம் ஏற்பட்டுள்ளது. கணிப்பொறி வழி மொழிபெயர்ப்பின் தேவைகளும் கட்டாயங்களும் கீழே பட்டியலிடப்பட்டுள்ளன:
1. உலகளவில் தகவல்கள் அன்றாடம் மலையெனக் குவிகின்றன; அவைகளை உடனுக்குடன் மொழிபெயர்த்தல் அவசியமாகின்றது.
2. கணிப்பொறி வழி மொழிபெயர்ப்பு மனித உழைப்பைக் குறைக்கின்றது.
3. குறைந்த நேரத்தில் நிறைய மொழிபெயர்ப்பு பணிகளைச் செய்ய இயலுகிறது. இதனால் கால விரயம் தவிர்க்கப்படுகின்றது.
4. தற்போதைய மொழிபெயர்ப்புப் பணிகளுக்கு ஏற்ற வகையில் மொழிபெயர்ப்பாளர்கள் இல்லை.
5. மனித முயற்சியில் மொழிபெயர்க்கின்ற பொழுது மொழிபெயர்ப்பாளர்கள் மூல மொழியிலும் இலக்கு மொழியிலும் புலமை வாய்ந்தவராக இருத்தல் வேண்டும். ஆனால் கணிப்பொறி வழி இப்பணிகளைச் செய்கின்ற போது இந்தக் கட்டாயம் இல்லை.
6. தேவையான மொழியியல் புலமை உள்ளவர்களிடம் கருத்துகளைப் பெற்று அதை வழியமைப்பு மொழியில் எழுதி மொழிபெயர்ப்பு செய்யலாம்.
1.2 கணிப்பொறி வழி மொழிபெயர்ப்பின் வகைகள்
இயந்திர மொழிபெயர்ப்பில் மனித உதவி எவ்வளவு பயன்படுத்தப்படுகின்றது என்பதன் அடிப்படையில் கணிப்பொறிவழி மொழிபெயர்ப்பை விரிவாக மூன்றாகப் பகுக்கலாம்.
1. கணிப்பொறி உதவியுடன் மனித மொழிபெயர்ப்பு (Computer Assisted Human Translation (CAHT))
2. மனித உதவியுடன் கணிப்பொறி மொழிபெயர்ப்பு (Human Assisted Machine Translation (HAMT))
3. முற்றிலும் தானியக்க மொழிபெயர்ப்பு (Automatic Machine Translation)
இது தவிர இயந்திர மொழிபெயர்ப்பில் பயன்படுத்தப்படும் வழிமுறைகளின் அடிப்படையிலும் இயந்திர மொழிபெயர்ப்பைப் பலவிதமாகப் பகுக்கலாம்.
1.2.1 கணிப்பொறி உதவியுடன் மனித மொழிபெயர்ப்பு
இதில் கணிப்பொறி உதவியுடன் நடைபெறும் மனித மொழிபெயர்ப்பில் மனித மொழிபெயர்ப்பாளர்களுக்கு முக்கியத்துவம் தரப்படுகிறது. அவர்கள் மொழிபெயர்ப்புப் பணியில் ஈடுபடும் பொழுது ஒரு மொழியில் உள்ள சொற்களுக்கு நிகரான பிறமொழிச் சொற்களைத் தெரிந்து கொள்ளவும் அச்சொற்களின் பொருள், பயன்பாடு ஆகியவற்றை எளிமையாகத் தெரிந்து கொள்ளவும் கணிப்பொறி பயன்படுத்தப்படுகிறது. மேலும் ஒரு மொழியின் வாக்கிய அமைப்பு, தொடரமைப்பு போன்றவைகளுக்கு நிகரான பிறமொழி அமைப்புகளை விரைவாகத் தயார் நிலையில் தெரிந்து கொள்வதற்கும் கணிப்பொறி உதவுகிறது. இவ்வகை மொழிபெயர்ப்பில் மொழிபெயர்ப்பாளர்கள் முதல் நிலையில் செயலாற்றுவர்; அவர்களுக்கு உதவும் நிலையில் கணிப்பொறி செயலாற்றும்.
1.2.2 மனித உதவியுடன் கணிப்பொறி மொழிபெயர்ப்பு
மனித உதவியுடன் நடைபெறும் இயந்திர மொழிபெயர்ப்பில் கணிப்பொறி முதன்மை நிலையை வகிக்கிறது. கணிப்பொறி மொழிபெயர்ப்புப் பணிகளைச் செய்கின்ற பொழுது முன்னர் பதிவு செய்யப்பட்டுள்ள தகவலுக்கு மேலாக ஏதாவது செய்திகள் தேவைப்படின் அந்நிலையில் மனித உதவியை நாடுகிறது. மேற்கண்ட மூவகை மொழிபெயர்ப்பு வகைகளில் மனித உதவியுடன் செயல்படும் இயந்திர மொழிபெயர்ப்பே நடைமுறையில் உள்ளது.
1.2.3 முற்றிலும் தானியக்க மொழிபெயர்ப்பு
முற்றிலும் இயந்திர மொழிபெயர்ப்பு என்பது தற்போதைய நிலையில் சாத்தியமானதல்ல. இதற்கு எண்ணற்ற மொழியியல் கோட்பாடுகளும் மொழிபெயர்ப்பு முறைகளும் வடிவமைக்கப்பட வேண்டியுள்ளது. இருப்பினும் கணிப்பொறி வழி மொழிபெயர்ப்பை முற்றிலும் தானியங்கப்படுத்தும் முயற்சி இலக்காகக் கொள்ளப்பட்டுள்ளது.
இயந்திர மொழிபெயர்ப்பில் பயன்படுத்தப்படும் வழிமுறை அடிப்படையில் மொழிபெயர்ப்புகள் பின்வருமாறு அமையும்.
1.2.4 இரு தொடர்புடைய மொழிகளுக்கிடையே அமைந்த கணிப்பொறி மொழிபெயர்ப்பு (Inter Lingual Method Of Machine Translation)
இலக்கண அமைப்பு மற்றும் பொருள் அடிப்படையில் மிகவும் தொடர்பும் நெருக்கமும் உடைய இரு மொழிகளுக்கிடையே செய்யப்படும் கணிப்பொறி மொழிபெயர்ப்பு இவ்வகையைச் சார்ந்ததாகும்.
1.2.5 இடைநிலை மொழி அடிப்படையில் அமைந்த கணிப்பொறி மொழிபெயர்ப்பு (Intermediate Language Based Machine Translation)
இலக்கணம் மற்றும் மொழியமைப்பில் முற்றிலும் வேறுபட்ட இருமொழிகளுக்கிடையே கணிப்பொறி மொழிபெயர்ப்பை உருவாக்க இம்முறை உதவுகிறது. இம்முறையில் மூல மொழியில் உள்ள சொற்றொடர்கள் இடைநிலை மொழி வழி இலக்கு மொழிக்கு மாற்றம் செய்யப்படுகிறது.
1.3 கணிப்பொறி வழி மொழிபெயர்ப்பின் சில முயற்சிகள்
கணிப்பொறி வழி மொழிபெயர்ப்பினைத் தானியக்க மொழிபெயர்ப்பு (Automatic Translation) என்றும் இயந்திர மொழிபெயர்ப்பு (Machine Translation) என்றும் கணிப்பொறி உதவியுடன் நடைபெறும் மொழிபெயர்ப்பு என்றும் கூறலாம். கணிப்பொறியின் வேகம், நினைவகத் திறன், பதிவு செய்துள்ள செய்திகளைத் தேவையான பொழுது தேவையான வடிவமைப்பில் மிக விரைவாக மீளப்பெறக்கூடிய வசதி (Retrieval System) போன்றன கணிப்பொறி வழி மொழிபெயர்ப்பினைத் தூண்டிட உதவின.
கணிப்பொறி வழி மொழிபெயர்ப்புப் பணி 1950-ஆம் ஆண்டு வாரன்வீவர் (Warren Weiver) என்ற அறிஞரால் தொடங்கப்பட்டது. இதைத் தொடர்ந்து பூபார் ஹில்லஸ் என்ற அறிஞர் கணிப்பொறி வழி மொழிபெயர்ப்புப் பணியைத் தொடங்கினார். 1954-ஆம் ஆண்டு ஜார்ஜ் டவுன் பல்கலைக்கழகம் கணிப்பொறி வழி மொழிபெயர்ப்புப் பணியைத் தொடங்கியது. இதைத் தொடர்ந்து 1956-ஆம் ஆண்டு மாஸ்கோவில் பிரெஞ்சு மொழியிலிருந்து ரஷ்ய மொழிக்குக் கணிப்பொறி வழி மொழிபெயர்ப்புப் பணி நடைபெற்றது. இப்பணியை மேல்ஜங்க் (Mel Chunk) என்ற அறிஞர் மேற்கொண்டார்.
1973-ஆம் ஆண்டு அமெரிக்காவில் உள்ள Logos Incoration Limited என்ற நிறுவனம் ஒரு மென்பொருளை வடிவமைத்தது. இம்மென்பொருளைக் கொண்டு ஆங்கிலத்தில் அமைந்துள்ள செய்திகளை வியட்நாம் மொழியில் மொழிபெயர்ப்புச் செய்தது. ஏறக்குறைய இதே காலகட்டத்தில் Tertils என்ற நிறுவனம் TITUSஎன்ற மென்பொருளை வடிவமைத்தது. இம்மென்பொருளைக் கொண்டு ஸ்பானிஷ், பிரெஞ்சு மற்றும் ஜெர்மனி ஆகிய மொழியில் உள்ள செய்திகள் ஒன்றிலிருந்து மற்றவைகளுக்கு மொழிமாற்றம் செய்யப்பட்டது. இதைத் தொடர்ந்து Chinese University Translator (CUTD) என்ற மென்பொருள் உருவாக்கப்பட்டது. இதைக் கொண்டு சீன மொழியில் உள்ள செய்தித்தாள்கள் ஆங்கில மொழிக்கு மொழிமாற்றம் செய்யப்பட்டன.
1974-ஆம் ஆண்டு SYSTREN என்ற மென்பொருள் உருவாக்கப்பட்டது. SYSTREN என்பதன் விரிவு System Translation என்பதாகும். இம்மொழிபெயர்ப்பு மென்பொருள் ரஷ்ய மொழியிலிருந்து பிரெஞ்சு மொழிக்கு மாற்றம் செய்ய பயன்பட்டது. வணிக ரீதியில் முதன்முதலில் வெளியிடப்பட்ட கணிப்பொறி வழி மொழிபெயர்ப்புக்கான மென்பொருள் இதுவேயாகும்.
1975-ஆம் ஆண்டு TAUM என்ற மென்பொருள் உருவாக்கப்பட்டது. இம்மென்பொருள்கள் ரஷ்ய மொழியில் அமைந்துள்ள செய்திகளைப் பிரெஞ்சு மொழிக்கு மொழிமாற்றம் செய்யப் பயன்பட்டது. இதே காலகட்டத்தில் GETA என்ற மென்பொருள் ஆங்கில மொழியிலிருந்து பிரெஞ்சு மொழிக்கு வடிவமைக்க உருவாக்கப்பட்டது. இது போன்று உலகளாவிய நிலையில் ஆங்காங்கே சோதனைக்கட்ட முயற்சியாலும் வணிக நோக்கத்தாலும் கணிப்பொறி வழி மென்பொருள்களை உருவாக்கும் திட்டங்கள் தொடர்ந்து நடைபெற்று வருகின்றன.
1985-இல் தமிழ்ப் பல்கலைக்கழகத்தில் TUMTS (Tamil University Machine Translation System) என்ற திட்டப்பணி உருவாக்கப்பட்டது. ரஷ்ய மொழியில் உள்ள செய்திகளைத் தமிழில் மொழிபெயர்க்க ஒரு மென்பொருள் உருவாக்கப்பட்டது. இத்திட்டம் தமிழ்ப் பல்கலைக்கழகக் கணிப்பொறி அறிவியல் துறை, மொழியியல் துறை மற்றும் மொழிபெயர்ப்புத் துறை ஆகியவைகளின் கூட்டு முயற்சியால் விளைந்ததாகும்.
இதற்குப் பிறகு கான்பூரில் உள்ள இந்திய தொழில்நுட்ப நிறுவனம் (Indian Institute Of Technology- IIT) இந்தியிலிருந்து ஆங்கிலத்திற்கும் ஆங்கிலத்திலிருந்து இந்தியிலும் மொழிபெயர்ப்பு செய்வதற்கான மென்பொருளை உருவாக்கியது.
தற்பொழுது மைய அரசின் தகவல் தொழில்நுட்பத் துறையின் நிதி நல்கையுடன் ஹைதராபாத்திலுள்ள உலகத் தகவல் தொழிநுட்ப நிறுவனத்தின் தலைமையில் நடைபெறும் (International Institute of Inormation Technology (IIIT)) 'இந்திய மொழியிலிருந்து இந்திய மொழிக்கு இயந்திர மொழிபெயர்ப்புத் திட்டம்' என்பதன் கீழ் சென்னையிலுள்ள AUKBC Research Centre என்ற ஆய்வு நிறுவனம் இந்தி-தமிழ் இருதிசை மொழிபெயர்ப்புத் திட்டம் ஒன்றினை மேற்கொண்டு செயல்படுத்தி வருகிறது. தற்போதைய ஆய்வு இதன் அடிப்படையில் தான் அமைகின்றது. இவ்வாய்வேடு இத்திட்டத்தின் ஒரு பாகமாக மேற்கொள்ளப்பட்டது.
1.4 கணிப்பொறி வழி மொழிபெயர்ப்பின் எல்லைகள்
ஒரு மொழியிலிருந்து பிற மொழிக்கு மொழி மாற்றம் செய்வதற்கான மென்பொருள்கள் பல உருவாக்கப்பட்டு வருகின்றன. பெரும்பாலும் இத்தகைய கணிப்பொறி வழி மொழிபெயர்ப்புப் பணிகளில் பின்வரும் இரு எல்லைகள் நிர்ணயிக்கப்படுகின்றன.
1. மொழி என்பது பல வட்டாரங்களில் மக்கள் பேசும் மற்றும் எழுதும் அமைப்புகளின் தொகுப்பாகும். ஒரு வட்டாரத்தில் பயன்படுத்தக்கூடிய சொற்கள் பிற வட்டாரங்களில் பயன்படுத்துவதற்கு உறுதியில்லை. தமிழ் போன்ற மொழிகளில் மொழி நடையானது இலக்கிய மொழி, பேச்சு மொழி என இருவகையாகப் பிரிக்கப்படுகிறது. பேச்சு மொழியைக் கணிப்பொறியாக்கம் செய்வது என்பது சுலபமான பணியன்று. எனவே மொழிபெயர்ப்புப் பணியில் இலக்கிய மொழிகள் மட்டுமே எடுத்துக்கொள்ளப் படுகின்றன.
2. செய்யுள், கவிதை போன்றவைகளில் பொருளுக்குத் தரும் முக்கியத்துவத்தை விட கவிதை நயத்தைப் பலப்படுத்தும் உத்தி, உணர்ச்சி, வேகம் போன்ற கூறுகளுக்கு முக்கியத்துவம் தரப்படுகின்றன. இவைகள் மனித உளவியலைப் பிரதிபலிப்பன. இவ்வுளவியல் கூறுகளைக் கணிப்பொறி வழி வெளிப்படுத்துவது என்பது இயலாத ஒன்றாகும். இதே போன்று இலக்கியங்களிலும் பொருளை விட உளவியல் கூறுகளுக்கு முக்கியத்துவம் தரப்படுகின்றது. எனவே செய்யுள்கள், கவிதைகள், பாடல்கள் மற்றும் இலக்கியச் செய்திகள் ஆகியவைகளைக் கணிப்பொறி வழி மொழிபெயர்ப்பிற்குத் தொடக்க நிலை முயற்சி எடுத்துக்கொள்ளப் படவில்லை. அறிவியல் தொழில்நுட்பம் சார்ந்த படைப்புகளே மொழிபெயர்ப்புக்கு எடுத்துக்கொள்ளப் படுகின்றன.
மேற்கூறிய இரண்டும் கணிப்பொறி வழி மொழிபெயர்ப்பிற்கு எல்லைகளாகக் கருதப்படுகின்றன. மொழிபெயர்ப்பிற்கென எடுத்துக்கொள்ளப்படும் மொழிகளின் தன்மையைப் பொறுத்துக் கணிப்பொறி மொழிபெயர்ப்பினை இருபெரும் பிரிவுகளாகப் பிரிக்கலாம்.
1.5 கணிப்பொறி மொழிபெயர்ப்பின் நிறைகளும் குறைகளும்
மொழிபெயர்ப்புப் பணியைக் கணிப்பொறி வழி மேற்கொள்கின்ற பொழுது கணிப்பொறியின் சிறப்புத்தன்மை, துல்லியம், அதிவேகம், மிகுந்த நினைவகக் கொள்திறன், தகவல் தளம் உருவாக்கும் வசதிகள் போன்றன திறமையாகப் பயன்படுத்தப்படுகின்றன. ஒரு மொழியிலிருந்து பிற மொழிக்கு மொழிபெயர்ப்புச் செய்யப்படும் போது பன்மொழித் திறமை அவசியம் என்ற நிலை இல்லை. அந்தந்த மொழியின் வல்லுநர்களின் மொழித்திறன் கணிப்பொறி வழியமைப்பாக வழியமைக்கப்படுகின்றது. மொழிபெயர்ப்புப் பணிக்குக் கூட ஒருவருக்கு இருமொழியிலும் திறமை இருக்க வேண்டும் என்ற தேவை இல்லை. இருப்பினும் கணிப்பொறி வழி மொழிபெயர்ப்புப் பணிகளில் பல சிக்கல்கள் உள்ளன.
ஒரு மொழியின் வளம், தன்மை ஆகியவற்றைக் கணிப்பொறிக்கு ஏற்றாற்போல் கணிதப்படுத்துவது என்பது எளிமையான பணி அல்ல. எனவே கணிப்பொறி வழி மொழிபெயர்ப்புத் திட்டங்கள் சுமார் 50 ஆண்டுகளுக்கு முன்னர் தொடங்கப்பட்டு இன்னும் முழுமை பெறவில்லை. மேலும் கணிப்பொறி அறிவியலில் தொழில்நுட்ப வளர்ச்சி கணிப்பொறி வழி மொழிபெயர்ப்புப் பணிக்கு மிகவும் பயனுள்ளதாக அமைகின்றது. இத்தகைய பணிகளின் குறைநிறைகளைக் கீழே காண்போம்.
மொழிக்கு இடையே உள்ள சொல்வளம், இலக்கணம், கருத்தாடல் போன்றவைகளின் ஒற்றுமைகளை ஆராய வேண்டும். இவ்வகைகளில் மொழிகளுக்கு இடையே உள்ள ஒற்றுமை அதிகரிக்க அதிகரிக்க மொழிபெயர்ப்புப் பணியின் சிக்கல்கள் குறையும்.
உருபனியல் அமைப்பைப் பொறுத்தவரையில் மொழிகளின் பண்புகள் இருவேறு திசைகளில் மாறுகின்றன:
அ. ஒரு சொல்லில் எத்தனை உருபன்கள் உள்ளன என்பதைப் பொறுத்து
ஆ. ஒரு சொல்லில் ஒரே உருபன் மட்டும் இருந்தாலும் அதற்கு மேலே இருந்தாலும் அவைகளை எவ்வளவு துல்லியமாகப் பிரிக்க இயலும் என்பதைப் பொறுத்து.
ஒரு சொல்லில் ஒரே ஒரு உருபன் மட்டும் இருந்தால் அந்த மொழியைத் தனிநிலை உருபன் கட்டுமொழி (Isolating Language) என்கிறோம். ஒரு மொழியில் உள்ள சொற்களில் ஒன்றுக்கு மேற்பட்ட உருபன்கள் இருந்தால் அதைப் பன்நிலை உருபன் கட்டுமொழி (Polysynthetic Language) என்கிறோம்.
சிபேரியன் மொழி பன்நிலை உருபன் கட்டுமொழிக்குச் சிறந்த உதாரணமாகும். வியட்நாமிய மொழி, கேண்டுனஸ் மொழி ஆகியன தனிநிலை உருபன் கட்டு (Isolating) மொழிகளுக்குச் சிறந்த உதாரணங்கள் ஆகும். இத்தகைய தகவல்கள் கணினி மொழியாய்விற்கு முக்கியமானவையாகும். எனவே இத்தகைய மொழிகளுக்குள் மொழிமாற்றம் செய்ய கணிப்பொறி வழி திட்டங்கள் வகுக்கின்ற பொழுது மொழிகளின் உருபனியல் பற்றிய விரிவான தகவல் தேவையாகும்.
மொழிகளின் தொடரியல் அமைப்பைப் (Syntactic Structure) பொறுத்து குறிப்பாக எழுவாய் (Subject (S)), பயனிலை (Verb (V)) செயப்படுபொருள் (Object (O)) என்பன ஒரு வாக்கியத்தில் வரும் நிரல் அடிப்படையில் மொழிகள் வகைப்படுத்தப்படுகின்றன. முக்கியமாக மூன்று வகைப் பிரிவுகள் குறிப்பிடப்படுகின்றன.
1. SVO அமைப்பு: ஜெர்மன், பிரெஞ்சு, ஆங்கிலம் போன்றவை SVO அமைப்பில் உள்ள மொழிகளாகும்.
2. SOV அமைப்பு: தமிழ், இந்தி, ஜப்பான் ஆகிய மொழிகள் SOVஅமைப்பில் உள்ள மொழிகளாகும்.
3. VSO அமைப்பு: இர்ரீஸ், அரேபி, ஹீப்ரு போன்ற மொழிகள் VSOஅமைப்பில் அமைந்துள்ளன.
SVO அமைப்பில் உள்ள மொழிகளில் முன்னுருபுகள் அல்லது முன்னுருபுகள் (Preposition) முன்னிடைச்சொல் பயன்படுத்தப்படுகிறது. SOV அமைப்புள்ள தமிழ் போன்ற மொழிகளில் பின்னுருபுகள் (Postposition) பயன்படுத்தப்படுகின்றன. இத்தகைய தகவல்களும் கணினி மொழியாய்விற்கு முக்கியமானவையாகும். எனவே கணிப்பொறி வழி மொழிபெயர்ப்புத் திட்டங்களுக்கு மொழிகளுக்கு இடையே உள்ள தொடரியல் அமைப்பு வகைகள், உறவுகள் போன்றவை ஆராயப்பட வேண்டும்.
இராமனின் வீடு என்ற தொடரில் வீடு என்பது தலைச்சொல் (Head word) ஆகும். இராமன் என்பது சார்புச் சொல் (Depended word) ஆகும். தலைச்சொல்லுக்கும் சார்புச் சொல்லுக்கும் இடையிலான உறவை -இன் என்ற ஒட்டு விளக்குகிறது. இது போன்று தலைச்சொல்லுக்கும் சார்புச் சொல்லுக்கும் இடையிலான முறையைப் பொறுத்து தலைக்குறித்தல் மொழி (Head Marking Language), சார்பு குறித்தல் மொழி (Dependent Marking Language ) என மொழியில் ஒட்டு இருவகைப்படும். சார்பு குறித்தல் மொழியில் ஒட்டு சார்புச் சொல்லுடனும், தலைக் குறித்தல் மொழியில் ஒட்டு தலைச்சொல்லுடனும் தரப்படுகின்றன. தமிழ், ஆங்கிலம் போன்ற மொழிகள் சார்புக் குறித்தல் மொழியைச் சார்ந்ததாகும். ஹங்கேரிய மொழி தலைக்குறித்தல் மொழியைச் சார்ந்ததாகும். பின்வரும் எடுத்துக்காட்டு விளக்கும்.
English : Man’s house
Hungarian : The man house his
House : Head word
The man : Dependent word
s : Affix
எனவே கணிப்பொறி வழி மொழிபெயர்ப்புப் பணியை மேற்கொள்கின்ற போது தலைச்சொல்லுக்கும் சார்புச் சொல்லுக்கும் இடையே உறவுமுறைகள் எவ்வாறு குறிக்கப்பெறுகின்றன என்பது பற்றியெல்லாம் ஆராய வேண்டும்.
மூல மொழியில் உள்ள ஒரு சொல்லின் வகைப்பாடும் இலக்கு மொழியிலுள்ள அதற்கு நிகரான சொல்லின் வகைப்பாடும் ஒன்றாக இருக்க வேண்டிய தேவையில்லை. எடுத்துக்காட்டாக, ஒரு மொழியிலுள்ள வினைச்சொல் பிறமொழிக்கு மொழிபெயர்ப்ப்பு செய்யப்படும் போது மொழிபெயர்ப்புச் சொல் வினைச்சொல்லாக இருக்க வேண்டிய தேவை இல்லை. இவைகள் எல்லாம் மொழிபெயர்ப்புப் பணியில் உள்ள சிக்கலாகும்.
ஒவ்வொரு மொழியிலும் கருத்தாடல்களுக்கான சொல் விளக்கமானதாகவோ சுருக்கமானதாகவோ இருக்கலாம். உதாரணமாக, சகோதரன் என்ற உறவைக் குறிக்க ஆங்கிலத்திலும் brother என்ற சொல் உள்ளது. மூத்த சகோதரனை ஆங்கிலத்தில் elder brother என்று சொல்கிறோம். இவ்வாறு வயது மூத்தவர், இளையவர் என்பதைக் குறிக்க elder, younger என்ற அடைச்சொற்கள் பயன்படுத்தப்படுகின்றன. ஆனால் தமிழில் அண்ணன் என்றும் தம்பி என்றும் தனித்தனிச் சொற்கள் உள்ளன. சகோதரன் என்ற உறவை மேலும் வகைப்படுத்த முதியவர், இளையவர் என்ற நிலையில் அண்ணன், தம்பி என்ற இரு சொற்கள் உள்ளன. ஆனால் ஆங்கிலத்தில் இவ்வகையிலான வேறுபாடு என்பது இல்லாததால் உறவை வேறுபடுத்த elder, younger என்ற சொற்களைப் பயன்படுத்த நேரிடுகிறது.
மூலமொழிச் செய்திகளில் உள்ள கலாச்சாரப் பின்னணி மொழிபெயர்ப்பிற்கு ஒரு முக்கியமான காரணியாகும். அதே கலாச்சாரப் பண்பு இலக்கு மொழிக்கும் பொருத்தமானதாக அமைதல் வேண்டும் அல்லது இலக்கு மொழியின் கலாச்சாரப் பண்புகளுக்கு ஏற்ப மாற்றித்தரத்தக்க அளவு இருத்தல் வேண்டும். இரு மொழிகளுக்கு இடையே உள்ள கலாச்சாரத் தொடர்புகள் மொழிபெயர்ப்பு செய்ய இயலுமா இயலாதா என்பதைத் தெளிவுபடுத்தும். மேலும் சபீர், ஹூஃப் கொள்கையின் படி ஒருவர் பேசும் மொழி சிந்திக்கும் திறனைக் கூட்டுவதாகவோ அல்லது குறைப்பதாகவோ உள்ளது. எனவே மொழிபெயர்ப்பில் இத்தகைய உளவியல் ரீதியான சிக்கல்கள் உள்ளன.
தொடரியல் பகுப்பாய்வி (Syntacitc Parser) பல பணிகளுக்காக உருவாக்கப்படுகின்றன. ஆனால் இயந்திர மொழிபெயர்ப்பிற்காகப் பயன்படுத்தப்படும் பகுப்பாய்வி பிற பகுப்பாய்வியை விட சிறிது வேறுபடுகிறது. இங்கு தொடரின் அல்லது வாக்கியத்தின் பொருளை அடிப்படையாகக் கொண்டு பகுப்பாய்வு செய்யப்படுகிறது. எனவே இயந்திர மொழிபெயர்ப்பிற்கு உருவாக்கப்படும் பகுப்பாய்வி தொடரியல் அமைப்பை மட்டும் சாராது. பொருளைச் சார்ந்ததாகவும் அமைகிறது. இத்தகைய பகுப்பாய்விகளை உருவாக்க அடிப்படை அறிவு (Basic knowledge) தேவைப்படுகின்றன.
இயந்திர வழி மொழிபெயர்ப்பு செய்கின்ற பொழுது ஏதேனும் சிக்கல்கள் இருந்தாலோ அல்லது கணிப்பொறிக்குக் கூடுதல் தகவல் தேவைப்பட்டாலோ மனித உதவியை எதிர்நோக்குகின்றது. இத்தகைய சூழல்களில் சிக்கலைப் புரிந்து கொண்டு அதற்கேற்ற தீர்வு உரிய முறையில் வழங்கப்பட வேண்டும். எனவே இயந்திர மொழிபெயர்ப்புத் திட்டத்தை இயந்திர மனித உரையாடலுக்கு ஏற்றாற்போல் வடிவமைக்க வேண்டியது அவசியம் ஆகும். பெரும்பாலும் படைப்பாற்றல் திறனைச் செய்திகளில் வெளிப்படுத்தும் பொழுது கணிப்பொறிக்குக் கூடுதல் செய்திகள் தேவைப்படுகின்றன.
பெரும்பாலான கணிப்பொறி வழி மொழிபெயர்ப்புகளிலும் உள்ளீடு (Input) செய்யும் செய்திகளை முன்திருத்தம் செய்யும் பொழுது மூல மொழியின் தன்மையும் இலக்கு மொழியின் தன்மையும் கருத்தில் கொள்ளப்படுகின்றன. இதை இரு வகைகளில் செய்யலாம்.
மூல மொழியில் உள்ள செய்தியை முதலில் இலக்கு மொழிக்கு மொழி பெயர்ப்பது; பின்னர் மொழிபெயர்ப்பைப் படித்தறிந்து அது சரியான கருத்தை வெளிப்படுத்துகின்றதா என்பதை ஆராய்வது; அப்படி இல்லையெனில் மூல மொழிச் செய்தியை முன்திருத்தம் செய்து மறுபடியும் மொழிபெயர்ப்பு செய்வது; கருத்து வெளிவருகின்ற வரை இத்தகைய ஆய்வை மீண்டும் மீண்டும் செய்வது.
மொழிபெயர்ப்பிற்கு முன்னால் முன்திருத்தப் பணிக்கு முக்கியத்துவம் அளித்து தேவையான திருத்தங்களைச் செம்மையாக மேற்கொள்வது. இம்முறை கணிப்பொறியின் நேரத்தை மிச்சப்படுத்துவது மட்டுமல்லாமல் மொழிபெயர்ப்பின் வேகத்தையும் அதிகப்படுத்துகிறது. மேலும் ஒரு மொழியிலிருந்து பல மொழிக்கு மொழிபெயர்ப்பு செய்ய வேண்டிய சூழல்களில் முன்திருத்தப்பணி திறமையானதாக அமைகிறது.
மொழிபெயர்ப்புப் பணிகளுக்காக உருவாக்கப்படுகின்ற அகராதிகள் சாதாரண முறையில் அல்லது பல கூடுதல் செய்திகளைக் கொண்டதாக இருத்தல் வேண்டும். பிற வகை அகராதிகளை விட துறை சார்ந்த அகராதிகள் மொழிபெயர்ப்புப் பணியை எளிமைப்படுத்துகிறது. மூலமொழியில் உள்ள செய்தியைப் பொறுத்து அது தொடர்புடைய அகராதியைப் பயன்படுத்திக் கொள்ளலாம்.
மொழிபெயர்ப்புக்காக உருவாக்கப்படும் அகராதியில் சொற்கள், தொடர்கள், மரபுத்தொடர்கள் மேலும் அடிக்கடி பயன்படுத்தக்கூடிய வாக்கியங்கள் போன்றவைகள் உரிய விளக்கத்துடன் தரப்பட வேண்டும். கணிப்பொறி வழி மொழிபெயர்ப்புப் பணி என்பது ஒரே மூச்சில் ஒட்டுமொத்தமாகச் செய்யக்கூடிய பணியாகும். முதலில் கணிப்பொறி வழியமைப்பிற்கான மென்பொருள் வடிவமைக்கப்பட வேண்டும். அதன் செயல்திறனை அறிய வேண்டும். பணியின் தன்மையை மதிப்பிட வேண்டும். இதற்கு ஏற்றாற்போல் தேவைப்படின் மென்பொருளைக் கூடுதல் வசதிகளுடன் மேம்படுத்த வேண்டும். இம்முறைகளை மனிதனுக்கு நிறைவழிக்கும் கொள்திறன் கிடைக்கின்ற வரையில் திரும்பத் திரும்பச் செய்ய வேண்டும்.
கணிப்பொறி வழி மொழிபெயர்ப்புக் கடுமையான பணியாகும். இதற்கு மனித மொழிபெயர்ப்பில் மேற்கொள்ளப்படும் திட்ட மாதிரிகளும் (Models) வழிமுறைகளும் அவசியம் ஆகும். கணிப்பொறி மொழிபெயர்ப்பு எண்ணற்ற முயற்சியினால் உருவாக்கப்படுகின்ற ஆக்கப்பூர்வமான பணியாகும். இங்கு அறிவியல் மட்டுமல்லாது மொழிபெயர்ப்பிற்குத் தேவையான கலைத்திறனும் அவசியமாகும்.
தற்பொழுது உலகளவில் உருவாக்கப்பட்டுள்ள மொழிபெயர்ப்புப் பணிகள் மனதிற்கு நிறைவளிக்கக்கூடிய வகையில் உள்ளன. இவைகள் ஓரளவுக்கு மொழிபெயர்ப்பிற்கு உதவுகின்றன. இவைகளைச் செம்மைப்படுத்தி முற்றிலும் சிறந்ததாக அமைப்பதற்கு முயற்சிகள் மேற்கொள்ளப்பட்டு வருகின்றன. எனவே தற்பொழுது கணிப்பொறி வழி மொழிபெயர்ப்புப் பணிகள் வரைவு மொழிபெயர்ப்பிற்குப் போதுமானதாகும்.
மனிதனின் படைப்பாற்றல், கற்பனைத்திறன், உளவியல் பாங்கு போன்றன செய்திகளால் பொதிந்துள்ளதால் கணிப்பொறி வழி மொழிபெயர்ப்புப் பணியில் இத்தகைய கூறுகளைச் சேர்க்க வேண்டியுள்ளது. அதற்கு மனித நுண்ணறிவுடன் கூடிய கணிப்பொறிகள் உருவாக்கப்படுகின்றன.
1.6 இயந்திர மொழிபெயர்ப்பின் வளர்ச்சி
இயந்திர மொழிபெயர்ப்பின் வளர்ச்சியை நான்கு காலகட்டமாகப் பிரித்து பகுத்து ஆயலாம் (Hutchins ,1986) . அவை முதல், இரண்டாவது, மூன்றாவது, நான்காவது, இன்றைய காலகட்டம் என பகுத்தாயலாம்.
1.6.1 முதல் கட்டம் (1946லிருந்து 1982 வரை)
இக்காலகட்டத்தில் செய்யப்பட்ட இயந்திர மொழிபெயர்ப்புகள் மூல மொழிச் சொற்களுக்கு இணையான சொற்களை இருமொழி அகராதி பார்த்துக் கண்டுபிடித்து மூல மொழி போலவே வரிசைப்படுத்தித் தருவதைச் செயல்முறையாகக் கொண்டிருந்தது. இச்செயல்முறை தொடரியல் பகுத்துக்குறித்தலைப் பயன்படுத்த வில்லை.
1.6.2 இரண்டாவது காலகட்டம் (1954-1966)
1954-இல் ஜார்ஜ்டவுன் பல்கலைக்கழகம் 880 ரஷ்ய சொற்களையும் இலக்கணத்தின் ஆறு விதிகளையும் கொண்டு ஒரு இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறையை நடைமுறைப்படுத்திக் காட்டியது. அடிப்படைச் சிக்கல் பொறியியல் தன்மை அடிப்படையிலான சிக்கல் என்று நம்பப்பட்டது. அடுத்த பத்தாண்டுகளில் USA-இல் இத்தகைய ஆய்வுகள் பெருமளவில் ஊக்குவிக்கப்பட்டன. கடினமான மொழியியல் சிக்கல்கள் குறித்த விழிப்புணர்வு அதிகரித்தது. திருப்தியில்லாத முன்னேற்றம் காரணமாக ALTPA இயந்திர மொழிபெயர்ப்பிற்கான பண உதவியைக் குறைக்கப் பரிந்துரைத்தது. இக்காலகட்டத்தில் தொடரியல் ஆய்வு தொடக்க நிலையில் இருந்தது. இலக்கண விதிகள் (Grammatical Rules) மற்றும் தொடரியல் அமைப்பு (Syntactic Structure) ஆகிய கருத்துச்சாயல்கள் இல்லாதிருந்தது. ஆங்கிலம் மற்றும் ருஷ்ய இலக்கணங்கள் வழியமைப்பின் (Program) ஒரு பகுதியாக இருந்தது.
இலக்கு மொழி உரை
மூலமொழியில் உரை பகுப்பாய்வும் உருவாக்கமும்
மூலமொழி –இலக்கு மொழி அகராதிகள் மற்றும் இலக்கணம்
1.6.3 மூன்றாவது காலகட்டம் (1966-1975)
நேரடியான மொழிபெயர்ப்பு அடிப்படையில் இயங்கும் இரு ஒழுங்கமைப்புகள் Systran மற்றும் Logos. இக்காலகட்டத்தில் மொழியியல் கோட்பாட்டின் முன்னேற்றத்தில் மிகுந்த மாற்றம் ஏற்பட்டது. மொழியியல் தரவு கணிப்பொறியின் செயல்பாட்டிலிருந்து பிரிக்கப்பட்டது. இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறைகள் இடைமொழி அணுகுமுறையைப் (Interlingual Approach) பயன்படுத்தியது; இதன் செயல்பாட்டில் இரண்டு நிலைகள் இருந்தன: மூல மொழியிலிருந்து இடைமொழிக்கு மற்றும் இடைமொழியிலிருந்து இலக்கு மொழிக்கு.
இலக்குமொழி உரை
மூலமொழி உரை
இடைமொழி உருப்படுத்தம் பகுப்பாய்வு உருவாக்கம்
மூலமொழி இலக்குமொழி அகராதி
மூலமொழி அகராதியும் இலக்கணமும்
இலக்கு மொழி அகராதியும் இலக்கணமும்
Metal மற்றும் Ceta என்ற இரண்டு ஒழுங்குமுறைகள் இடைமொழி அணுகுமுறையின் (Interlingual Approach) அடிப்படையில் உருவாக்கப்பட்டவை. இவ்வணுகுமுறையில் மூல மொழிக்கும் இலக்கு மொழிக்கும் அவைகளுடைய தனித்தன்மையான அக அமைப்புகளின் உருப்படுத்தம் (Deep Structure Representation) இருக்கும். மொழிபெயர்ப்பு மூன்று மட்டச் செயல்முறையாகும்.
உரைகளை மூல மொழியின் உருப்படுத்தமாகச் செய்தல்
அதை இலக்கு மொழி உருப்படுத்தமாக மாற்றுதல்
இலக்கு மொழியின் உரைகளை உருவாக்குதல்
இலக்குமொழி உரை
இலக்கு மொழி உருப்படுத்தம்
மூலமொழி உருப்படுத்தம்
மூலமொழி உரை பகுப்பாய்வு மாற்றம் உருவாக்கம்
மூலமொழி அகராதியும் இலக்கணமும்
மூலமொழி இலக்குமொழி அகராதி
இலக்கு மொழி அகராதியும் இலக்கணமும்
மாற்ற ஒழுங்குமுறையின் மிக அறியப்பட்ட எடுத்துக்காட்டு மாண்ட்ரிஸ் பல்கலைக்கழகத்தில் செய்யப்பட்ட ஆங்கில பிரெஞ்சு மொழி ஒழுங்குமுறையான TAUM திட்டம் ஆகும்.
1.6.4 நான்காவது காலகட்டம் (1975-1985)
இந்த காலகட்டத்தில் உருவாக்கப்பட்ட ஒழுங்குமுறை குவிதல் அணுகுமுறைகளைப் (Convergence Approach) பயன்படுத்தியது. இவைகள் கட்டுப்படுத்தப்படாத உரை உள்ளீடு கொண்ட முழு தானியங்கு ஒழுங்குமுறைகளின் திட்ட அமைப்பிற்கு எல்லைப்படுத்தப்பட்டன. இந்தக் காலகட்டத்தில் எல்லைக்குட்பட்ட மொழி ஒழுங்குமுறைகளும் ஊடாடும் ஒழுங்குமுறைகளும் உருவாக்கப்பட்டன. தொடரியல் மற்றும் பொருண்மையியலுக்கு எல்லைப்படுத்தப்பட்ட ஒழுங்குமுறையின் எடுத்துக்காட்டு TAUM என்பதன் அனுபவத்தின் அடிப்படையில் மாண்டரியஸ் பல்கலைக்கழகத்தால் உருவாக்கப்பட்ட Meteo என்பதாகும். இது ஆங்கிலத்தில் உள்ள வானிலை அறிக்கைகளைப் பிரெஞ்சு மொழிக்கு மொழிபெயர்க்கும். ஊடாட்டம் செய்யும் இயந்திர மொழி பெயர்ப்பின் கவர்ச்சி மனித மொழிபெயர்ப்பாளர்கள் மற்றும் கணினி இவற்றின் ஒத்துழைப்பைச் சிறப்பாகப் பயன்படுத்துவதில் உள்ளது.
1.6.5 இன்றைய கால கட்டம் (1985-இல் இருந்து)
ஆளுகைக் கட்டுறவுக் கோட்பாடு (Government and Binding (GB) Theory) , சொல் செயல்பாட்டு இலக்கணம் (Lexical Functional Grammar (LFG)), கிளை இணைக்கும் இலக்கணம் (Tree Adjoining Grammar (TAG)), பெரிதாக்கப்பட்ட மாற்ற வலைப்பின்னல் (Augmented Transition Network (ATN)) போன்ற புதிய இலக்கண வடிவங்களின் வருகை இயற்கை மொழி ஆய்வுப் பரப்பில் புதிய பார்வையை உருவாக்கியது. இம்மொழியியல் வடிவமைப்புகள் பகுத்துக்குறிக்கும் வழிமுறைகளில் தொடரியல் மற்றும் பொருண்மையியல் பண்புக்கூறுகளின் பொருத்தத்திற்கு ஆலோசனைக்குரியது. மேலும் கணிப்பொறி அறிவியலில் ஏற்பட்ட தொழில்நுட்ப முன்னேற்றம் இயந்திர மொழிபெயர்ப்பு ஆய்வின் வளர்ச்சிக்குச் சாதமாக அமைந்தது. சொல்-பொருண்மையியல் பகுப்பாய்வை உள்ளடக்கிய இயற்கை மொழியின் புரிதல் (Natural Language Understanding) தேவையான உலக அறிவை அடையாளம் காணுவதை உள்ளடக்கியது. அறிவு உருப்படுத்தம் மற்றும் மொழியியல் அறிவில் உள்ளடக்குவது போன்றவை இயந்திர மொழிபெயர்ப்பு ஆய்வுகளின் பரப்பில் மேலும் கூடுதல் வளர்ச்சிக்கு உதவி புரிந்தது. தற்கால ஒழுங்குமுறைகள் இந்த மூன்று அணுகுமுறைகளின் மேம்பாடுகளைப் பயன்படுத்துகின்றன. முழு ஒழுங்குமுறையும் பல எண்ணிக்கையிலான துணை ஒழுங்குமுறைகளாகப் பிரிக்கப்பட்டுச் சரியாக இடைமுகப்படுத்தப்பட்டுள்ளன. இயந்திர மொழிபெயர்ப்பின் இவ்வேறுபட்ட கட்டங்களை மூன்று நிலைகளாக் கூறலாம்.
1. ஆய்வு நிலை
ஒழுங்குமுறையின் உள்ளீடாக மூல மொழி உரை முதலில் சொல் நிலையில் ஆயப்படுகிறது. உருபனியல் ஆய்வி, உருபனியல் விதிகள், சந்தி விதிகள், அடிச்சொல், இயந்திரம் படிக்கவியலும் அகராதி மற்றும் முன்னொட்டு அகராதி போன்றவற்றைப் பயன்படுத்தி சொற்களை அவற்றின் உருபன்களுக்காகப் பிரிக்கின்றது. வாக்கியப் பகுப்பாய்வி ஒரு இலக்கண மாதிரியைப் பயன்படுத்தி ஒவ்வொரு வாக்கியத்தையும் அவற்றின் உறுப்புக்கான தொடர்கள் மற்றும் எச்சத் தொடர்களுக்காகப் பகுப்பாய்வு செய்கிறது; பயனிலைகளுக்கும் அவற்றின் பங்கெடுப்பாளர்களுக்கும் இடையில் உள்ள தொடரியல் மற்றும் பொருண்மையியல் உறவுகள் குறியாக்கம் செய்யப்படுகின்றன.
2. மாற்ற நிலை
இந்நிலையில் இரண்டு நிலைகள் உள்ளன: 1. சொல்சார் மாற்றம் 2. அமைப்புசார் மாற்றம். சொல்சார் மாற்ற நிலையில் உரை மற்றும் அகராதியின் தொடரியல் மற்றும் பொருண்மையியல் குறியாக்கத்தின் உதவியுடன் ஒவ்வொரு சொல்லின் சொல்சார் பொருண்மையின் மெய்ப்படுத்தம் செய்யப்படும்; இலக்கு மொழியிலிருந்து பொருத்தமான சொல் தேர்ந்தெடுக்கப்படும். இந்த அமைப்பு மாற்ற நிலையில் இலக்கு மொழி, மூல மொழி விதிகளைப் பயன்படுத்தி மூல மொழி அமைப்பு இலக்கு மொழி அமைப்பிற்கு மாற்றப்படும்.
3. உருவாக்க நிலை
இந்த நிலையில் வாக்கிய உருவாக்கும் பகுதி (Sentence Generator Module) இலக்கு மொழி இலக்கணத்தின் உதவியால் பெறப்படும் அமைப்புகளுக்கு இலக்கண அடிப்படையில் சரியான வாக்கியங்களை உருவாக்கும். பின்னர் உருபனியல் விதிகள் அல்லது புணர்ச்சி விதிகள், இயந்திரம் படிக்கவியலும் முன்னொட்டு அகராதி இவற்றைப் பயன்படுத்தி உருபனியல் சார் குறியாக்கம் இலக்கு மொழியின் பொருத்தமான ஒட்டுகளால் இடம் பெயர்க்கப்படும். வெளியீடு இலக்கு மொழியில் ஒரு உரையாக உற்பத்தி செய்யப்படும். இம்மொழிபெயர்ப்பு ஒழுங்குமுறைகளும் வேறுபட்ட நிலைகளும் அவற்றின் துணை ஒழுங்குமுறைகளும் கீழே தரப்பட்டுள்ளன.
சொல்சார் மாற்றம்
அமைப்புசார் மாற்றம்
இலக்கு மொழி இலக்கணம்
இலக்கு மொழி இலக்கணம்
வாக்கியப் பகுப்பாய்வு
வாக்கிய உருவாக்கி
இலக்கு மொழி உருபனியல்
உருபனியல் பகுப்பாய்வி
இலக்கு மொழி உருபனியல்
உருபனியல் உருவாக்கி
`
மூலமொழி உரை
இலக்கு மொழி உரை
1.7 தமிழில் இயந்திர மொழிபெயர்ப்பிற்கான முயற்சிகள்
ஆரம்ப கட்டத்தில் இந்தியாவில் இயந்திர மொழிபெயர்ப்புகள் இதற்கான சாத்தியத்தை வெளிப்படுத்தும் பொம்மை ஒழுங்குமுறைகளாக (toy systems) இருந்தன. 1978 வரை இயந்திர மொழிபெயர்ப்பிற்கான எந்த முயற்சியும் எடுக்கப்பட வில்லை. 1978-இல் ஐஐடி (IIT) கான்பூரில் உள்ள மின்னியல் தொழில்நுட்பத் துறையின் முயற்சியால் மொழியியல் அடிப்படையிலான தகவல் ஒழுங்குமுறைகள் பற்றிய தேசிய கருத்தரங்கு (National Symposium On Linguistic Based Information System) முதன்முதலில் நடைபெற்றது. இந்தக் கருத்தரங்கு ஆராய்ச்சியாளர்களிடையும் அரசாங்கத்திலும் தொழில்நுட்பத் துறைகளிலும் இயந்திர மொழிபெயர்ப்பு குறித்த விழிப்புணர்ச்சியை ஏற்படுத்தியது. இருப்பினும் இயந்திர மொழிபெயர்ப்பு 80-களின் ஆரம்ப கட்டத்தில் இந்திய மொழிகளுக்குச் சொல்லாய்விகளும் பிற கணிப்பொறி வசதிகளும் வரத் தொடங்கிய பின்னர் தான் தொடங்கப்பட்டது. ஐஐடி கான்பூர் GIST என்ற பன்மொழி தொழில்நுட்பத்தின் உருவாக்கத்திற்கு முயன்றது. இது இயந்திர மொழிபெயர்ப்பிற்கு விழிப்புணர்ச்சி ஏற்படுத்துவதுடன் மூலம் இதில் ஆய்வு மற்றும் வளர்ச்சி குறித்த பல திட்டங்களை ஊக்குவித்தது.
இந்தியாவில் பல மையங்களில் பலவிதமான முயற்சிகள் மேற்கொள்ளப்பட்டாலும் மூன்று வேறுபட்ட அணுகுமுறைகளைப் பட்டியலிட இயலும்.
1. இடைமொழி அணுகுமுறை (Interlingual Approach)
2. நேரடி சொல்சார் மாற்றம் (Direct Lexical Transfer Approach)
3. கணிப்பொறி உதவியுடன் மொழிபெயர்ப்பு முயற்சிகள் (Machine Aided Translation Efforts)
இவையாவும் ஐஐடி கான்பூரில் மேற்கொள்ளப்பட்டன.
1.7.1 இடைமொழி அணுகுமுறை
இடைமொழி ஆய்வு அணுகுமுறை சமஸ்கிருதத்தை இடைப்பட்ட அடிப்படை மொழியாகக் கொண்டு இந்திய மொழிகளுக்கு இடையில் மொழிபெயர்ப்பு செய்யும் முறை சின்ஹா என்பவரால் 1984-இல் முயற்சிக்கப்பட்டு 1989-இல் விரிவாக்கப்பட்டது. இது மூல மொழியின் ஆய்வுக்குக் காரக அடிப்படையிலான ஒழுங்குமுறையைப் பயன்படுத்தி ஒரு சட்டக அடிப்படையிலான அக உருப்படுத்தத்தை முன்மொழிந்தது. 1986-1988-களில் எல்லைக்குட்பட்ட சொற்களைக் கொண்ட மிக எளிய வாக்கியங்களை இந்தியிலிருந்து தெலுங்கிற்கு மொழிபெயர்க்கும் மூலமாதிரி (Prototype) சைத்தான்யா மற்றும் ராஜீவ் சங்கல் என்பவர்களால் உருவாக்கப்பட்டது. இது காரக அடிப்படையிலான கருத்துரு வரைபடத்தை அக உருப்படுத்தத்திற்கும் பொருண்மை மயக்கங்களுக்கும் பயன்படுத்தியது. ஒரு தனிநிலை தொடரியல் இருப்பானில் உள்ள மிகக் கூடுதலாகத் தொடர்புள்ள சொற்கள் ஒரு சொல் குழுவாகப் பயன்படுத்தப்பட்டது. மூல மொழியில் உள்ள உரை உருவாக்கி இச்சொற் குழுமங்களிலிருந்து பொருத்தத்தைச் சரியான உருபனியல் உருவாக்கத்திற்குப் பயன்படுத்தியது.
அடுக்குச் சொற்கள்
சொல் வழிநிலை தேர்வுகள் மூலமொழி
புணர்ச்சி கட்டுக்கோப்பு
உருபன்
கால ஆற்றல் நோக்குகள் வேற்றுமை பின்னுருப் தரவு குழும விதிகள்
வட்டாரச் சொல் குழுமம்
இருமொழி அகராதி வேற்றுமை அகராதி கால-ஆற்றல் நோக்கு அகராதி
பொருத்தல் பகுதி
இலக்கு மொழி கால-ஆற்றல் நோக்கு விளக்கங்கள்
வட்டாரச் சொல் பிரிப்பான்
அனுமான விதிகள்
சொல்லடுக்குகள்
உருவாக்கல்
உருபு உருவாக்கி
தொடரியல் தெளிவுகள்
அனுசாரக் நேரடி உதவி
வெளியீடு
இடைமொழி அடிப்படையிலான இயந்திர மொழிபெயர்ப்பு அதற்குப் பின் முயற்சிக்கப்படவில்லை. இவ்வணுகுமுறை இந்திய மொழிகளின் பன்மைத்தன்மைக்குக் கூடுதல் அனுகூலமாய் இருந்தாலும் அக உருப்படுத்தத்திலிருந்து புற அமைப்பைப் பெறுவது கடினமான செயல்பாடாக அமைந்து குறையுடையதாக இருந்தது. இந்த அணுகுமுறை மூல மொழியின் சீரான புரிதலை முன் கருதலாகக் கொண்டதால் இன்றைய ஆய்வு நிலையில் ஏற்றதாக அமையவில்லை. மேலும் அமைப்பு அடிப்படையில் அண்மைப்படுகிற இந்திய மொழிகளுக்கிடையில் மொழிபெயர்ப்பின் போது நேரிடையான சொல் பதிலீடு செய்வது எளிமையாக அமைந்தது. இதன் காரணமாக இவர்களால் அனுசாரகா என்ற அணுகுமுறை உருவாக்கப்பட்டது.
இந்திய மொழிகளுக்கிடையே உள்ள அமைப்பு ஒற்றுமை காரணமாக மூல மொழியிலிருந்து இலக்கு மொழிக்கு பல பொருண்மை மயக்கங்களைக் கொண்டு செல்ல இயலும் என்ற காரணத்தால் இந்த இடைமொழி அணுகுமுறை இந்திய மொழிகளுக்கிடையே மொழிபெயர்ப்பிற்கு நல்லதொரு அணுகுமுறையாக அமையும். இருப்பினும் ஆங்கிலத்திலிருந்து இந்திய மொழிகளுக்கும் இந்திய மொழிகளிலிருந்து ஆங்கில மொழிகளுக்கும் மொழிபெயர்க்க இடைமொழி அணுகுமுறை பொருத்தமான அணுகுமுறை அல்ல.
1.7.2 சொல்நிலையில் மாற்றத்தைப் பயன்படுத்திய நேரடி அணுகுமுறை
(அனுசாரகாத் திட்டம்)
சைத்தான்யா மற்றும் ராஜீவ் சங்கல் என்பவர்களால் மூல மொழியிலிருந்து இலக்கு மொழிக்கு நேரடி சொல்சார் மாற்ற அணுகுமுறை உருவாக்கப்பட்டது. இங்கு மூலமொழிக்கும் இலக்கு மொழிக்கும் இடையில் உள்ள வாக்கிய அமைப்பின் பொதுமைப் பண்புகள் இரண்டும் இந்திய மொழிகள் என்ற காரணத்தால் கருதப்பட்டு முழு அளவிலும் பயன்படுத்தப்பட்டுள்ளது. இவ்வணுகுமுறையின் படி ஒரு தனிநிலை தொடரியல் உறுப்பாக அமையும் மூல மொழியில் உள்ள சொற்கள் குழுமப்பட்டு இலக்கு மொழிக்குப் பொருந்தும்படி அது சொற்களால் பதிலீடு செய்யப்படும். பின்னுருபை நிர்ணயிக்க சில விதிகள் உருவாக்கப்பட்டன. சொற்கள் நிரல் வருகை பெரும்பாலும் தக்கவைக்கப்பட்டு சில சமயங்களில் புதிய இணைப்பான்களின் பயன்பாட்டால் நிறைவு செய்யப்படும். சில சமயங்களில் இம்முறை வெளியீட்டில் தொடரியல் தவறுகளுக்கு வழிவகுக்கும். இது பற்றி இதை உருவாக்கியவர்கள் கவலைப்பட வில்லை. இருப்பினும் குறைந்த அளவு பொருள் பெரும்பாலும் வெளிப்படுத்தப்படும். மேலும் அனுசாரகாவின் பாகங்கள் அல்லது உறுப்புத் தொகுதிகள் எந்த இயந்திர மொழிபெயர்ப்பிற்கும் அல்லது இயந்திர உதவியுடன் செய்யப்படும் மொழிபெயர்ப்பு ஒழுங்குமுறைகளுக்கும் பகுதியாக அமையும்.
இவ்வாறு அனுசாரகாவின் வெளியீடு இடைப்பட்ட ஒரு நிலைக்கு முக்கிய வெளியீடாகும். இது சீரற்ற மொழிபெயர்ப்பிற்கு கொண்டு செல்லாததால் மொழிகளின் இணையின் இயந்திர மொழிபெயர்ப்பிற்குப் பயனுள்ள உபாயம் ஆகும். இதை உருவாக்கியவர்கள் இதை ஒரு மொழி அணுகி (Language Access) என்று அழைக்கின்றனர். இதிலிருந்து முழு நன்மை அடைய பயன்படுத்துபவர்களிடம் சில பயிற்சியை எதிர்பார்க்கின்றனர். தொடக்கத்தில் கன்னடம், இந்தி மொழிகளுக்கு ஒரு அனுசாரகா ஒழுங்குமுறை அமைக்கப்பட்டு காட்டப்பட்டது. இதன் பின்னர் தெலுங்கு -இந்தி, பஞ்சாபி-இந்தி, மராட்டி-இந்தி, சமஸ்கிருதம்-இந்தி, தமிழ்-இந்தி ஆகிய மொழி இணைகளுக்கு அனுசாரகா ஒழுங்குமுறைகள் உருவாக்கப்பட்டு பார்வையாளர்களுக்கு எடுத்துக்காட்டப்பட்டது.
மூலமொழி
மைய அனுசாரகா
பயன்படுத்துவோர் இடைமுகம்
அறிவுள்ள பயன்படுத்துவோர் இடைமுகம்
மனித உதவியுடன் மொழிபெயர்ப்பு T1 T2
தானியங்கித் திருத்தி
Ti Tii Tiii
இலக்கு மொழி இலக்கு மொழி T T
மனிதப்படிப்பவர் மனித உதவியுடன் இயந்திர மொழிபெயர்ப்பு மொழிபெயர்ப்பு
அனுசாரகாவின் வெளியீட்டில்
பல மட்டங்கள்
1.7.3 ஆங்கிலத்திலிருந்து இந்திய மொழிகளுக்கு இயந்திர உதவியுடன் மொழிபெயர்ப்பு ( ஆங்கில பாரதி திட்டம்)
ஆங்கில பாரதி (ANGILA BHARTHI) திட்டத்தை நிறுவுவதில் நான்கு முக்கியமான கருத்துகள் இருந்தன. முதலாவது அன்றைய கால கட்டத்தின் நிலையில் சீரான இயந்திர மொழிபெயர்ப்பு சாத்தியமில்லை. எனவே இயந்திர உதவியுடன் மொழிபெயர்ப்பு முயற்சிக்கப்பட வேண்டும்; இங்கு இயந்திரம் பெரும்பாலான செயல்களைச் செய்கிறது. கடினமான வேலைகள் முந்தைய மற்றும் பிந்தைய திருத்தங்களால் (Pre and Post Editing) கையாளப்படுகிறது. இதன்படி ஒவ்வொரு மூல மொழி வாக்கியத்தையும் தனியாகப் பரிசோதிப்பது மற்றும் முற்சுட்டு (Anaphora) மற்றும் வாக்கியங்களுக்கு இடையிலான குறிப்புகள் (Inter Sentential References) போன்ற சிக்கல்களை மனிதத் திருத்துனர்க்கு விட்டுவிடுவது என்பன எளிமைக்கு வழி வகுக்கிறது. இரண்டாவது இயந்திர மொழிபெயர்ப்பு பயன்படுத்துவோர் மற்றும் பயன்பாட்டு அடிப்படையில் இருக்க வேண்டும் என்ற உணர்வு, ஆங்கிலத்திலிருந்து இந்திய மொழிகளுக்கு உள்ள மொழிபெயர்ப்பை மேற்கொள்வது இந்திய மொழிகளுக்கு இடையிலான இயந்திர மொழிபெயர்ப்பை மேற்கொள்வதைக் காட்டிலும் சிறந்தது என்ற தீர்மானத்திற்கு வழிவகுத்தது. மூன்றாவது ஒரு குறிப்பிட்ட பொருண்மைக் களத்தை அடிப்படையாகக் கொண்ட ஒழுங்குமுறைகள் (Domain specific Systems) திறந்த ஒழுங்குமுறைகளைக் (Open ended Systems) காட்டிலும் உருவாக்குவதற்கு எளியது மற்றும் பெரும்பாலான இயந்திர மொழிபெயர்ப்பு பயன்படுத்துவோர்க்கு சிக்கனமானதாகவும் இருக்கிறது. இறுதியாக வேறுபட்ட மொழிகள் ஒற்றுமையுள்ள மொழிகளைக் காட்டிலும் ஆய்வு அடிப்படையில் கூடுதல் அறைகூவல்களை எதிர்கொள்ளும்.
சில முக்கியத் திட்டக் கருதல்கள் 90 விழுக்காடு வேலையை இயந்திரத்தாலும் 10 விழுக்காடு வேலையை மனித முன் திருத்தத்தாலும் (Post Editing) மேற்கொள்ளும்படி மொழிபெயர்ப்பிற்கு ஒரு பயன்பாட்டுக் கருவியைத் தருவது என்ற நோக்கம் அடிப்படையில் அமைந்தது. இவ்வமைப்பொழுங்கு படிப்படியாகச் சிக்கலான சூழல்களைக் கையாளும்படிக்கு வளர இயலும். பொருத்தமான உரை உருவாக்கும் பகுதிகளின் (Text Generator Modules) இணைப்பால் ஆங்கிலத்திலிருந்து பெரும்பாலான இந்திய மொழிகளுக்கு மொழிபெயர்ப்பு ஒரு சீரான இயங்கு முறையைக் கொண்டிருந்தது. மேலும் அதன் பயன்பாட்டிற்கும் விரிவாக்கத்திற்கும் வசதி செய்ய மனிதனால் இயக்கப்பட்ட மனித-இயந்திர இடைமுகம் (Interface) கொண்டிருந்தது.
இது ஒரு குழும இந்திய மொழிகளுக்குப் பயன்படுமாறு போலி இலக்கு மொழியை (Pseudo Target Language) உருவாக்கும் சூழல் வரையறையற்ற இலக்கணம் போன்ற அமைப்புடன் கூடிய அமைப்பொழுங்கை இலக்காகக் கொண்ட விதி அடிப்படையிலான ஒழுங்குமுறையாகும். தரவுத்தொகுதி (பெருந்தரவு) ஆய்வின் மூலம் கிடைக்கப்பெற்ற ஒரு குழும விதிகள் போலி மூல மொழிக்கு நகர்வு விதிகளைப் பயன்படுத்தும் சாத்தியமான உறுப்புகளைக் கண்டுகொள்வதற்குப் பயன்படுத்தப்படுகிறது. போலி இலக்கு மொழியைப் பயன்படுத்தும் கருத்து, இடைமொழி அணுகுமுறையைப் பயன்படுத்துவதற்குச் சமமான நன்மையைப் பெற அமைப்புசார் ஒற்றுமையை முதன்மையாகப் பயன்படுத்துவதாகும். போலி இலக்கு மொழி, இடைமொழி அணுகுமுறையில் பயன்படுத்தப்படும் இடைப்பட்ட மொழி அல்ல; இங்கு பொருண்மை உருப்படுத்தத்தை உருவாக்க எந்த முயற்சியும் மேற்கொள்ளப்பட வில்லை.
இந்திய மொழிகள் சுதந்திர சொல் குழும நிரலைக் கொண்டு வினையில் முடியும் பண்புடையதாகும். அமைப்பு ஒற்றுமையின் அடிப்படையில் இந்திய மொழிகளை நான்கு குழுமங்களாக வகைப்படுத்தலாம்.
1. இந்திய ஆரிய மொழிக் குடும்பம் (Indo-Aryan Family - இந்தி, வங்காளம், அஸ்ஸாமி, பஞ்சாபி, மராட்டி, ஒரியா, குஜராத்தி போன்றன).
2. திராவிட மொழிக் குடும்பம் (Dravidian Family - தமிழ், தெலுங்கு, கன்னடம், மலையாளம் போன்றன) .
3. ஆஸ்ட்ரோ ஆசிய மொழிக் குடும்பம் (Astro-Asian Family - திபெத்திய பர்மிய மொழிக் குடும்பம்).
ஒவ்வொரு குழுமங்களுக்குள்ளும் மொழிகள் உயர்ந்த அளவு அமைப்புப் பொருத்தத்தைக் காட்டுகின்றன. ஆங்கில பாரதி திட்டம் இந்த ஒற்றுமையைக் கூடுதல் அளவு இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறையை உருவாக்கப் பயன்படுத்துகிறது.
இலக்கு மொழியில் அர்த்த மயக்கங்களைத் தீர்ப்பதற்கு வேண்டி பல பொருண்மை அடையாளங்கள் பயன்படுத்தப்படுகின்றன. தீர்க்கப்படாத பொருண்மை மயக்கங்களின் மாற்றுப்பொருள்கள் போலி இலக்கு மொழியில் தக்கவைக்கப்படுகிறது. ஒவ்வொரு இலக்கு மொழிக்கும் உரை உருவாக்கப் பகுதி போலி இலக்கு மொழியை இலக்கு மொழிக்கு மாற்றுகிறது. இந்த மாற்றங்கள் தவறான வடிவ வாக்கியங்களுக்கு வழிவகுக்கும். ஒவ்வொரு இலக்கு மொழிக்கும் திருத்துவான் பயன்படுத்தப்படுகிறது. இறுதியாக மனித இயக்கத்தால் தூண்டப்பட்ட பின் திருத்தும் தொகுதி (Post Editing Package) இறுதித் திருத்தங்களைச் செய்வதற்குப் பயன்படுத்தப்படுகிறது. பின் திருத்தி இலக்கு மொழியை மட்டும் அறிந்தால் போதுமானது.
ஆங்கில பாரதி திட்டம் சின்ஹா (Sinha,1993) என்பவரால் 1991-இல் உருவாக்கப்பட்டது. இத்திட்டத்தில் ஆங்கிலத்திலிருந்து இந்தி மற்றும் தெலுங்கு மொழிகளுக்குச் செயல்படக்கூடிய மூலமுன்மாதிரி மொழிபெயர்ப்பு (Functional Prototype) ஒழுங்குமுறை உருவாக்கப்பட்டது. பின்வரும் திட்ட வரைபடம் இந்த மொழிபெயர்ப்பு ஒழுங்குமுறையை விளக்கும்.
பின்வரும் திட்ட வரைபடம் இம்மொழிபெயர்ப்பு ஒழுங்குமுறையை விளக்கும்.
தரவுத்தொகுதி
அமைப்பொழுங்கு பெறுதலுக்கும் மாற்றத்திற்கும் விதி அடிப்படை
விதீ ஈட்டு ஒழுங்கு முறை
ஆங்கில வாக்கியம்
உருபு ஆய்வு
அமைப்பொழுங்கால் இயக்கப்படும் பகுத்துக்குறித்தல்
அர்த்தப் பொருள் மயக்கநீக்கி
பன்மொழி சொல் தரவு மூலம்
மின் இணைப்பு அகரதி
இந்திய ஆரிய மொழிக் குடும்பத்திற்குப் போலி இலக்கு மொழி
இந்தி உரை உருவாக்கி
தவறாக உருவாக்கப்பட்ட வாக்கியங்களுக்கான திருத்தி
பின் சீராக்கி
இந்தி உரை
தமிழ் உரை
தமிழ் உரை உருவாக்கி
திராவிட மொழிக் குடும்பத்திற்கு போலி இலக்கு மொழி
பின் சீராக்கி
திருத்தி
தெலுங்கு உரை
பின் சீராக்கி
திருத்தி
தெலுங்கு உரை உருவாக்கி
திபத்தோ பர்மிய மொழிக் குடும்பத்திற்குப் போலி இலக்கு மொழி
. . .
. . .
. , .
பின் சீரமைப்புக் கருவிகள்
ஆஸ்ட்ரோ ஆசிய மொழிக் குடும்பத்திற்கு போலி இலக்கு மொழி . .
. . . .
பின்வருவன ஆங்கில பாரதி மொழிபெயர்ப்புத் திட்டத்தின் முக்கியக் கூறுகளாகும்.
1. விதி அடிப்படை (Rule Based)
இது ஆங்கிலத்திலிருந்து இந்திய மொழிகளுக்கு வாக்கியங்களின் அமைப்புகளைப் பொருத்துவதற்கான விதிகளைக் கொண்டிருக்கின்றது. இந்த ஆங்கிலத்திலிருந்து இந்திய மொழிகளுக்கு அமைப்பொழுங்கு மாற்றங்களின் தரவு மையம் மொழிபெயர்க்க வேண்டிய வாக்கியத்திற்கு அகக்கிளை அமைப்பைப் பெறும் வேலையைப் புறக்கணித்துப் புறக்கிளைகளிலிருந்து புறக்கிளை மாற்றத்தைச் செய்யும் வேலைக்குப் பணிக்கப்படுகிறது. வாக்கியங்களின் பொருண்மையைக் கண்டுபிடிக்க புற அமைப்பொழுங்கைப் பயன்படுத்தும் கருத்து, மொழியியலில் மிகப் பழமையானதாகும். இவ்வணுகுமுறை எளிதானது என்றாலும் இத்திட்டம் ஒரு மொழியின் புற அமைப்பு ஒழுங்குகளின் தனிப்பட்ட தன்மைகளைக் கண்டுபிடிக்கச் செயலூக்கமுடையதாகும். ஆங்கில பாரதியில் பயன்படுத்தப்படும் அணுகுமுறை சாம்ஸ்கியின் தொடரமைப்பு இலக்கணத்திலிருந்தும் சொல்சார் செயல்பாடு சார் இலக்கணத்தின் (Lexical Functional Grammar) சி-அமைப்பிலிருந்தும் (C-structure) அதிகமாக எடுத்தாண்டுள்ளது. விதி அடிப்படை (Rule based) என்று கூறப்படும் ஆங்கிலத்திலிருந்து இந்திய மொழிகளுக்கான அமைப்பு மாற்ற விதிகளின் தரவு மூலம் ஆங்கில பாரதி ஒழுங்குமுறையில் மையப்பகுதியாக அமைகிறது. இது ஆங்கிலத்திலிருந்து மொழிபெயர்க்கும் போது தொடரியலில் ஏற்படும் முக்கிய மாற்றங்களைக் கவனித்துக் கொள்கிறது. முன்னர் கூறிய படி இந்திய மொழிகளுக்குப் பொது விதி அடிப்படையை உருவாக்கி ஆங்கில பாரதி ஆங்கிலத்திலிருந்து மொழிபெயர்க்கும் போது சிறந்த நன்மையை வெளிப்படுத்துகிறது.
2. பொருண்மை மயக்க நீக்கி (Sense Disambiguator)
இத்தொகுதி மூலமொழியின் ஒவ்வொரு சொல்லுக்கும் சரியான அர்த்தத்தைத் தேர்ந்தெடுக்கப் பொறுப்புள்ளதாகும். இங்கு அர்த்த (பொருண்மை) மயக்க நீக்கம் மூல மொழியின் உரையில் மட்டுமே நிகழ்த்தப்பெறுகிறது. ஆங்கில பாரதியில் பயன்படுத்தப்படும் இவ்ணுகுமுறையை விதியால் விதிப் பொருள்கோள் (Rule-by-rule-Semantic Interpretation) எனக் கூறலாம். ஒரு தொடரியல் விதி பயன்படுத்தப்படும் ஒவ்வொரு நேரத்திலும் பொருள்கோள் (Semantic Interpreter) பயன்படுத்தப்படுகிறது.
3. இலக்கு உரை உருவாக்கிகள் (Target Text Generators)
இவை மொழிபெயர்ப்பு ஒழுங்குமுறையின் இறுதியாக அமைகின்றது. இதன் செயல்பாடு பொறுத்தமுறும் மூல மொழிகளிலிருந்து மொழிபெயர்க்கப்பட்ட வெளியீட்டை உருவாக்குவதாகும். இவை ஆங்கில பாரதியின் முந்தைய நிலைகளில் உருவாக்கப்பட்ட இடைப்பட்ட வடிவத்தை உள்ளீடாக ஏற்றுக்கொள்கிறது. இச்செயல்பாடு இயற்கை மொழி உருவாக்கம் (Natural Language Generation) என்று அழைக்கப்படும் செயல்பாட்டிலிருந்து வேறுபட்டதாகும்; இவ்வர்த்தத்தில் பிந்தையது எனக் கூறவேண்டும் (Strategic Level = திட்டநிலை) என்பதுடன் எவ்வாறு கூறவேண்டும் (Tactic Level = நடவடிக்கை நிலை) என்பதையும் தீர்மானிக்கவேண்டும். ஒரே விதி அடிப்படை மற்றும் அர்த்த மயக்க நீக்கி இவற்றைப் பயன்படுத்தும் வேறுபட்ட உரை உருவாக்கிகளைக் கொண்டு பல இலக்கு மொழிகளுக்கும் பொது இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறை அமைப்பு கிடைக்கப்பெறுகின்றது.
4. பன்மொழி அகராதி (Multi-Lingual Dictionary)
இது தொடரியல் வகைப்பாடுகள், சாத்தியமான அர்த்தங்கள், அர்த்தங்களின் மயக்கத்தை நீக்கும் முக்கியக் கூறுகள் (Features) இவற்றை உள்ளடக்கிய ஆங்கிலச் சொற்களுக்கும் இணையான மூல மொழிச் சொற்களுக்குப் பல விளக்கங்களைக் கொண்டிருக்கும்.
5. விதி அடிப்படை ஈட்டி (Rule-base Acquirer)
இது மொழிபெயர்ப்பு ஒழுங்குமுறைக்கு விதி அடிப்படையை உருவாக்குகிறது.
1.7.4. தமிழ் உருஷ்யன் மொழிபெயர்ப்புத் திட்டம்
1985-இல் தமிழ்ப் பல்கலைக்கழகத்தில் TUMTS (Tamil University Machine System) என்ற திட்டப்பணி உருவாக்கப்பட்டது. இதன் மூலம் ருஷ்ய மொழியில் உள்ள செய்திகளைத் தமிழில் மொழிபெயர்க்க ஒரு மென்பொருள் உருவாக்கப்பட்டது. இத்திட்டம் தமிழ்ப் பல்கலைக்கழகக் கணினி அறிவியல் துறை, மொழியியல் துறை மற்றும் மொழிபெயர்ப்புத் துறை ஆகியவைகளின் கூட்டு முயற்சியில் விளைந்ததாகும்.
1. கண்ணோட்டம்
இரு மொழிகளுக்கிடையே உள்ள சொல்வளம் (Vocabulary), இலக்கணம் (Grammar), கருத்தாடல் (Discourse) இவற்றின் ஒற்றுமை வேற்றுமைகளை ஆராய்வது வகைப்பாட்டியல் ஆகும். இரு மொழிகளுக்கிடையே உள்ள உறவுகள், தொடரியல் மற்றும் வாக்கியங்களுக்கு இடையே உள்ள உறவுகள் என்பன கண்டறிந்து முறைப்படுத்தப்பட்டன. இம்முறை மொழிபெயர்ப்பிற்குப் பின்வரும் இரு குறிக்கோள்கள் அடிப்படையாகக் கொள்ளப்பட்டன.
எழுத்து அல்லது இலக்கிய உரைகளை மட்டும் மொழிபெயர்ப்பிற்கு எடுத்துக்கொள்வது; பேச்சு மொழி வழக்கினை ஒதுக்குவது.
இலக்கியப் பண்புகளைத் தவிர்த்து அறிவியல் மற்றும் தொழில்நுட்ப உரைகளை மட்டும் எடுத்துக்கொள்வது.
2. முன்னேற்பாடுகள்
ருஷ்ய–தமிழ் மொழிபெயர்ப்பு முன்னேற்பாடுகளின் அடிப்படையில் மேற்கொள்ளப்பட்டது. இம்மொழிபெயர்ப்புக்கு ருஷ்ய மொழி மூல மொழியாகவும் (Source Language) தமிழ் மொழி இலக்கு மொழியாகவும் (Target Language) எடுத்துக்கொள்ளப்பட்டன. மூல மொழியில் அதாவது உருசியன் மொழியில் உள்ள உரைகள் ஒலிப்பெயர்ப்பு (Transliteration) செய்யப்பட்டு கணிப்பொறியில் உள்ளீடு செய்யப்பட்டன. ருஷ்ய-தமிழ் இருமொழி அகராதி உருவாக்கப்பட்டது.
ருஷ்ய மொழியில் அமைந்துள்ள சொற்கள் சொற்றொடர்கள் மற்றும் வாக்கிய அமைப்புகளில் சில முன்திருத்தம் (Pre Editing) செய்யப்பட்டன. மூல மொழியில் உள்ள சொல் மற்றும் வாக்கிய அமைப்பிற்கு நிகரான தமிழ்ச்சொல் மற்றும் வாக்கியம் ஆகியவற்றை நிர்ணயம் செய்ய விதிமுறைகள் உருவாக்கப்பட்டன. இத்தகைய விதிமுறைகளும் மாற்றம் (Transfer) என்ற பெயரில் பதிவு செய்யப்பட்டன. கணிப்பொறி வழி மொழிபெயர்ப்பு செய்த பின்னர் தேவைப்படின் தமிழ்மொழிக்கேற்ப வாக்கிய அமைப்புகள் திருத்தி அமைக்கப்பட்டன.
3. படிநிலைகள்
உருசியன்-தமிழ் மொழிபெயர்ப்பிற்கான படிநிலைகள் கீழே தரப்பட்டுள்ளன. மூல மொழியான உருசியன் L1 என்றும் இலக்கு மொழியான தமிழ் L2 என்றும் குறிப்பிடப்படுகின்றன.
முதற்கட்டமாக மூல மொழியில் உள்ள செய்தி ஒலிப்பெயர்ப்பு செய்யப்பட்டுக் கணிப்பொறியில் உள்ளீடு செய்யப்படுகின்றன. இரண்டாம் கட்ட நிலையில் மூல மொழியில் உள்ள செய்தி பகுப்பாய்வு செய்யப்படுகிறது. இந்நிலையில் சொற்களின் இலக்கணக்கூறுகள் கண்டறியப்படுகின்றன. இதற்கு உருசியன்-தமிழ் அகராதி உதவுகிறது. இப்பகுப்பாய்வு மூலம் உருசிய மொழியில் உள்ள செய்திகள் பெயர்த்தொடர், வினைத்தொடர், வினையடை, பெயரடை எனப் பாகுபடுத்தப்படுகின்றன.
மூன்றாம் கட்ட நிலையில் பகுப்பாய்வு செய்யப்பட்டுள்ள மூலமொழியில் உள்ள சொற்களின் வடிவம், வாக்கிய அமைப்பு போன்றவைகளுக்கு இலக்கு மொழியில் நிகராக உள்ள சொற்களின் வடிவம், வாக்கியம் ஆகியன மாற்றம் (Transfer) என்ற அமைப்பின் மூலம் கண்டறியப்பட்டு மொழி மாற்றம் செய்யப்படுகின்றன. இந்நிலையில் இவ்விரு மொழிகளுக்கும் இடையே உள்ள வேறுபாட்டு அறிவு (Contrast Knowledge) பயன்படுத்தப்படுகின்றது. கருத்தாடலைப் பொறுத்தவரையில் இவ்விரு மொழிகளுக்கிடையே ஒன்றுக்கொன்று (one-to-one) உறவு உள்ளது. இவ்வுறவினைக் கீழ்க்கண்ட எடுத்துக்காட்டு விளக்குகிறது. பெயர் உரிச்சொல்லைப் பொறுத்தவரையில் இவ்விரு மொழிகளுக்கிடையே பலவற்றிற்கு-ஒன்று என்ற (Many-to-one) உறவு உள்ளது.
உருசியன் தமிழ்
ADJ
SN
± ADJ
CASES
CENDERS
மேலும் இவ்விரு மொழிகளுக்கு இடையே உள்ள வேற்றுமை உறுப்புகளில் 'ஒன்றிற்கு பல' (One-to-many) உறவு உள்ளது.
உருசியன் தமிழ்
kiRaan
ON kiRaan
kiRaan
இது போன்று இவ்விரு மொழிகளுக்கிடையே உள்ள வேறுபாடுகள் விதிமுறைகளாகவும் மாற்றம் (Transfer) என்ற அமைப்பின் கீழ் பகுக்கப்பட்டுள்ளன. பகுப்பாய்வு செய்யப்பட்ட மூல மொழிச் செய்தி மாற்றம் (Transfer) என்ற அமைப்பில் உள்ளீடாகச் செல்கிறது. இந்நிலையில் இலக்கு மொழி அமைப்பிற்குச் செய்தி மொழிமாற்றம் செய்யப்படுகிறது.
நான்காவது கட்ட நிலையில் மொழிமாற்றம் செய்யப்பட்டுள்ள இலக்கு மொழி கட்டமைப்புகள் இலக்கு மொழியின் தன்மைகேற்ப உருவாக்கித் தருவது தான் உருவாக்கம் (Generation) என்ற பகுதியின் பணியாகும். இந்நிலையில் மொழிமாற்றம் செய்யப்பட்ட செய்திகள் உள்ளன. இச்செய்தியை இலக்கு மொழியின் வடிவத்தில் தரும் பணியை வெளியீடு (Output) என்ற அமைப்பு தருகிறது. மொழிபெயர்ப்பு செய்யப்பட்ட செய்தியைக் காட்சித்திரையில் காணலாம் மற்றும் அச்சிட்டுக்கொள்ளலாம். உருசியன் -தமிழ் மொழிபெயர்ப்பைப் பொறுத்த வரையில் வெளியீட்டைத் தமிழ் எழுத்துகளில் காண்பதற்கும் அச்சிட்டுக் கொள்வதற்கும் வசதிகள் உள்ளன. அது போல் ஒலிப்பெயர்ப்பு முறையிலும் விடையைப் பெறலாம்.
1.7.5. உலக வலைப்பின்னல் மொழி - தமிழுக்கான இடைமொழி இயந்திர மொழிபெயர்ப்பு (INL- Interlingual Machine Translation Approach for Tamil)
இவ்வணுகுமுறை சென்னையில் உள்ள அண்ணா பல்கலைக்கழகத்தில் கணிப்பொறி அறிவியல் துறையில் மேற்கொள்ளப்பட்டது (Dhanabalan & Geetha, 2004). இவ்ணுகுமுறையில் இடையீட்டு மொழியின் உருப்படுத்தம் பயன்படுத்தப்படுகிறது. மூல மொழி அகராதியையும் இலக்கணத் தகவல்களையும் பயன்படுத்தி இடைமொழி உருப்படுத்தம் மூல மொழியிலிருந்து இலக்கு மொழி உரையை உருவாக்குவதற்கு அகராதியையும் இலக்கணத்தையும் இணைத்துச் செய்யப்படும். இங்கு மூல மொழியிலிருந்து இலக்கு மொழிக்கு மொழிபெயர்க்கச் செய்ய பயன்படுத்தப்படும் இடைமொழி அமைப்பு உலகளாவிய வலைப்பின்னல் மொழி (Universal Networking Language) ஆகும். இம்மொழிபெயர்ப்பு இடைமொழி அமைப்பாகத் திட்டமிடப்பட்டு மூலமொழியிலிருந்து இலக்கு மொழிக்கும் இலக்கு மொழியிலிருந்து மூல மொழிக்கும் தானியக்க இயந்திர மொழிபெயர்ப்பைச் சாத்தியமாக்குகின்றது. UNL-க்கு மாற்ற En converter-உம், UNL-இலிருந்து இலக்கு மொழிக்கு மாற்ற Deconverter-உம் பயன்படுத்தப்படுகின்றது.
இவ்வணுகுமுறையின் திட்ட வடிவம் கீழேத் தரப்பட்டுள்ளது.
மூல மொழி உரைகள்
மூலமொழியிலிருந்து பாட அகராதி
UNL EN மாற்றி
மூல மொழியிலிருந்து UNL EN இலக்கணம்
UNL அறிவு அடிப்படை
UNL ஆவணம்
UNL இலக்கு மொழி அகராதி
UNL-இலிருந்து இலக்கு மொழி இலக்கணம்
UNL DE மாற்றி
இலக்கு மொழி ஆவணம்
மூல இலக்கு மொழி இணை நிகழ்வுகள் அகராதி
மேற்கண்ட படத்தில் காட்டியவாறு UNL அமைப்பு வேலை செய்து UNL மொழியிலிருந்து தமிழுக்கு மொழிபெயர்ப்புச் செய்யும்.
1.7.6. ஆங்கிலத்திலிருந்து மொழியியல் புத்தகங்களைத் தமிழில் மொழிபெயர்க்கும் திட்டம்
ஆங்கிலத்திலிருந்து மொழியியல் புத்தகங்களைத் தமிழில் மொழிபெயர்க்க ஒரு இயந்திர மொழிபெயர்ப்புக் கருவி உருவாக்க காமாட்சி மற்றும் ராசேந்திரன் (Kamatchi, Rajendran, 2004) ஒரு திட்டத்தை உருவாக்கிச் செயல்படுத்த முயன்றனர். தமிழில் முதுகலை மொழியியல் பாடத்திட்டத்திற்கு வேண்டி மொழியியல் புத்தகங்களைத் தமிழில் மொழிபெயர்க்க வேண்டிய கட்டாயம் ஏற்பட்டதால் இத்தகைய ஆய்வு மேற்கொள்ளப்பட்டது. இவ்வாய்வு மொழியியல் புத்தகங்களை ஆங்கிலத்திலிருந்து தமிழுக்கு மொழிபெயர்க்க உதவும் ஒரு கருவி தயாரிப்பதை நோக்கமாகக் கொண்டது. இக்கருவி பின்வரும் ஐந்து பகுதிகளைக் கொண்டது.
1. தமிழ் மொழி அமைப்புப் பகுதி
2. ஆங்கில மொழி அமைப்புப் பகுதி
3. ஆங்கில – தமிழ் மொழிபெயர்ப்பு அகராதி
4. ஆங்கில -தமிழ் மாற்றமைப்பு விதிகள்
5. ஆங்கில மொழியமைப்பு உருவாக்கி
பின்வரும் வரைபடம் இந்த மொழிபெயர்ப்பு கருவியின் செயல்பாட்டை விளக்கும்.
பகுப்பாய்வு
மூலமொழி பகுப்பாய்வு கிளையமைப்பு
இலக்கு மொழி பகுப்பாய்வு கிளையமைப்பு
மூல மொழி அமைப்பு
இலக்கு மொழி அமைப்பு
இந்தத் திட்டத்தின் படி இரண்டு விதமான மாற்றல்கள் செய்யப்படுகின்றன: 1. சொல்நிலை மாற்றம், 2. அமைப்பு நிலை மாற்றம். சொல்நிலை மாற்றத்தில் சொற்கள் ஒரு மூல மொழியிலிருந்து இலக்கு மொழிக்கு மாற்றம் செய்யப்படும். அமைப்பு நிலை மாற்றத்தில் மூல மொழி அமைப்பு இலக்கு மொழி அமைப்பாக மாற்றம் செய்யப்படும். இத்தகைய மொழிமாற்றக் கருவி ஆரம்ப கட்டத்திலேயே உள்ளது. அடுத்த படிக்குச் செல்லவில்லை.
1.7.7. AUKBC-நிறுவனத்தின் தமிழை உள்ளடக்கிய இயந்திர உதவி மொழிபெயர்ப்பு
AUKBC-நிறுவனத்தில் ஆங்கிலத்திலிருந்து தமிழுக்கு மொழிபெயர்க்கும் முயற்சிகள் மேற்கொள்ளப்பட்டு செயல்பாட்டில் உள்ளது. அவர்களுடைய முயற்சிகள் குறித்து (Machine Aided Translation Involving Tamil) என்ற கட்டுரையில் குமார சண்முகம் (Kumara Shanmugam, 2004) சுருக்கமாகக் கூறுகிறார்.
இயந்திர உதவி மொழிபெயர்ப்பு ஒரு மொழியில் உள்ள ஆவணத்தை மற்றொரு மொழிக்கு கொண்டு சென்று மொழி கடந்த தகவல்களைப் பெறுவதற்கு உதவும் பாலம் போன்று செயல்படுகிறது. மனித மொழிபெயர்ப்புடன் ஒப்பிடுகையில் இந்த ஒழுங்குமுறை சிக்கனமானது, உடனடியானது மற்றும் பெருக்கம் செய்ய இயல்வது. இரு மொழிகளுக்கிடையில் அம்மாதிரியான ஒழுங்குமுறையை உருவாக்குவது முக்கியமானது. ஒரு மொழியிலிருந்து உரையின் ஏதாவது ஒரு பகுதியை மற்ற மொழிக்கு மாற்றும் முழுவதும் தானியக்கமான உயர்ந்த மொழிபெயர்ப்பு முழுவதும் தானியக்கம் செய்ய மிகவும் கடினமானதாகும். இம்மாதிரியான ஒரு ஒழுங்குமுறையை உருவாக்குவதில் ஏற்படும் சிக்கலின் நிலை மொழிபெயர்க்கப்படும் இரு மொழிகளின் ஒற்றுமை மற்றும் வேற்றுமைகளைப் பொறுத்து அமையும். இவ்வொற்றுமை வேற்றுமைகள் மொழி மாற்றம் சொல்நிலையில் செய்யப்பட வேண்டுமா என்பதைத் தீர்மானிக்கும்.
பின்வரும் படம் இச்சாத்தியங்களை வெளிப்படுத்தும்.
பொருண்மையியல் அமைப்பு பொருண்மையியல் அமைப்பு இடைமொழி
தொடரியல் அமைப்பு தொடரியல் அமைப்பு
மாற்றம் நேரடி
சொல் அமைப்பு சொல் அமைப்பு
மூல மொழி இலக்கு மொழி
தமிழிலிருந்து பிற மொழிகளுக்கும் பிற மொழிகளிலிருந்து தமிழ்மொழிக்கும் இயந்திர உதவி மொழிபெயர்ப்பு ஒழுங்குமுறைகள் தமிழ்மொழியின் மீது பல நிலைகளிலான ஆய்வுகளை உள்ளடக்கும். ஒவ்வொரு நிலைக்கும் அதற்கான சிக்கல்கள் காணப்படும்.
1. உருபனியல் ஆய்வு (Morphological Analysis)
இது சொற்களின் வேர்ச்சொற்களைக் (Root word) கண்டுபிடிப்பதையும் அதன் இலக்கணப் பண்புக்கூறுகளைக் கண்டுபிடிப்பதையும் உள்ளடக்கும். தமிழ் ஒரு திரிபு (Inflection) வளமுள்ள மொழியாகையால் அதன் பகுப்பாய்வு ஆங்கிலத்தின் உருபனியல் பகுப்பாய்வை விடச் சிக்கல் வாய்ந்ததாக அமையும். சொற்களை உருபன்களாகப் பிரிப்பதிலும் அவற்றிற்குப் பொருத்தமான பொருண்மை மற்றும் இலக்கணத் தகவல்கள் தருவதிலும் கவனம் தேவை. பின்வரும் எடுத்துக்காட்டு இதைத் தெளிவுபடுத்தும்.
தமிழ்ச்சொல் : பணத்திற்காகத்தானே
உருபனியல் பிரிப்பு : பணம்+க்கு+ஆக+தான்+ஏ
வேர் சொல் (பணம்)
நான்காம் வேற்றுமை உருபு (க்கு)
கொடை வேற்றுமை உருபு (ஆக)
தான், ஏ- குறைச்சொல் (Clitics)
இந்தச் சொல் ஆங்கிலத்தில் மொழிபெயர்க்கப்படும் போது இது ஒரேச் சொல்லாக மொழிபெயர்க்கப்படாமல் for the sake of money only என மொழிபெயர்க்கப்பட வேண்டும்.
2. சொல் வகைப்பாட்டு அடையாளப்படுத்துதல் (Parts of Speech Tagging)
சொல் வகைப்பாட்டு அடையாளப்படுத்தி வாக்கியத்திற்கும் சொற்களுக்கும் சொல் வகைப்பாடு தர வேண்டும். இது வாக்கியத்தின் அமைப்பைப் புரிந்து கொள்ளவும் வாக்கியத்தின் அமைப்பை உருவாக்கவும் முக்கியமானதாகும். பின் வரும் எடுத்துக்காட்டு சொல்வகைப்பாடு அடையாளப்படுத்தும் செயல்பாட்டை விளக்கும்.
தமிழ் வாக்கியம் : அவன் படி ஏறினான்.
He staircase climbed
மேற்கண்ட வாக்கியம் பின்வருமாறு அடையாளப்படுத்தப்படும்.
அவன்
படி
ஏறினான் <ஏறு+PAST+3SM>
இதில்,
PRO ==> Pronoun ' மாற்றுப்பெயர்'
N ==> Noun 'பெயர்'
NOM ==> Nominative 'எழுவாய்ச் சொல்'
V ==> Verb 'வினை'
Past ==> Past tense 'இறந்த காலம்'
3SM ==> Third Person Singular Masculine 'படர்க்கை ஒருமை ஆண்பால்'
இந்த வேர்ச்சொல்லான படி என்பது ‘staircase' என்ற பொருளையோ 'read' என்ற பொருளையோ தரலாம். சொல்வகைப்பாட்டு அடையாளப்படுத்தி சொல் மற்றும் தகவலைப் பயன்படுத்தி இந்தப் பொருள் மயக்கத்தைத் தீர்க்கும். இவ்வாறு படி என்பதற்குப் பெயர் சொல் வகைப்பாட்டு அடையாளம் தரப்படும்.
3. தொடரியல் ஆய்வு (Syntax Analysis)
தொடரியல் ஆய்வின் போது பகுத்தாயப்படுகையில் வாக்கிய அமைப்பு தெரிந்து கொள்ளப்படும். பகுத்தாய்வதால் எச்சத்தொடர் எல்லைகள், முன்னுருபு இணைப்பு அடைகள் என்பன தெரிந்து கொள்ளப்பட்டு அவற்றின் பொருத்தமான உறுப்புகளுடன் தொடர்புபடுத்தப்படும். தமிழ் ஒரு சொல் சுதந்திரமான மொழியாகும். இது தொடரியல் பகுத்தாய்வைச் சிக்கலாக்கும். பெயருடன் இணைந்து வரும் வேற்றுமை உருபுகள் வாக்கியத்தில் இவ்வுறுப்புகளின் பங்களிப்பை மெய்ப்படுத்தம் செய்கின்றன. ஆனால் வேற்றுமை உருபு இல்லாதிருப்பது அமைப்புசார் பொருள் மயக்கத்திற்கு வழிவகுக்கும். எடுத்துக்காட்டாக,
தமிழ் வாக்கியம் : அவன் தங்கை வீட்டிற்குச் சென்றான்.
she/her sister house-dative go+past+3sf
என்பதற்கு இரண்டு பகுத்துக் குறிப்பான்கள் கிடைக்கும்.
(அவள்) NP (தங்கை வீட்டிற்கு) NP (சென்றாள்) V
(அவள் தங்கை) NP (வீட்டிற்கு) NP ( (சென்றாள்) V
இம்மாதிரியான சூழலில் வேற்றுமை உருபுகளின் பங்களிப்பு முக்கியமானது. அவைகளைப் பற்றி கீழே விளக்கப்பட்டுள்ளது.
பொருண்மையியல் ஆய்வு (Semantic Analysis)
பல அர்த்தங்கள் உள்ள சொற்களுக்கு ஒரு குறிப்பிட்ட சூழலுக்குத் தகுந்தவாறு சரியான அர்த்தம் கண்டுபிடிக்கப்பட வேண்டும். இங்கு மொழி நிகரன் மயக்கம் நீக்கப்பட்ட அர்த்தம் அடிப்படையில் தேர்ந்தெடுக்கப்பட வேண்டும்.
தமிழ் வாக்கியம்1 : அவன் படி ஏறினான்
Climb+past+3sm
தமிழ் வாக்கியம் 2 : அவன் படியால் அளந்தான்.
He vessel measure past+3sm
மேற்கூறிய வாக்கியங்களில் படி என்பதற்கு இரண்டு அர்த்தங்கள் இருக்கின்றன.
1. Staircase
2. Measuring Vessel
முதல் வாக்கியத்தில் ஏறினான் என்ற சொல்லுடன் இணைந்து வருகையைப் பயன்படுத்தி படி என்பதன் அர்த்தம் 'Staircase' என்பது தான் என்றும் இரண்டாம் வாக்கியத்தில் அளந்தான் என்ற சொல்லுடன் சேர்ந்து வருகையால் படி என்பதன் அர்த்தம் 'Measuring Vessel' என்பது தான் என்று நிர்ணயிக்கப்படுகிறது.
தொடரியல் சார் மாற்றம் (Syntactic Transfer)
மொழிபெயர்ப்பு செயல்பாட்டில் மாற்றல் அணுகுமுறை (Transfer approach) பயன்படுத்தப்படும் போது தொடரியல் மாற்றப்பகுதி தேவைப்படும். உள்ளீடு செய்யப்படும் வாக்கியத்தின் அமைப்பு இலக்கு மொழியின் பொருத்தமான அமைப்பிற்குத் தகுந்தவாறு மாற்றப்படுகின்றது.
தமிழ் வாக்கியம் : ராமன் புத்தகம் படித்தான்
Raman book read
அமைப்பு: Noun Noun Verb
கீழ்வருவது மேற்கண்ட வாக்கியத்திற்கு நிகரான ஆங்கில வாக்கியம்.
ஆங்கில வாக்கியம் : Raman read a book
அமைப்பு : Noun verb Noun
இந்த மொழிபெயர்ப்பில் Noun Noun Verb என்ற தமிழ் வாக்கியம் Noun Verb Noun என்று ஆங்கிலத்திற்கு நிகராக மாற்றப்படுகிறது. இந்த எடுத்துக்காட்டு மிக எளிமையானதாகும். ஆனால் இந்தச் செயல்பாடு கலவை வாக்கியங்களுக்கு இடையில் கடினமானதாகும்.
அகராதி பொருத்தம் (Dictionary Mapping)
இருமொழி அகராதியைப் பயன்படுத்தி மூல மொழி வேர்ச் சொற்கள் இலக்கு மொழியில் அதற்கு நிகரான சொற்களுடன் பொருத்தம் செய்யப்பெறும். ஒரு மூல மொழி வேர்ச்சொல்லுக்கு இலக்கு மொழியில் பல சொற்கள் கொண்ட தொடர்கள் நிகரன்களாக வரலாம். பொருத்தமான சொல் சூழல் அடிப்படையில் தேர்ந்தெடுக்கப்பட வேண்டும். வேர்ச்சொல்லின் இலக்கணப் பண்புக்கூறுகளின் இலக்கணம் அகராதியில் அடங்கி இருக்கும்.
உருபனியல் உருவாக்கம் (Morphological Generation)
இங்கு சொல்லின் திரிபு வடிவம் வேர் மற்றும் அதன் இலக்கண பண்புக்கூறுகளால் உருவாக்கப்படும்.
தமிழ் வேர்ச்சொல் : 'படி'
இலக்கண பண்புக்கூறுகள் : 'Past tense' +'3rd person', 'Singular', 'Masculine'
சொல் வடிவு : 'படித்தான்'
1.8 தமிழ் மொழி ஆய்வுக்குத் தேவையான மூலவளமும் கருவிகளும்
தமிழ் இயற்கைமொழி ஆய்விற்குத் தேவையான கருவிகளும் மூலவளங்களும் உருவாக்கப் படவேண்டும். இக்கருவிகளும் மூல வளங்களும் உருவாக்கப்பட்டால் தான் இயந்திர மொழிபெயர்ப்பு போன்ற ஆய்வுகளை நாம் செம்மையாகச் செய்யவியலும். அத்தகைய கருவிகள் பற்றியும் மூலவளங்கள் பற்றியும் இங்கு விளக்ககப் படுகின்றது.
1.8.1 கருவிகள்
1. உருபனியல் ஆய்வி (Morphological Analyzer)
95 விழுக்காட்டிற்கு மேல் முழுமையுடன் தொழில் நுட்பத்தின் தற்போதைய நிலையைப் பயன்படுத்தி ஒரு திறமையான உருபனியல் ஆய்வி தேவை. தற்போதைய உருபனியல் ஆய்விக்குச் சொல்லடுக்கு அணுகுமுறையையும் (Paradigam approach), முற்றுநிலைத் தானியங்கியையும் (Finite State Automata) பயன்படுத்தப்படுகின்றன.
2. அடையாளப்படுத்தி (Tagger)
வாக்கியங்களை அடையாளப்படுத்த முழு தானியக்க, பகுதி தானியக்க, விதி அடிப்படையிலான அல்லது புள்ளியியல் அடிப்படையிலான அடையாளப்படுத்தித் தேவை. இவ்வகையான அடையாளப்படுத்தல் இயந்திர மொழிபெயர்ப்பிற்கு மட்டுமல்லாமல் தகவல் பிரித்தெடுப்பு, தகவல் மீட்பு , உரைச்சுருக்கம் மற்றும் பிற பல்வேறுபட்ட பயன்பாடுகளிலும் பயன்படுகிறது.
3. பகுத்துக்குறிப்பான் (Parser)
ஒரு பகுத்துக்குறிப்பான் சார்பு இலக்கணம் (Dependency Grammar), தொடரமைப்பு இலக்கணம் (Phrase Structure Grammar), கிளை இணைப்பு இலக்கணம் (Tree Adjoining Grammar) போன்ற ஏதாவது இலக்கண வடிவமைப்புகள் அடிப்படையில் வாக்கியங்களுக்குப் பகுப்புக்கிளைகளைத் தரும். ஒரு பகுத்துக்குறிப்பான் தமிழ்மொழிப் பகுப்பாய்விற்கு மிகத் தேவை. இது விதிகள் மற்றும் பகுத்துக்குறிக்கும் இயந்திரத்தை உருவாக்குதலையும் உள்ளடக்கும். சில இயற்கை மொழி ஆய்வுப் பயன்பாடுகள் பகுத்துக்குறித்தலை வேண்டாது; அவைகளுக்குப் பகுதி பகுத்துக்குறித்தல் போதுமானது. பெயர்த்தொடர் கண்டுபிடிப்பு, எச்சத்தொடர் கண்டுபிடிப்பு என்பன இப்பயன்பாடுகளுக்கு உதவும்.
4. பொருண்மையியல் ஆய்வி (Semantic Analyzer)
சொல் (அர்த்தம்) மயக்கம் நீக்கும் கருவியை உருவாக்கும் செயல்பாடு அதன் தொடக்க நிலையில் தான் இருக்கிறது. இச்செயல்பாடு கூடுதலான கவனக்குவிப்பையும் கடினமான முயற்சிகளையும் வேண்டும். மேலும் இது சொற்கள் இணைந்து வரும் தகவலைச் சேகரிக்க வேண்டி பெரிய அடையாளப்படுத்தப்பட்ட தரவுத்தொகுதியை வேண்டும்.
2.8.2 மூலவளங்கள் (Resources)
1. அகராதி (Dictionary)
பல அகராதிகள் தமிழில் இருந்தாலும் அவையெல்லாம் மின் வடிவில் இல்லை. இவ்வகராதிகள் இயந்திரம் படிக்கவியலும் வடிவத்தில் இருந்தால் தான் அவற்றைக் கணினி செயல்பாட்டில் பயன்படுத்த முடியும்.
2. மொழி கடந்த அகராதி
இது சாதாரண மொழி கடந்த அகராதியைக் குறிப்பிடவில்லை. இயந்திர மொழிபெயர்ப்புக்கு நமக்குத் தேவையான அகராதி மொழி கடந்த வேர் அகராதிகளாகும். தனிப்பட்ட மனிதர்களும் நிறுவனங்களும் அவர்களுடைய பயன்பாட்டிற்காக இரு மொழி அகராதிகளை உருவாக்குகின்றனர்; இவை இவ்வாய்வுக் களத்தில் ஈடுபடும் ஆய்வாளர்களுக்கிடையில் பங்கிடப்பட வேண்டும்.
3. தரவுத்தொகுதி
ஒரு மொழியின் தரவுத்தொகுதி அம்மொழியின் நடை, சொல் பயன்பாடு போன்றவற்றின் உருப்படுத்தம் ஆகும். இது மேலும் உருபனியல் பகுப்பாய்விகள், பகுத்துக்குறிப்பான்கள் மற்றும் உருவாக்கிகள் என்பனவற்றை மதிப்பீடு செய்யும் பரிசோதனைக் கருவியாகச் செயல்படும். இந்திய மொழிகளின் மைய நிறுவனம் சுமார் 15 மொழிகளுக்கு மூன்று மில்லியன் சொற்களைக் கொண்ட தரவுத்தொகுதிகளை உருவாக்கியுள்ளது. மேலும் சில தரவுத்தொகுதிகளை அடையாளப்படுத்தி உள்ளது. இருக்கின்ற வசதிகளை வைத்துக்கொண்டு பல்வேறுபட்ட மொழிகளுக்குத் தரவுத்தொகுதிகளைச் சேகரிக்க வேண்டி பொதுவான திட்டம் ஊக்கப்படுத்தப்பட வேண்டும். புத்தகங்கள், நாளிதழ்கள், கால இதழ்கள் போன்றவற்றைத் தவிர இணையதளங்களைப் பயன்படுத்தி தரவுத்தொகுதி சேகரிக்கப்பட வேண்டும்.
4. சொல்வகைப்பாடு அடையாளப்படுத்தப்பட்ட தரவுத்தொகுதி (POS Tagged Corpus)
சொல் வகைப்பாடு அடையாளப்படுத்தப்பட்ட தரவுத்தொகுதிகளில் உள்ள எல்லா வாக்கியங்களும் சொல் வகைப்பாட்டிற்கு வேண்டி அடையாளப்படுத்தப்பட்டிருக்க வேண்டும். இந்த அடையாளப்படுத்தப்பட்ட தரவுத்தொகுதி புள்ளியியல் அடிப்படையிலான சொல் வகைப்பாட்டு அடையாளப்படுத்தி உருவாக்குவதற்குத் துணைபுரியும். இம்மூலவளத்தின் மீது பல்வேறு வகையான ஆய்வுகளினால் ஒரு மொழிக்குக் கணினிசார் இலக்கணம் உருவாக்க இயலும்.
5. இணைத் தரவுத்தொகுதிகள் (Parallel Corpus)
இணைத் தரவுத்தொகுதி இரு மொழிகளுக்கு மாற்றமைவு விதிகளை (Transfer Rules) உருவாக்க முக்கியமான மூலவளமாகும். இது புள்ளியியல் அல்லது எடுத்துக்காட்டு அடிப்படையிலான இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறைகள் உருவாக்கத் துணைபுரியும். இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறைகளை உருவாக்குவதற்கு இணைதரவுகளின் பத்திகள், வாக்கியங்கள், சொற்கள் இவற்றை வரிசையாக்கம் செய்ய வரிசையாக்கக் கருவிகள் தேவை. சில வெளியீட்டாளர்களிடமும் அரசு நிறுவனங்களிலும் இம்மாதிரியான இணைத் தரவுத்தொகுதிகள் விளைவாக்கம் உள்ள ஒழுங்குமுறைகளை உருவாக்க வேண்டி ஆராய்ச்சியாளர்களிடம் பயன்படுத்தத் தரப்பட வேண்டும்.
5. மாற்றமைவு இலக்கணம் (Transfer Grammar)
மாற்றமைவு இலக்கணம் இரு மொழிகளின் தொடரியல் அமைப்புக்கு இடையில் முரண் வேறுபாடுகளை அறிந்து கொள்கிறது. மாற்றமைவு அணுகுமுறைகளை உருவாக்க இம்மாதிரியான மாற்றமைவுப் பகுதியை உருவாக்குவது கட்டாயமாகும். மொழிகளைப் பற்றிய ஆழ்ந்த அறிவுள்ள மொழியியலார் இம்மாதிரியான மூலவளத்தை உருவாக்கலாம்.
6. இணைவமைதி அகராதிகள் (Collocation Dictionary)
இணைவமைதி அகராதி மொழியின் மயக்கமான சொற்களின் முறையான சேர்க்கைகளைக் கொண்டிருக்கும். அம்மாதிரியான அகராதி பொருண்மை மயக்க நீக்கத்திற்கு முக்கியமான பகுதியாகும். தமிழுக்கு அம்மாதிரியான மூலவளத்தைச் சில ஆய்வாளர் குழுமங்கள் செய்து வருகின்றது.
1.9. முடிவுரை
இதுவரை இவ்வாய்வேட்டின் பின்னணியாக வரும் இயந்திர மொழிபெயர்ப்பு பற்றி விரிவாகக் கூறப்பட்டது. இயந்திர மொழிபெயர்ப்பின் பல பரிமாணங்கள் இங்கு விளக்கப்பட்டுள்ளன. இந்தியாவிலும் தமிழ்நாட்டிலும் மேற்கொள்ளப்பட்ட இயந்திர மொழிபெயர்ப்பு முயற்சிகள் பற்றி கூறப்பட்டுள்ளது. இயந்திர மொழிபெயர்ப்புக்குச் செய்யப்பட வேண்டிய முறையான ஆய்வுச் செயல்பாடுகள் குறித்து விளக்கங்கள் தரப்பட்டுள்ளன.
S VEERAALAGIRI
S/O V. Selvakumar
48, Adhanoor (P.O),
Vedaraniam (T.K),
Nagappattinam (D.T).
Cell no : 08973431246
48, Adhanoor (P.O),
Vedaraniam (T.K),
Nagappattinam (D.T).
Cell no : 08973431246
1.0 அறிமுகம்
மனித மொழிபெயர்ப்பைக் காட்டிலும் இயந்திர மொழிபெயர்ப்பு விரைவானதாகும். மனித மொழிபெயர்ப்பில் கால விரயமும் களைப்பும் ஏற்படும். சரியாக நடைமுறைப்படுத்தப்பட்டால் இயந்திர மொழிபெயர்ப்பு மனித மொழிபெயர்ப்பிற்கு இணையாகச் சிறப்பாக அமையும். இயந்திர மொழிபெயர்ப்பின் போது பல துணைக்கருவிகள் உருவாக்கப்படுகின்றன. இவை மொழியாய்விற்கும் பலவித மொழிப் பயன்பாடுகளுக்கும் உதவி புரியும். கணிப்பொறி வழி மொழிபெயர்ப்பதன் தேவையையும் அதன் வகைகளையும் அவற்றிற்கான முயற்சிகளையும் எல்லைகளையும் ஆய்வது தான் இப்பகுதியின் நோக்கம் ஆகும்.
1.1 கணிப்பொறி வழி மொழிபெயர்ப்பின் தேவை
1. உலகளவில் தகவல்கள் அன்றாடம் மலையெனக் குவிகின்றன; அவைகளை உடனுக்குடன் மொழிபெயர்த்தல் அவசியமாகின்றது.
2. கணிப்பொறி வழி மொழிபெயர்ப்பு மனித உழைப்பைக் குறைக்கின்றது.
3. குறைந்த நேரத்தில் நிறைய மொழிபெயர்ப்பு பணிகளைச் செய்ய இயலுகிறது. இதனால் கால விரயம் தவிர்க்கப்படுகின்றது.
4. தற்போதைய மொழிபெயர்ப்புப் பணிகளுக்கு ஏற்ற வகையில் மொழிபெயர்ப்பாளர்கள் இல்லை.
5. மனித முயற்சியில் மொழிபெயர்க்கின்ற பொழுது மொழிபெயர்ப்பாளர்கள் மூல மொழியிலும் இலக்கு மொழியிலும் புலமை வாய்ந்தவராக இருத்தல் வேண்டும். ஆனால் கணிப்பொறி வழி இப்பணிகளைச் செய்கின்ற போது இந்தக் கட்டாயம் இல்லை.
6. தேவையான மொழியியல் புலமை உள்ளவர்களிடம் கருத்துகளைப் பெற்று அதை வழியமைப்பு மொழியில் எழுதி மொழிபெயர்ப்பு செய்யலாம்.
1.2 கணிப்பொறி வழி மொழிபெயர்ப்பின் வகைகள்
இயந்திர மொழிபெயர்ப்பில் மனித உதவி எவ்வளவு பயன்படுத்தப்படுகின்றது என்பதன் அடிப்படையில் கணிப்பொறிவழி மொழிபெயர்ப்பை விரிவாக மூன்றாகப் பகுக்கலாம்.
1. கணிப்பொறி உதவியுடன் மனித மொழிபெயர்ப்பு (Computer Assisted Human Translation (CAHT))
2. மனித உதவியுடன் கணிப்பொறி மொழிபெயர்ப்பு (Human Assisted Machine Translation (HAMT))
3. முற்றிலும் தானியக்க மொழிபெயர்ப்பு (Automatic Machine Translation)
இது தவிர இயந்திர மொழிபெயர்ப்பில் பயன்படுத்தப்படும் வழிமுறைகளின் அடிப்படையிலும் இயந்திர மொழிபெயர்ப்பைப் பலவிதமாகப் பகுக்கலாம்.
1.2.1 கணிப்பொறி உதவியுடன் மனித மொழிபெயர்ப்பு
இதில் கணிப்பொறி உதவியுடன் நடைபெறும் மனித மொழிபெயர்ப்பில் மனித மொழிபெயர்ப்பாளர்களுக்கு முக்கியத்துவம் தரப்படுகிறது. அவர்கள் மொழிபெயர்ப்புப் பணியில் ஈடுபடும் பொழுது ஒரு மொழியில் உள்ள சொற்களுக்கு நிகரான பிறமொழிச் சொற்களைத் தெரிந்து கொள்ளவும் அச்சொற்களின் பொருள், பயன்பாடு ஆகியவற்றை எளிமையாகத் தெரிந்து கொள்ளவும் கணிப்பொறி பயன்படுத்தப்படுகிறது. மேலும் ஒரு மொழியின் வாக்கிய அமைப்பு, தொடரமைப்பு போன்றவைகளுக்கு நிகரான பிறமொழி அமைப்புகளை விரைவாகத் தயார் நிலையில் தெரிந்து கொள்வதற்கும் கணிப்பொறி உதவுகிறது. இவ்வகை மொழிபெயர்ப்பில் மொழிபெயர்ப்பாளர்கள் முதல் நிலையில் செயலாற்றுவர்; அவர்களுக்கு உதவும் நிலையில் கணிப்பொறி செயலாற்றும்.
1.2.2 மனித உதவியுடன் கணிப்பொறி மொழிபெயர்ப்பு
மனித உதவியுடன் நடைபெறும் இயந்திர மொழிபெயர்ப்பில் கணிப்பொறி முதன்மை நிலையை வகிக்கிறது. கணிப்பொறி மொழிபெயர்ப்புப் பணிகளைச் செய்கின்ற பொழுது முன்னர் பதிவு செய்யப்பட்டுள்ள தகவலுக்கு மேலாக ஏதாவது செய்திகள் தேவைப்படின் அந்நிலையில் மனித உதவியை நாடுகிறது. மேற்கண்ட மூவகை மொழிபெயர்ப்பு வகைகளில் மனித உதவியுடன் செயல்படும் இயந்திர மொழிபெயர்ப்பே நடைமுறையில் உள்ளது.
1.2.3 முற்றிலும் தானியக்க மொழிபெயர்ப்பு
முற்றிலும் இயந்திர மொழிபெயர்ப்பு என்பது தற்போதைய நிலையில் சாத்தியமானதல்ல. இதற்கு எண்ணற்ற மொழியியல் கோட்பாடுகளும் மொழிபெயர்ப்பு முறைகளும் வடிவமைக்கப்பட வேண்டியுள்ளது. இருப்பினும் கணிப்பொறி வழி மொழிபெயர்ப்பை முற்றிலும் தானியங்கப்படுத்தும் முயற்சி இலக்காகக் கொள்ளப்பட்டுள்ளது.
இயந்திர மொழிபெயர்ப்பில் பயன்படுத்தப்படும் வழிமுறை அடிப்படையில் மொழிபெயர்ப்புகள் பின்வருமாறு அமையும்.
1.2.4 இரு தொடர்புடைய மொழிகளுக்கிடையே அமைந்த கணிப்பொறி மொழிபெயர்ப்பு (Inter Lingual Method Of Machine Translation)
இலக்கண அமைப்பு மற்றும் பொருள் அடிப்படையில் மிகவும் தொடர்பும் நெருக்கமும் உடைய இரு மொழிகளுக்கிடையே செய்யப்படும் கணிப்பொறி மொழிபெயர்ப்பு இவ்வகையைச் சார்ந்ததாகும்.
1.2.5 இடைநிலை மொழி அடிப்படையில் அமைந்த கணிப்பொறி மொழிபெயர்ப்பு (Intermediate Language Based Machine Translation)
இலக்கணம் மற்றும் மொழியமைப்பில் முற்றிலும் வேறுபட்ட இருமொழிகளுக்கிடையே கணிப்பொறி மொழிபெயர்ப்பை உருவாக்க இம்முறை உதவுகிறது. இம்முறையில் மூல மொழியில் உள்ள சொற்றொடர்கள் இடைநிலை மொழி வழி இலக்கு மொழிக்கு மாற்றம் செய்யப்படுகிறது.
1.3 கணிப்பொறி வழி மொழிபெயர்ப்பின் சில முயற்சிகள்
கணிப்பொறி வழி மொழிபெயர்ப்பினைத் தானியக்க மொழிபெயர்ப்பு (Automatic Translation) என்றும் இயந்திர மொழிபெயர்ப்பு (Machine Translation) என்றும் கணிப்பொறி உதவியுடன் நடைபெறும் மொழிபெயர்ப்பு என்றும் கூறலாம். கணிப்பொறியின் வேகம், நினைவகத் திறன், பதிவு செய்துள்ள செய்திகளைத் தேவையான பொழுது தேவையான வடிவமைப்பில் மிக விரைவாக மீளப்பெறக்கூடிய வசதி (Retrieval System) போன்றன கணிப்பொறி வழி மொழிபெயர்ப்பினைத் தூண்டிட உதவின.
கணிப்பொறி வழி மொழிபெயர்ப்புப் பணி 1950-ஆம் ஆண்டு வாரன்வீவர் (Warren Weiver) என்ற அறிஞரால் தொடங்கப்பட்டது. இதைத் தொடர்ந்து பூபார் ஹில்லஸ் என்ற அறிஞர் கணிப்பொறி வழி மொழிபெயர்ப்புப் பணியைத் தொடங்கினார். 1954-ஆம் ஆண்டு ஜார்ஜ் டவுன் பல்கலைக்கழகம் கணிப்பொறி வழி மொழிபெயர்ப்புப் பணியைத் தொடங்கியது. இதைத் தொடர்ந்து 1956-ஆம் ஆண்டு மாஸ்கோவில் பிரெஞ்சு மொழியிலிருந்து ரஷ்ய மொழிக்குக் கணிப்பொறி வழி மொழிபெயர்ப்புப் பணி நடைபெற்றது. இப்பணியை மேல்ஜங்க் (Mel Chunk) என்ற அறிஞர் மேற்கொண்டார்.
1973-ஆம் ஆண்டு அமெரிக்காவில் உள்ள Logos Incoration Limited என்ற நிறுவனம் ஒரு மென்பொருளை வடிவமைத்தது. இம்மென்பொருளைக் கொண்டு ஆங்கிலத்தில் அமைந்துள்ள செய்திகளை வியட்நாம் மொழியில் மொழிபெயர்ப்புச் செய்தது. ஏறக்குறைய இதே காலகட்டத்தில் Tertils என்ற நிறுவனம் TITUSஎன்ற மென்பொருளை வடிவமைத்தது. இம்மென்பொருளைக் கொண்டு ஸ்பானிஷ், பிரெஞ்சு மற்றும் ஜெர்மனி ஆகிய மொழியில் உள்ள செய்திகள் ஒன்றிலிருந்து மற்றவைகளுக்கு மொழிமாற்றம் செய்யப்பட்டது. இதைத் தொடர்ந்து Chinese University Translator (CUTD) என்ற மென்பொருள் உருவாக்கப்பட்டது. இதைக் கொண்டு சீன மொழியில் உள்ள செய்தித்தாள்கள் ஆங்கில மொழிக்கு மொழிமாற்றம் செய்யப்பட்டன.
1974-ஆம் ஆண்டு SYSTREN என்ற மென்பொருள் உருவாக்கப்பட்டது. SYSTREN என்பதன் விரிவு System Translation என்பதாகும். இம்மொழிபெயர்ப்பு மென்பொருள் ரஷ்ய மொழியிலிருந்து பிரெஞ்சு மொழிக்கு மாற்றம் செய்ய பயன்பட்டது. வணிக ரீதியில் முதன்முதலில் வெளியிடப்பட்ட கணிப்பொறி வழி மொழிபெயர்ப்புக்கான மென்பொருள் இதுவேயாகும்.
1975-ஆம் ஆண்டு TAUM என்ற மென்பொருள் உருவாக்கப்பட்டது. இம்மென்பொருள்கள் ரஷ்ய மொழியில் அமைந்துள்ள செய்திகளைப் பிரெஞ்சு மொழிக்கு மொழிமாற்றம் செய்யப் பயன்பட்டது. இதே காலகட்டத்தில் GETA என்ற மென்பொருள் ஆங்கில மொழியிலிருந்து பிரெஞ்சு மொழிக்கு வடிவமைக்க உருவாக்கப்பட்டது. இது போன்று உலகளாவிய நிலையில் ஆங்காங்கே சோதனைக்கட்ட முயற்சியாலும் வணிக நோக்கத்தாலும் கணிப்பொறி வழி மென்பொருள்களை உருவாக்கும் திட்டங்கள் தொடர்ந்து நடைபெற்று வருகின்றன.
1985-இல் தமிழ்ப் பல்கலைக்கழகத்தில் TUMTS (Tamil University Machine Translation System) என்ற திட்டப்பணி உருவாக்கப்பட்டது. ரஷ்ய மொழியில் உள்ள செய்திகளைத் தமிழில் மொழிபெயர்க்க ஒரு மென்பொருள் உருவாக்கப்பட்டது. இத்திட்டம் தமிழ்ப் பல்கலைக்கழகக் கணிப்பொறி அறிவியல் துறை, மொழியியல் துறை மற்றும் மொழிபெயர்ப்புத் துறை ஆகியவைகளின் கூட்டு முயற்சியால் விளைந்ததாகும்.
இதற்குப் பிறகு கான்பூரில் உள்ள இந்திய தொழில்நுட்ப நிறுவனம் (Indian Institute Of Technology- IIT) இந்தியிலிருந்து ஆங்கிலத்திற்கும் ஆங்கிலத்திலிருந்து இந்தியிலும் மொழிபெயர்ப்பு செய்வதற்கான மென்பொருளை உருவாக்கியது.
தற்பொழுது மைய அரசின் தகவல் தொழில்நுட்பத் துறையின் நிதி நல்கையுடன் ஹைதராபாத்திலுள்ள உலகத் தகவல் தொழிநுட்ப நிறுவனத்தின் தலைமையில் நடைபெறும் (International Institute of Inormation Technology (IIIT)) 'இந்திய மொழியிலிருந்து இந்திய மொழிக்கு இயந்திர மொழிபெயர்ப்புத் திட்டம்' என்பதன் கீழ் சென்னையிலுள்ள AUKBC Research Centre என்ற ஆய்வு நிறுவனம் இந்தி-தமிழ் இருதிசை மொழிபெயர்ப்புத் திட்டம் ஒன்றினை மேற்கொண்டு செயல்படுத்தி வருகிறது. தற்போதைய ஆய்வு இதன் அடிப்படையில் தான் அமைகின்றது. இவ்வாய்வேடு இத்திட்டத்தின் ஒரு பாகமாக மேற்கொள்ளப்பட்டது.
1.4 கணிப்பொறி வழி மொழிபெயர்ப்பின் எல்லைகள்
ஒரு மொழியிலிருந்து பிற மொழிக்கு மொழி மாற்றம் செய்வதற்கான மென்பொருள்கள் பல உருவாக்கப்பட்டு வருகின்றன. பெரும்பாலும் இத்தகைய கணிப்பொறி வழி மொழிபெயர்ப்புப் பணிகளில் பின்வரும் இரு எல்லைகள் நிர்ணயிக்கப்படுகின்றன.
1. மொழி என்பது பல வட்டாரங்களில் மக்கள் பேசும் மற்றும் எழுதும் அமைப்புகளின் தொகுப்பாகும். ஒரு வட்டாரத்தில் பயன்படுத்தக்கூடிய சொற்கள் பிற வட்டாரங்களில் பயன்படுத்துவதற்கு உறுதியில்லை. தமிழ் போன்ற மொழிகளில் மொழி நடையானது இலக்கிய மொழி, பேச்சு மொழி என இருவகையாகப் பிரிக்கப்படுகிறது. பேச்சு மொழியைக் கணிப்பொறியாக்கம் செய்வது என்பது சுலபமான பணியன்று. எனவே மொழிபெயர்ப்புப் பணியில் இலக்கிய மொழிகள் மட்டுமே எடுத்துக்கொள்ளப் படுகின்றன.
2. செய்யுள், கவிதை போன்றவைகளில் பொருளுக்குத் தரும் முக்கியத்துவத்தை விட கவிதை நயத்தைப் பலப்படுத்தும் உத்தி, உணர்ச்சி, வேகம் போன்ற கூறுகளுக்கு முக்கியத்துவம் தரப்படுகின்றன. இவைகள் மனித உளவியலைப் பிரதிபலிப்பன. இவ்வுளவியல் கூறுகளைக் கணிப்பொறி வழி வெளிப்படுத்துவது என்பது இயலாத ஒன்றாகும். இதே போன்று இலக்கியங்களிலும் பொருளை விட உளவியல் கூறுகளுக்கு முக்கியத்துவம் தரப்படுகின்றது. எனவே செய்யுள்கள், கவிதைகள், பாடல்கள் மற்றும் இலக்கியச் செய்திகள் ஆகியவைகளைக் கணிப்பொறி வழி மொழிபெயர்ப்பிற்குத் தொடக்க நிலை முயற்சி எடுத்துக்கொள்ளப் படவில்லை. அறிவியல் தொழில்நுட்பம் சார்ந்த படைப்புகளே மொழிபெயர்ப்புக்கு எடுத்துக்கொள்ளப் படுகின்றன.
மேற்கூறிய இரண்டும் கணிப்பொறி வழி மொழிபெயர்ப்பிற்கு எல்லைகளாகக் கருதப்படுகின்றன. மொழிபெயர்ப்பிற்கென எடுத்துக்கொள்ளப்படும் மொழிகளின் தன்மையைப் பொறுத்துக் கணிப்பொறி மொழிபெயர்ப்பினை இருபெரும் பிரிவுகளாகப் பிரிக்கலாம்.
1.5 கணிப்பொறி மொழிபெயர்ப்பின் நிறைகளும் குறைகளும்
மொழிபெயர்ப்புப் பணியைக் கணிப்பொறி வழி மேற்கொள்கின்ற பொழுது கணிப்பொறியின் சிறப்புத்தன்மை, துல்லியம், அதிவேகம், மிகுந்த நினைவகக் கொள்திறன், தகவல் தளம் உருவாக்கும் வசதிகள் போன்றன திறமையாகப் பயன்படுத்தப்படுகின்றன. ஒரு மொழியிலிருந்து பிற மொழிக்கு மொழிபெயர்ப்புச் செய்யப்படும் போது பன்மொழித் திறமை அவசியம் என்ற நிலை இல்லை. அந்தந்த மொழியின் வல்லுநர்களின் மொழித்திறன் கணிப்பொறி வழியமைப்பாக வழியமைக்கப்படுகின்றது. மொழிபெயர்ப்புப் பணிக்குக் கூட ஒருவருக்கு இருமொழியிலும் திறமை இருக்க வேண்டும் என்ற தேவை இல்லை. இருப்பினும் கணிப்பொறி வழி மொழிபெயர்ப்புப் பணிகளில் பல சிக்கல்கள் உள்ளன.
ஒரு மொழியின் வளம், தன்மை ஆகியவற்றைக் கணிப்பொறிக்கு ஏற்றாற்போல் கணிதப்படுத்துவது என்பது எளிமையான பணி அல்ல. எனவே கணிப்பொறி வழி மொழிபெயர்ப்புத் திட்டங்கள் சுமார் 50 ஆண்டுகளுக்கு முன்னர் தொடங்கப்பட்டு இன்னும் முழுமை பெறவில்லை. மேலும் கணிப்பொறி அறிவியலில் தொழில்நுட்ப வளர்ச்சி கணிப்பொறி வழி மொழிபெயர்ப்புப் பணிக்கு மிகவும் பயனுள்ளதாக அமைகின்றது. இத்தகைய பணிகளின் குறைநிறைகளைக் கீழே காண்போம்.
மொழிக்கு இடையே உள்ள சொல்வளம், இலக்கணம், கருத்தாடல் போன்றவைகளின் ஒற்றுமைகளை ஆராய வேண்டும். இவ்வகைகளில் மொழிகளுக்கு இடையே உள்ள ஒற்றுமை அதிகரிக்க அதிகரிக்க மொழிபெயர்ப்புப் பணியின் சிக்கல்கள் குறையும்.
உருபனியல் அமைப்பைப் பொறுத்தவரையில் மொழிகளின் பண்புகள் இருவேறு திசைகளில் மாறுகின்றன:
அ. ஒரு சொல்லில் எத்தனை உருபன்கள் உள்ளன என்பதைப் பொறுத்து
ஆ. ஒரு சொல்லில் ஒரே உருபன் மட்டும் இருந்தாலும் அதற்கு மேலே இருந்தாலும் அவைகளை எவ்வளவு துல்லியமாகப் பிரிக்க இயலும் என்பதைப் பொறுத்து.
ஒரு சொல்லில் ஒரே ஒரு உருபன் மட்டும் இருந்தால் அந்த மொழியைத் தனிநிலை உருபன் கட்டுமொழி (Isolating Language) என்கிறோம். ஒரு மொழியில் உள்ள சொற்களில் ஒன்றுக்கு மேற்பட்ட உருபன்கள் இருந்தால் அதைப் பன்நிலை உருபன் கட்டுமொழி (Polysynthetic Language) என்கிறோம்.
சிபேரியன் மொழி பன்நிலை உருபன் கட்டுமொழிக்குச் சிறந்த உதாரணமாகும். வியட்நாமிய மொழி, கேண்டுனஸ் மொழி ஆகியன தனிநிலை உருபன் கட்டு (Isolating) மொழிகளுக்குச் சிறந்த உதாரணங்கள் ஆகும். இத்தகைய தகவல்கள் கணினி மொழியாய்விற்கு முக்கியமானவையாகும். எனவே இத்தகைய மொழிகளுக்குள் மொழிமாற்றம் செய்ய கணிப்பொறி வழி திட்டங்கள் வகுக்கின்ற பொழுது மொழிகளின் உருபனியல் பற்றிய விரிவான தகவல் தேவையாகும்.
மொழிகளின் தொடரியல் அமைப்பைப் (Syntactic Structure) பொறுத்து குறிப்பாக எழுவாய் (Subject (S)), பயனிலை (Verb (V)) செயப்படுபொருள் (Object (O)) என்பன ஒரு வாக்கியத்தில் வரும் நிரல் அடிப்படையில் மொழிகள் வகைப்படுத்தப்படுகின்றன. முக்கியமாக மூன்று வகைப் பிரிவுகள் குறிப்பிடப்படுகின்றன.
1. SVO அமைப்பு: ஜெர்மன், பிரெஞ்சு, ஆங்கிலம் போன்றவை SVO அமைப்பில் உள்ள மொழிகளாகும்.
2. SOV அமைப்பு: தமிழ், இந்தி, ஜப்பான் ஆகிய மொழிகள் SOVஅமைப்பில் உள்ள மொழிகளாகும்.
3. VSO அமைப்பு: இர்ரீஸ், அரேபி, ஹீப்ரு போன்ற மொழிகள் VSOஅமைப்பில் அமைந்துள்ளன.
SVO அமைப்பில் உள்ள மொழிகளில் முன்னுருபுகள் அல்லது முன்னுருபுகள் (Preposition) முன்னிடைச்சொல் பயன்படுத்தப்படுகிறது. SOV அமைப்புள்ள தமிழ் போன்ற மொழிகளில் பின்னுருபுகள் (Postposition) பயன்படுத்தப்படுகின்றன. இத்தகைய தகவல்களும் கணினி மொழியாய்விற்கு முக்கியமானவையாகும். எனவே கணிப்பொறி வழி மொழிபெயர்ப்புத் திட்டங்களுக்கு மொழிகளுக்கு இடையே உள்ள தொடரியல் அமைப்பு வகைகள், உறவுகள் போன்றவை ஆராயப்பட வேண்டும்.
இராமனின் வீடு என்ற தொடரில் வீடு என்பது தலைச்சொல் (Head word) ஆகும். இராமன் என்பது சார்புச் சொல் (Depended word) ஆகும். தலைச்சொல்லுக்கும் சார்புச் சொல்லுக்கும் இடையிலான உறவை -இன் என்ற ஒட்டு விளக்குகிறது. இது போன்று தலைச்சொல்லுக்கும் சார்புச் சொல்லுக்கும் இடையிலான முறையைப் பொறுத்து தலைக்குறித்தல் மொழி (Head Marking Language), சார்பு குறித்தல் மொழி (Dependent Marking Language ) என மொழியில் ஒட்டு இருவகைப்படும். சார்பு குறித்தல் மொழியில் ஒட்டு சார்புச் சொல்லுடனும், தலைக் குறித்தல் மொழியில் ஒட்டு தலைச்சொல்லுடனும் தரப்படுகின்றன. தமிழ், ஆங்கிலம் போன்ற மொழிகள் சார்புக் குறித்தல் மொழியைச் சார்ந்ததாகும். ஹங்கேரிய மொழி தலைக்குறித்தல் மொழியைச் சார்ந்ததாகும். பின்வரும் எடுத்துக்காட்டு விளக்கும்.
English : Man’s house
Hungarian : The man house his
House : Head word
The man : Dependent word
s : Affix
எனவே கணிப்பொறி வழி மொழிபெயர்ப்புப் பணியை மேற்கொள்கின்ற போது தலைச்சொல்லுக்கும் சார்புச் சொல்லுக்கும் இடையே உறவுமுறைகள் எவ்வாறு குறிக்கப்பெறுகின்றன என்பது பற்றியெல்லாம் ஆராய வேண்டும்.
மூல மொழியில் உள்ள ஒரு சொல்லின் வகைப்பாடும் இலக்கு மொழியிலுள்ள அதற்கு நிகரான சொல்லின் வகைப்பாடும் ஒன்றாக இருக்க வேண்டிய தேவையில்லை. எடுத்துக்காட்டாக, ஒரு மொழியிலுள்ள வினைச்சொல் பிறமொழிக்கு மொழிபெயர்ப்ப்பு செய்யப்படும் போது மொழிபெயர்ப்புச் சொல் வினைச்சொல்லாக இருக்க வேண்டிய தேவை இல்லை. இவைகள் எல்லாம் மொழிபெயர்ப்புப் பணியில் உள்ள சிக்கலாகும்.
ஒவ்வொரு மொழியிலும் கருத்தாடல்களுக்கான சொல் விளக்கமானதாகவோ சுருக்கமானதாகவோ இருக்கலாம். உதாரணமாக, சகோதரன் என்ற உறவைக் குறிக்க ஆங்கிலத்திலும் brother என்ற சொல் உள்ளது. மூத்த சகோதரனை ஆங்கிலத்தில் elder brother என்று சொல்கிறோம். இவ்வாறு வயது மூத்தவர், இளையவர் என்பதைக் குறிக்க elder, younger என்ற அடைச்சொற்கள் பயன்படுத்தப்படுகின்றன. ஆனால் தமிழில் அண்ணன் என்றும் தம்பி என்றும் தனித்தனிச் சொற்கள் உள்ளன. சகோதரன் என்ற உறவை மேலும் வகைப்படுத்த முதியவர், இளையவர் என்ற நிலையில் அண்ணன், தம்பி என்ற இரு சொற்கள் உள்ளன. ஆனால் ஆங்கிலத்தில் இவ்வகையிலான வேறுபாடு என்பது இல்லாததால் உறவை வேறுபடுத்த elder, younger என்ற சொற்களைப் பயன்படுத்த நேரிடுகிறது.
மூலமொழிச் செய்திகளில் உள்ள கலாச்சாரப் பின்னணி மொழிபெயர்ப்பிற்கு ஒரு முக்கியமான காரணியாகும். அதே கலாச்சாரப் பண்பு இலக்கு மொழிக்கும் பொருத்தமானதாக அமைதல் வேண்டும் அல்லது இலக்கு மொழியின் கலாச்சாரப் பண்புகளுக்கு ஏற்ப மாற்றித்தரத்தக்க அளவு இருத்தல் வேண்டும். இரு மொழிகளுக்கு இடையே உள்ள கலாச்சாரத் தொடர்புகள் மொழிபெயர்ப்பு செய்ய இயலுமா இயலாதா என்பதைத் தெளிவுபடுத்தும். மேலும் சபீர், ஹூஃப் கொள்கையின் படி ஒருவர் பேசும் மொழி சிந்திக்கும் திறனைக் கூட்டுவதாகவோ அல்லது குறைப்பதாகவோ உள்ளது. எனவே மொழிபெயர்ப்பில் இத்தகைய உளவியல் ரீதியான சிக்கல்கள் உள்ளன.
தொடரியல் பகுப்பாய்வி (Syntacitc Parser) பல பணிகளுக்காக உருவாக்கப்படுகின்றன. ஆனால் இயந்திர மொழிபெயர்ப்பிற்காகப் பயன்படுத்தப்படும் பகுப்பாய்வி பிற பகுப்பாய்வியை விட சிறிது வேறுபடுகிறது. இங்கு தொடரின் அல்லது வாக்கியத்தின் பொருளை அடிப்படையாகக் கொண்டு பகுப்பாய்வு செய்யப்படுகிறது. எனவே இயந்திர மொழிபெயர்ப்பிற்கு உருவாக்கப்படும் பகுப்பாய்வி தொடரியல் அமைப்பை மட்டும் சாராது. பொருளைச் சார்ந்ததாகவும் அமைகிறது. இத்தகைய பகுப்பாய்விகளை உருவாக்க அடிப்படை அறிவு (Basic knowledge) தேவைப்படுகின்றன.
இயந்திர வழி மொழிபெயர்ப்பு செய்கின்ற பொழுது ஏதேனும் சிக்கல்கள் இருந்தாலோ அல்லது கணிப்பொறிக்குக் கூடுதல் தகவல் தேவைப்பட்டாலோ மனித உதவியை எதிர்நோக்குகின்றது. இத்தகைய சூழல்களில் சிக்கலைப் புரிந்து கொண்டு அதற்கேற்ற தீர்வு உரிய முறையில் வழங்கப்பட வேண்டும். எனவே இயந்திர மொழிபெயர்ப்புத் திட்டத்தை இயந்திர மனித உரையாடலுக்கு ஏற்றாற்போல் வடிவமைக்க வேண்டியது அவசியம் ஆகும். பெரும்பாலும் படைப்பாற்றல் திறனைச் செய்திகளில் வெளிப்படுத்தும் பொழுது கணிப்பொறிக்குக் கூடுதல் செய்திகள் தேவைப்படுகின்றன.
பெரும்பாலான கணிப்பொறி வழி மொழிபெயர்ப்புகளிலும் உள்ளீடு (Input) செய்யும் செய்திகளை முன்திருத்தம் செய்யும் பொழுது மூல மொழியின் தன்மையும் இலக்கு மொழியின் தன்மையும் கருத்தில் கொள்ளப்படுகின்றன. இதை இரு வகைகளில் செய்யலாம்.
மூல மொழியில் உள்ள செய்தியை முதலில் இலக்கு மொழிக்கு மொழி பெயர்ப்பது; பின்னர் மொழிபெயர்ப்பைப் படித்தறிந்து அது சரியான கருத்தை வெளிப்படுத்துகின்றதா என்பதை ஆராய்வது; அப்படி இல்லையெனில் மூல மொழிச் செய்தியை முன்திருத்தம் செய்து மறுபடியும் மொழிபெயர்ப்பு செய்வது; கருத்து வெளிவருகின்ற வரை இத்தகைய ஆய்வை மீண்டும் மீண்டும் செய்வது.
மொழிபெயர்ப்பிற்கு முன்னால் முன்திருத்தப் பணிக்கு முக்கியத்துவம் அளித்து தேவையான திருத்தங்களைச் செம்மையாக மேற்கொள்வது. இம்முறை கணிப்பொறியின் நேரத்தை மிச்சப்படுத்துவது மட்டுமல்லாமல் மொழிபெயர்ப்பின் வேகத்தையும் அதிகப்படுத்துகிறது. மேலும் ஒரு மொழியிலிருந்து பல மொழிக்கு மொழிபெயர்ப்பு செய்ய வேண்டிய சூழல்களில் முன்திருத்தப்பணி திறமையானதாக அமைகிறது.
மொழிபெயர்ப்புப் பணிகளுக்காக உருவாக்கப்படுகின்ற அகராதிகள் சாதாரண முறையில் அல்லது பல கூடுதல் செய்திகளைக் கொண்டதாக இருத்தல் வேண்டும். பிற வகை அகராதிகளை விட துறை சார்ந்த அகராதிகள் மொழிபெயர்ப்புப் பணியை எளிமைப்படுத்துகிறது. மூலமொழியில் உள்ள செய்தியைப் பொறுத்து அது தொடர்புடைய அகராதியைப் பயன்படுத்திக் கொள்ளலாம்.
மொழிபெயர்ப்புக்காக உருவாக்கப்படும் அகராதியில் சொற்கள், தொடர்கள், மரபுத்தொடர்கள் மேலும் அடிக்கடி பயன்படுத்தக்கூடிய வாக்கியங்கள் போன்றவைகள் உரிய விளக்கத்துடன் தரப்பட வேண்டும். கணிப்பொறி வழி மொழிபெயர்ப்புப் பணி என்பது ஒரே மூச்சில் ஒட்டுமொத்தமாகச் செய்யக்கூடிய பணியாகும். முதலில் கணிப்பொறி வழியமைப்பிற்கான மென்பொருள் வடிவமைக்கப்பட வேண்டும். அதன் செயல்திறனை அறிய வேண்டும். பணியின் தன்மையை மதிப்பிட வேண்டும். இதற்கு ஏற்றாற்போல் தேவைப்படின் மென்பொருளைக் கூடுதல் வசதிகளுடன் மேம்படுத்த வேண்டும். இம்முறைகளை மனிதனுக்கு நிறைவழிக்கும் கொள்திறன் கிடைக்கின்ற வரையில் திரும்பத் திரும்பச் செய்ய வேண்டும்.
கணிப்பொறி வழி மொழிபெயர்ப்புக் கடுமையான பணியாகும். இதற்கு மனித மொழிபெயர்ப்பில் மேற்கொள்ளப்படும் திட்ட மாதிரிகளும் (Models) வழிமுறைகளும் அவசியம் ஆகும். கணிப்பொறி மொழிபெயர்ப்பு எண்ணற்ற முயற்சியினால் உருவாக்கப்படுகின்ற ஆக்கப்பூர்வமான பணியாகும். இங்கு அறிவியல் மட்டுமல்லாது மொழிபெயர்ப்பிற்குத் தேவையான கலைத்திறனும் அவசியமாகும்.
தற்பொழுது உலகளவில் உருவாக்கப்பட்டுள்ள மொழிபெயர்ப்புப் பணிகள் மனதிற்கு நிறைவளிக்கக்கூடிய வகையில் உள்ளன. இவைகள் ஓரளவுக்கு மொழிபெயர்ப்பிற்கு உதவுகின்றன. இவைகளைச் செம்மைப்படுத்தி முற்றிலும் சிறந்ததாக அமைப்பதற்கு முயற்சிகள் மேற்கொள்ளப்பட்டு வருகின்றன. எனவே தற்பொழுது கணிப்பொறி வழி மொழிபெயர்ப்புப் பணிகள் வரைவு மொழிபெயர்ப்பிற்குப் போதுமானதாகும்.
மனிதனின் படைப்பாற்றல், கற்பனைத்திறன், உளவியல் பாங்கு போன்றன செய்திகளால் பொதிந்துள்ளதால் கணிப்பொறி வழி மொழிபெயர்ப்புப் பணியில் இத்தகைய கூறுகளைச் சேர்க்க வேண்டியுள்ளது. அதற்கு மனித நுண்ணறிவுடன் கூடிய கணிப்பொறிகள் உருவாக்கப்படுகின்றன.
1.6 இயந்திர மொழிபெயர்ப்பின் வளர்ச்சி
இயந்திர மொழிபெயர்ப்பின் வளர்ச்சியை நான்கு காலகட்டமாகப் பிரித்து பகுத்து ஆயலாம் (Hutchins ,1986) . அவை முதல், இரண்டாவது, மூன்றாவது, நான்காவது, இன்றைய காலகட்டம் என பகுத்தாயலாம்.
1.6.1 முதல் கட்டம் (1946லிருந்து 1982 வரை)
இக்காலகட்டத்தில் செய்யப்பட்ட இயந்திர மொழிபெயர்ப்புகள் மூல மொழிச் சொற்களுக்கு இணையான சொற்களை இருமொழி அகராதி பார்த்துக் கண்டுபிடித்து மூல மொழி போலவே வரிசைப்படுத்தித் தருவதைச் செயல்முறையாகக் கொண்டிருந்தது. இச்செயல்முறை தொடரியல் பகுத்துக்குறித்தலைப் பயன்படுத்த வில்லை.
1.6.2 இரண்டாவது காலகட்டம் (1954-1966)
1954-இல் ஜார்ஜ்டவுன் பல்கலைக்கழகம் 880 ரஷ்ய சொற்களையும் இலக்கணத்தின் ஆறு விதிகளையும் கொண்டு ஒரு இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறையை நடைமுறைப்படுத்திக் காட்டியது. அடிப்படைச் சிக்கல் பொறியியல் தன்மை அடிப்படையிலான சிக்கல் என்று நம்பப்பட்டது. அடுத்த பத்தாண்டுகளில் USA-இல் இத்தகைய ஆய்வுகள் பெருமளவில் ஊக்குவிக்கப்பட்டன. கடினமான மொழியியல் சிக்கல்கள் குறித்த விழிப்புணர்வு அதிகரித்தது. திருப்தியில்லாத முன்னேற்றம் காரணமாக ALTPA இயந்திர மொழிபெயர்ப்பிற்கான பண உதவியைக் குறைக்கப் பரிந்துரைத்தது. இக்காலகட்டத்தில் தொடரியல் ஆய்வு தொடக்க நிலையில் இருந்தது. இலக்கண விதிகள் (Grammatical Rules) மற்றும் தொடரியல் அமைப்பு (Syntactic Structure) ஆகிய கருத்துச்சாயல்கள் இல்லாதிருந்தது. ஆங்கிலம் மற்றும் ருஷ்ய இலக்கணங்கள் வழியமைப்பின் (Program) ஒரு பகுதியாக இருந்தது.
இலக்கு மொழி உரை
மூலமொழியில் உரை பகுப்பாய்வும் உருவாக்கமும்
மூலமொழி –இலக்கு மொழி அகராதிகள் மற்றும் இலக்கணம்
1.6.3 மூன்றாவது காலகட்டம் (1966-1975)
நேரடியான மொழிபெயர்ப்பு அடிப்படையில் இயங்கும் இரு ஒழுங்கமைப்புகள் Systran மற்றும் Logos. இக்காலகட்டத்தில் மொழியியல் கோட்பாட்டின் முன்னேற்றத்தில் மிகுந்த மாற்றம் ஏற்பட்டது. மொழியியல் தரவு கணிப்பொறியின் செயல்பாட்டிலிருந்து பிரிக்கப்பட்டது. இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறைகள் இடைமொழி அணுகுமுறையைப் (Interlingual Approach) பயன்படுத்தியது; இதன் செயல்பாட்டில் இரண்டு நிலைகள் இருந்தன: மூல மொழியிலிருந்து இடைமொழிக்கு மற்றும் இடைமொழியிலிருந்து இலக்கு மொழிக்கு.
இலக்குமொழி உரை
மூலமொழி உரை
இடைமொழி உருப்படுத்தம் பகுப்பாய்வு உருவாக்கம்
மூலமொழி இலக்குமொழி அகராதி
மூலமொழி அகராதியும் இலக்கணமும்
இலக்கு மொழி அகராதியும் இலக்கணமும்
Metal மற்றும் Ceta என்ற இரண்டு ஒழுங்குமுறைகள் இடைமொழி அணுகுமுறையின் (Interlingual Approach) அடிப்படையில் உருவாக்கப்பட்டவை. இவ்வணுகுமுறையில் மூல மொழிக்கும் இலக்கு மொழிக்கும் அவைகளுடைய தனித்தன்மையான அக அமைப்புகளின் உருப்படுத்தம் (Deep Structure Representation) இருக்கும். மொழிபெயர்ப்பு மூன்று மட்டச் செயல்முறையாகும்.
உரைகளை மூல மொழியின் உருப்படுத்தமாகச் செய்தல்
அதை இலக்கு மொழி உருப்படுத்தமாக மாற்றுதல்
இலக்கு மொழியின் உரைகளை உருவாக்குதல்
இலக்குமொழி உரை
இலக்கு மொழி உருப்படுத்தம்
மூலமொழி உருப்படுத்தம்
மூலமொழி உரை பகுப்பாய்வு மாற்றம் உருவாக்கம்
மூலமொழி அகராதியும் இலக்கணமும்
மூலமொழி இலக்குமொழி அகராதி
இலக்கு மொழி அகராதியும் இலக்கணமும்
மாற்ற ஒழுங்குமுறையின் மிக அறியப்பட்ட எடுத்துக்காட்டு மாண்ட்ரிஸ் பல்கலைக்கழகத்தில் செய்யப்பட்ட ஆங்கில பிரெஞ்சு மொழி ஒழுங்குமுறையான TAUM திட்டம் ஆகும்.
1.6.4 நான்காவது காலகட்டம் (1975-1985)
இந்த காலகட்டத்தில் உருவாக்கப்பட்ட ஒழுங்குமுறை குவிதல் அணுகுமுறைகளைப் (Convergence Approach) பயன்படுத்தியது. இவைகள் கட்டுப்படுத்தப்படாத உரை உள்ளீடு கொண்ட முழு தானியங்கு ஒழுங்குமுறைகளின் திட்ட அமைப்பிற்கு எல்லைப்படுத்தப்பட்டன. இந்தக் காலகட்டத்தில் எல்லைக்குட்பட்ட மொழி ஒழுங்குமுறைகளும் ஊடாடும் ஒழுங்குமுறைகளும் உருவாக்கப்பட்டன. தொடரியல் மற்றும் பொருண்மையியலுக்கு எல்லைப்படுத்தப்பட்ட ஒழுங்குமுறையின் எடுத்துக்காட்டு TAUM என்பதன் அனுபவத்தின் அடிப்படையில் மாண்டரியஸ் பல்கலைக்கழகத்தால் உருவாக்கப்பட்ட Meteo என்பதாகும். இது ஆங்கிலத்தில் உள்ள வானிலை அறிக்கைகளைப் பிரெஞ்சு மொழிக்கு மொழிபெயர்க்கும். ஊடாட்டம் செய்யும் இயந்திர மொழி பெயர்ப்பின் கவர்ச்சி மனித மொழிபெயர்ப்பாளர்கள் மற்றும் கணினி இவற்றின் ஒத்துழைப்பைச் சிறப்பாகப் பயன்படுத்துவதில் உள்ளது.
1.6.5 இன்றைய கால கட்டம் (1985-இல் இருந்து)
ஆளுகைக் கட்டுறவுக் கோட்பாடு (Government and Binding (GB) Theory) , சொல் செயல்பாட்டு இலக்கணம் (Lexical Functional Grammar (LFG)), கிளை இணைக்கும் இலக்கணம் (Tree Adjoining Grammar (TAG)), பெரிதாக்கப்பட்ட மாற்ற வலைப்பின்னல் (Augmented Transition Network (ATN)) போன்ற புதிய இலக்கண வடிவங்களின் வருகை இயற்கை மொழி ஆய்வுப் பரப்பில் புதிய பார்வையை உருவாக்கியது. இம்மொழியியல் வடிவமைப்புகள் பகுத்துக்குறிக்கும் வழிமுறைகளில் தொடரியல் மற்றும் பொருண்மையியல் பண்புக்கூறுகளின் பொருத்தத்திற்கு ஆலோசனைக்குரியது. மேலும் கணிப்பொறி அறிவியலில் ஏற்பட்ட தொழில்நுட்ப முன்னேற்றம் இயந்திர மொழிபெயர்ப்பு ஆய்வின் வளர்ச்சிக்குச் சாதமாக அமைந்தது. சொல்-பொருண்மையியல் பகுப்பாய்வை உள்ளடக்கிய இயற்கை மொழியின் புரிதல் (Natural Language Understanding) தேவையான உலக அறிவை அடையாளம் காணுவதை உள்ளடக்கியது. அறிவு உருப்படுத்தம் மற்றும் மொழியியல் அறிவில் உள்ளடக்குவது போன்றவை இயந்திர மொழிபெயர்ப்பு ஆய்வுகளின் பரப்பில் மேலும் கூடுதல் வளர்ச்சிக்கு உதவி புரிந்தது. தற்கால ஒழுங்குமுறைகள் இந்த மூன்று அணுகுமுறைகளின் மேம்பாடுகளைப் பயன்படுத்துகின்றன. முழு ஒழுங்குமுறையும் பல எண்ணிக்கையிலான துணை ஒழுங்குமுறைகளாகப் பிரிக்கப்பட்டுச் சரியாக இடைமுகப்படுத்தப்பட்டுள்ளன. இயந்திர மொழிபெயர்ப்பின் இவ்வேறுபட்ட கட்டங்களை மூன்று நிலைகளாக் கூறலாம்.
1. ஆய்வு நிலை
ஒழுங்குமுறையின் உள்ளீடாக மூல மொழி உரை முதலில் சொல் நிலையில் ஆயப்படுகிறது. உருபனியல் ஆய்வி, உருபனியல் விதிகள், சந்தி விதிகள், அடிச்சொல், இயந்திரம் படிக்கவியலும் அகராதி மற்றும் முன்னொட்டு அகராதி போன்றவற்றைப் பயன்படுத்தி சொற்களை அவற்றின் உருபன்களுக்காகப் பிரிக்கின்றது. வாக்கியப் பகுப்பாய்வி ஒரு இலக்கண மாதிரியைப் பயன்படுத்தி ஒவ்வொரு வாக்கியத்தையும் அவற்றின் உறுப்புக்கான தொடர்கள் மற்றும் எச்சத் தொடர்களுக்காகப் பகுப்பாய்வு செய்கிறது; பயனிலைகளுக்கும் அவற்றின் பங்கெடுப்பாளர்களுக்கும் இடையில் உள்ள தொடரியல் மற்றும் பொருண்மையியல் உறவுகள் குறியாக்கம் செய்யப்படுகின்றன.
2. மாற்ற நிலை
இந்நிலையில் இரண்டு நிலைகள் உள்ளன: 1. சொல்சார் மாற்றம் 2. அமைப்புசார் மாற்றம். சொல்சார் மாற்ற நிலையில் உரை மற்றும் அகராதியின் தொடரியல் மற்றும் பொருண்மையியல் குறியாக்கத்தின் உதவியுடன் ஒவ்வொரு சொல்லின் சொல்சார் பொருண்மையின் மெய்ப்படுத்தம் செய்யப்படும்; இலக்கு மொழியிலிருந்து பொருத்தமான சொல் தேர்ந்தெடுக்கப்படும். இந்த அமைப்பு மாற்ற நிலையில் இலக்கு மொழி, மூல மொழி விதிகளைப் பயன்படுத்தி மூல மொழி அமைப்பு இலக்கு மொழி அமைப்பிற்கு மாற்றப்படும்.
3. உருவாக்க நிலை
இந்த நிலையில் வாக்கிய உருவாக்கும் பகுதி (Sentence Generator Module) இலக்கு மொழி இலக்கணத்தின் உதவியால் பெறப்படும் அமைப்புகளுக்கு இலக்கண அடிப்படையில் சரியான வாக்கியங்களை உருவாக்கும். பின்னர் உருபனியல் விதிகள் அல்லது புணர்ச்சி விதிகள், இயந்திரம் படிக்கவியலும் முன்னொட்டு அகராதி இவற்றைப் பயன்படுத்தி உருபனியல் சார் குறியாக்கம் இலக்கு மொழியின் பொருத்தமான ஒட்டுகளால் இடம் பெயர்க்கப்படும். வெளியீடு இலக்கு மொழியில் ஒரு உரையாக உற்பத்தி செய்யப்படும். இம்மொழிபெயர்ப்பு ஒழுங்குமுறைகளும் வேறுபட்ட நிலைகளும் அவற்றின் துணை ஒழுங்குமுறைகளும் கீழே தரப்பட்டுள்ளன.
சொல்சார் மாற்றம்
அமைப்புசார் மாற்றம்
இலக்கு மொழி இலக்கணம்
இலக்கு மொழி இலக்கணம்
வாக்கியப் பகுப்பாய்வு
வாக்கிய உருவாக்கி
இலக்கு மொழி உருபனியல்
உருபனியல் பகுப்பாய்வி
இலக்கு மொழி உருபனியல்
உருபனியல் உருவாக்கி
`
மூலமொழி உரை
இலக்கு மொழி உரை
1.7 தமிழில் இயந்திர மொழிபெயர்ப்பிற்கான முயற்சிகள்
ஆரம்ப கட்டத்தில் இந்தியாவில் இயந்திர மொழிபெயர்ப்புகள் இதற்கான சாத்தியத்தை வெளிப்படுத்தும் பொம்மை ஒழுங்குமுறைகளாக (toy systems) இருந்தன. 1978 வரை இயந்திர மொழிபெயர்ப்பிற்கான எந்த முயற்சியும் எடுக்கப்பட வில்லை. 1978-இல் ஐஐடி (IIT) கான்பூரில் உள்ள மின்னியல் தொழில்நுட்பத் துறையின் முயற்சியால் மொழியியல் அடிப்படையிலான தகவல் ஒழுங்குமுறைகள் பற்றிய தேசிய கருத்தரங்கு (National Symposium On Linguistic Based Information System) முதன்முதலில் நடைபெற்றது. இந்தக் கருத்தரங்கு ஆராய்ச்சியாளர்களிடையும் அரசாங்கத்திலும் தொழில்நுட்பத் துறைகளிலும் இயந்திர மொழிபெயர்ப்பு குறித்த விழிப்புணர்ச்சியை ஏற்படுத்தியது. இருப்பினும் இயந்திர மொழிபெயர்ப்பு 80-களின் ஆரம்ப கட்டத்தில் இந்திய மொழிகளுக்குச் சொல்லாய்விகளும் பிற கணிப்பொறி வசதிகளும் வரத் தொடங்கிய பின்னர் தான் தொடங்கப்பட்டது. ஐஐடி கான்பூர் GIST என்ற பன்மொழி தொழில்நுட்பத்தின் உருவாக்கத்திற்கு முயன்றது. இது இயந்திர மொழிபெயர்ப்பிற்கு விழிப்புணர்ச்சி ஏற்படுத்துவதுடன் மூலம் இதில் ஆய்வு மற்றும் வளர்ச்சி குறித்த பல திட்டங்களை ஊக்குவித்தது.
இந்தியாவில் பல மையங்களில் பலவிதமான முயற்சிகள் மேற்கொள்ளப்பட்டாலும் மூன்று வேறுபட்ட அணுகுமுறைகளைப் பட்டியலிட இயலும்.
1. இடைமொழி அணுகுமுறை (Interlingual Approach)
2. நேரடி சொல்சார் மாற்றம் (Direct Lexical Transfer Approach)
3. கணிப்பொறி உதவியுடன் மொழிபெயர்ப்பு முயற்சிகள் (Machine Aided Translation Efforts)
இவையாவும் ஐஐடி கான்பூரில் மேற்கொள்ளப்பட்டன.
1.7.1 இடைமொழி அணுகுமுறை
இடைமொழி ஆய்வு அணுகுமுறை சமஸ்கிருதத்தை இடைப்பட்ட அடிப்படை மொழியாகக் கொண்டு இந்திய மொழிகளுக்கு இடையில் மொழிபெயர்ப்பு செய்யும் முறை சின்ஹா என்பவரால் 1984-இல் முயற்சிக்கப்பட்டு 1989-இல் விரிவாக்கப்பட்டது. இது மூல மொழியின் ஆய்வுக்குக் காரக அடிப்படையிலான ஒழுங்குமுறையைப் பயன்படுத்தி ஒரு சட்டக அடிப்படையிலான அக உருப்படுத்தத்தை முன்மொழிந்தது. 1986-1988-களில் எல்லைக்குட்பட்ட சொற்களைக் கொண்ட மிக எளிய வாக்கியங்களை இந்தியிலிருந்து தெலுங்கிற்கு மொழிபெயர்க்கும் மூலமாதிரி (Prototype) சைத்தான்யா மற்றும் ராஜீவ் சங்கல் என்பவர்களால் உருவாக்கப்பட்டது. இது காரக அடிப்படையிலான கருத்துரு வரைபடத்தை அக உருப்படுத்தத்திற்கும் பொருண்மை மயக்கங்களுக்கும் பயன்படுத்தியது. ஒரு தனிநிலை தொடரியல் இருப்பானில் உள்ள மிகக் கூடுதலாகத் தொடர்புள்ள சொற்கள் ஒரு சொல் குழுவாகப் பயன்படுத்தப்பட்டது. மூல மொழியில் உள்ள உரை உருவாக்கி இச்சொற் குழுமங்களிலிருந்து பொருத்தத்தைச் சரியான உருபனியல் உருவாக்கத்திற்குப் பயன்படுத்தியது.
அடுக்குச் சொற்கள்
சொல் வழிநிலை தேர்வுகள் மூலமொழி
புணர்ச்சி கட்டுக்கோப்பு
உருபன்
கால ஆற்றல் நோக்குகள் வேற்றுமை பின்னுருப் தரவு குழும விதிகள்
வட்டாரச் சொல் குழுமம்
இருமொழி அகராதி வேற்றுமை அகராதி கால-ஆற்றல் நோக்கு அகராதி
பொருத்தல் பகுதி
இலக்கு மொழி கால-ஆற்றல் நோக்கு விளக்கங்கள்
வட்டாரச் சொல் பிரிப்பான்
அனுமான விதிகள்
சொல்லடுக்குகள்
உருவாக்கல்
உருபு உருவாக்கி
தொடரியல் தெளிவுகள்
அனுசாரக் நேரடி உதவி
வெளியீடு
இடைமொழி அடிப்படையிலான இயந்திர மொழிபெயர்ப்பு அதற்குப் பின் முயற்சிக்கப்படவில்லை. இவ்வணுகுமுறை இந்திய மொழிகளின் பன்மைத்தன்மைக்குக் கூடுதல் அனுகூலமாய் இருந்தாலும் அக உருப்படுத்தத்திலிருந்து புற அமைப்பைப் பெறுவது கடினமான செயல்பாடாக அமைந்து குறையுடையதாக இருந்தது. இந்த அணுகுமுறை மூல மொழியின் சீரான புரிதலை முன் கருதலாகக் கொண்டதால் இன்றைய ஆய்வு நிலையில் ஏற்றதாக அமையவில்லை. மேலும் அமைப்பு அடிப்படையில் அண்மைப்படுகிற இந்திய மொழிகளுக்கிடையில் மொழிபெயர்ப்பின் போது நேரிடையான சொல் பதிலீடு செய்வது எளிமையாக அமைந்தது. இதன் காரணமாக இவர்களால் அனுசாரகா என்ற அணுகுமுறை உருவாக்கப்பட்டது.
இந்திய மொழிகளுக்கிடையே உள்ள அமைப்பு ஒற்றுமை காரணமாக மூல மொழியிலிருந்து இலக்கு மொழிக்கு பல பொருண்மை மயக்கங்களைக் கொண்டு செல்ல இயலும் என்ற காரணத்தால் இந்த இடைமொழி அணுகுமுறை இந்திய மொழிகளுக்கிடையே மொழிபெயர்ப்பிற்கு நல்லதொரு அணுகுமுறையாக அமையும். இருப்பினும் ஆங்கிலத்திலிருந்து இந்திய மொழிகளுக்கும் இந்திய மொழிகளிலிருந்து ஆங்கில மொழிகளுக்கும் மொழிபெயர்க்க இடைமொழி அணுகுமுறை பொருத்தமான அணுகுமுறை அல்ல.
1.7.2 சொல்நிலையில் மாற்றத்தைப் பயன்படுத்திய நேரடி அணுகுமுறை
(அனுசாரகாத் திட்டம்)
சைத்தான்யா மற்றும் ராஜீவ் சங்கல் என்பவர்களால் மூல மொழியிலிருந்து இலக்கு மொழிக்கு நேரடி சொல்சார் மாற்ற அணுகுமுறை உருவாக்கப்பட்டது. இங்கு மூலமொழிக்கும் இலக்கு மொழிக்கும் இடையில் உள்ள வாக்கிய அமைப்பின் பொதுமைப் பண்புகள் இரண்டும் இந்திய மொழிகள் என்ற காரணத்தால் கருதப்பட்டு முழு அளவிலும் பயன்படுத்தப்பட்டுள்ளது. இவ்வணுகுமுறையின் படி ஒரு தனிநிலை தொடரியல் உறுப்பாக அமையும் மூல மொழியில் உள்ள சொற்கள் குழுமப்பட்டு இலக்கு மொழிக்குப் பொருந்தும்படி அது சொற்களால் பதிலீடு செய்யப்படும். பின்னுருபை நிர்ணயிக்க சில விதிகள் உருவாக்கப்பட்டன. சொற்கள் நிரல் வருகை பெரும்பாலும் தக்கவைக்கப்பட்டு சில சமயங்களில் புதிய இணைப்பான்களின் பயன்பாட்டால் நிறைவு செய்யப்படும். சில சமயங்களில் இம்முறை வெளியீட்டில் தொடரியல் தவறுகளுக்கு வழிவகுக்கும். இது பற்றி இதை உருவாக்கியவர்கள் கவலைப்பட வில்லை. இருப்பினும் குறைந்த அளவு பொருள் பெரும்பாலும் வெளிப்படுத்தப்படும். மேலும் அனுசாரகாவின் பாகங்கள் அல்லது உறுப்புத் தொகுதிகள் எந்த இயந்திர மொழிபெயர்ப்பிற்கும் அல்லது இயந்திர உதவியுடன் செய்யப்படும் மொழிபெயர்ப்பு ஒழுங்குமுறைகளுக்கும் பகுதியாக அமையும்.
இவ்வாறு அனுசாரகாவின் வெளியீடு இடைப்பட்ட ஒரு நிலைக்கு முக்கிய வெளியீடாகும். இது சீரற்ற மொழிபெயர்ப்பிற்கு கொண்டு செல்லாததால் மொழிகளின் இணையின் இயந்திர மொழிபெயர்ப்பிற்குப் பயனுள்ள உபாயம் ஆகும். இதை உருவாக்கியவர்கள் இதை ஒரு மொழி அணுகி (Language Access) என்று அழைக்கின்றனர். இதிலிருந்து முழு நன்மை அடைய பயன்படுத்துபவர்களிடம் சில பயிற்சியை எதிர்பார்க்கின்றனர். தொடக்கத்தில் கன்னடம், இந்தி மொழிகளுக்கு ஒரு அனுசாரகா ஒழுங்குமுறை அமைக்கப்பட்டு காட்டப்பட்டது. இதன் பின்னர் தெலுங்கு -இந்தி, பஞ்சாபி-இந்தி, மராட்டி-இந்தி, சமஸ்கிருதம்-இந்தி, தமிழ்-இந்தி ஆகிய மொழி இணைகளுக்கு அனுசாரகா ஒழுங்குமுறைகள் உருவாக்கப்பட்டு பார்வையாளர்களுக்கு எடுத்துக்காட்டப்பட்டது.
மூலமொழி
மைய அனுசாரகா
பயன்படுத்துவோர் இடைமுகம்
அறிவுள்ள பயன்படுத்துவோர் இடைமுகம்
மனித உதவியுடன் மொழிபெயர்ப்பு T1 T2
தானியங்கித் திருத்தி
Ti Tii Tiii
இலக்கு மொழி இலக்கு மொழி T T
மனிதப்படிப்பவர் மனித உதவியுடன் இயந்திர மொழிபெயர்ப்பு மொழிபெயர்ப்பு
அனுசாரகாவின் வெளியீட்டில்
பல மட்டங்கள்
1.7.3 ஆங்கிலத்திலிருந்து இந்திய மொழிகளுக்கு இயந்திர உதவியுடன் மொழிபெயர்ப்பு ( ஆங்கில பாரதி திட்டம்)
ஆங்கில பாரதி (ANGILA BHARTHI) திட்டத்தை நிறுவுவதில் நான்கு முக்கியமான கருத்துகள் இருந்தன. முதலாவது அன்றைய கால கட்டத்தின் நிலையில் சீரான இயந்திர மொழிபெயர்ப்பு சாத்தியமில்லை. எனவே இயந்திர உதவியுடன் மொழிபெயர்ப்பு முயற்சிக்கப்பட வேண்டும்; இங்கு இயந்திரம் பெரும்பாலான செயல்களைச் செய்கிறது. கடினமான வேலைகள் முந்தைய மற்றும் பிந்தைய திருத்தங்களால் (Pre and Post Editing) கையாளப்படுகிறது. இதன்படி ஒவ்வொரு மூல மொழி வாக்கியத்தையும் தனியாகப் பரிசோதிப்பது மற்றும் முற்சுட்டு (Anaphora) மற்றும் வாக்கியங்களுக்கு இடையிலான குறிப்புகள் (Inter Sentential References) போன்ற சிக்கல்களை மனிதத் திருத்துனர்க்கு விட்டுவிடுவது என்பன எளிமைக்கு வழி வகுக்கிறது. இரண்டாவது இயந்திர மொழிபெயர்ப்பு பயன்படுத்துவோர் மற்றும் பயன்பாட்டு அடிப்படையில் இருக்க வேண்டும் என்ற உணர்வு, ஆங்கிலத்திலிருந்து இந்திய மொழிகளுக்கு உள்ள மொழிபெயர்ப்பை மேற்கொள்வது இந்திய மொழிகளுக்கு இடையிலான இயந்திர மொழிபெயர்ப்பை மேற்கொள்வதைக் காட்டிலும் சிறந்தது என்ற தீர்மானத்திற்கு வழிவகுத்தது. மூன்றாவது ஒரு குறிப்பிட்ட பொருண்மைக் களத்தை அடிப்படையாகக் கொண்ட ஒழுங்குமுறைகள் (Domain specific Systems) திறந்த ஒழுங்குமுறைகளைக் (Open ended Systems) காட்டிலும் உருவாக்குவதற்கு எளியது மற்றும் பெரும்பாலான இயந்திர மொழிபெயர்ப்பு பயன்படுத்துவோர்க்கு சிக்கனமானதாகவும் இருக்கிறது. இறுதியாக வேறுபட்ட மொழிகள் ஒற்றுமையுள்ள மொழிகளைக் காட்டிலும் ஆய்வு அடிப்படையில் கூடுதல் அறைகூவல்களை எதிர்கொள்ளும்.
சில முக்கியத் திட்டக் கருதல்கள் 90 விழுக்காடு வேலையை இயந்திரத்தாலும் 10 விழுக்காடு வேலையை மனித முன் திருத்தத்தாலும் (Post Editing) மேற்கொள்ளும்படி மொழிபெயர்ப்பிற்கு ஒரு பயன்பாட்டுக் கருவியைத் தருவது என்ற நோக்கம் அடிப்படையில் அமைந்தது. இவ்வமைப்பொழுங்கு படிப்படியாகச் சிக்கலான சூழல்களைக் கையாளும்படிக்கு வளர இயலும். பொருத்தமான உரை உருவாக்கும் பகுதிகளின் (Text Generator Modules) இணைப்பால் ஆங்கிலத்திலிருந்து பெரும்பாலான இந்திய மொழிகளுக்கு மொழிபெயர்ப்பு ஒரு சீரான இயங்கு முறையைக் கொண்டிருந்தது. மேலும் அதன் பயன்பாட்டிற்கும் விரிவாக்கத்திற்கும் வசதி செய்ய மனிதனால் இயக்கப்பட்ட மனித-இயந்திர இடைமுகம் (Interface) கொண்டிருந்தது.
இது ஒரு குழும இந்திய மொழிகளுக்குப் பயன்படுமாறு போலி இலக்கு மொழியை (Pseudo Target Language) உருவாக்கும் சூழல் வரையறையற்ற இலக்கணம் போன்ற அமைப்புடன் கூடிய அமைப்பொழுங்கை இலக்காகக் கொண்ட விதி அடிப்படையிலான ஒழுங்குமுறையாகும். தரவுத்தொகுதி (பெருந்தரவு) ஆய்வின் மூலம் கிடைக்கப்பெற்ற ஒரு குழும விதிகள் போலி மூல மொழிக்கு நகர்வு விதிகளைப் பயன்படுத்தும் சாத்தியமான உறுப்புகளைக் கண்டுகொள்வதற்குப் பயன்படுத்தப்படுகிறது. போலி இலக்கு மொழியைப் பயன்படுத்தும் கருத்து, இடைமொழி அணுகுமுறையைப் பயன்படுத்துவதற்குச் சமமான நன்மையைப் பெற அமைப்புசார் ஒற்றுமையை முதன்மையாகப் பயன்படுத்துவதாகும். போலி இலக்கு மொழி, இடைமொழி அணுகுமுறையில் பயன்படுத்தப்படும் இடைப்பட்ட மொழி அல்ல; இங்கு பொருண்மை உருப்படுத்தத்தை உருவாக்க எந்த முயற்சியும் மேற்கொள்ளப்பட வில்லை.
இந்திய மொழிகள் சுதந்திர சொல் குழும நிரலைக் கொண்டு வினையில் முடியும் பண்புடையதாகும். அமைப்பு ஒற்றுமையின் அடிப்படையில் இந்திய மொழிகளை நான்கு குழுமங்களாக வகைப்படுத்தலாம்.
1. இந்திய ஆரிய மொழிக் குடும்பம் (Indo-Aryan Family - இந்தி, வங்காளம், அஸ்ஸாமி, பஞ்சாபி, மராட்டி, ஒரியா, குஜராத்தி போன்றன).
2. திராவிட மொழிக் குடும்பம் (Dravidian Family - தமிழ், தெலுங்கு, கன்னடம், மலையாளம் போன்றன) .
3. ஆஸ்ட்ரோ ஆசிய மொழிக் குடும்பம் (Astro-Asian Family - திபெத்திய பர்மிய மொழிக் குடும்பம்).
ஒவ்வொரு குழுமங்களுக்குள்ளும் மொழிகள் உயர்ந்த அளவு அமைப்புப் பொருத்தத்தைக் காட்டுகின்றன. ஆங்கில பாரதி திட்டம் இந்த ஒற்றுமையைக் கூடுதல் அளவு இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறையை உருவாக்கப் பயன்படுத்துகிறது.
இலக்கு மொழியில் அர்த்த மயக்கங்களைத் தீர்ப்பதற்கு வேண்டி பல பொருண்மை அடையாளங்கள் பயன்படுத்தப்படுகின்றன. தீர்க்கப்படாத பொருண்மை மயக்கங்களின் மாற்றுப்பொருள்கள் போலி இலக்கு மொழியில் தக்கவைக்கப்படுகிறது. ஒவ்வொரு இலக்கு மொழிக்கும் உரை உருவாக்கப் பகுதி போலி இலக்கு மொழியை இலக்கு மொழிக்கு மாற்றுகிறது. இந்த மாற்றங்கள் தவறான வடிவ வாக்கியங்களுக்கு வழிவகுக்கும். ஒவ்வொரு இலக்கு மொழிக்கும் திருத்துவான் பயன்படுத்தப்படுகிறது. இறுதியாக மனித இயக்கத்தால் தூண்டப்பட்ட பின் திருத்தும் தொகுதி (Post Editing Package) இறுதித் திருத்தங்களைச் செய்வதற்குப் பயன்படுத்தப்படுகிறது. பின் திருத்தி இலக்கு மொழியை மட்டும் அறிந்தால் போதுமானது.
ஆங்கில பாரதி திட்டம் சின்ஹா (Sinha,1993) என்பவரால் 1991-இல் உருவாக்கப்பட்டது. இத்திட்டத்தில் ஆங்கிலத்திலிருந்து இந்தி மற்றும் தெலுங்கு மொழிகளுக்குச் செயல்படக்கூடிய மூலமுன்மாதிரி மொழிபெயர்ப்பு (Functional Prototype) ஒழுங்குமுறை உருவாக்கப்பட்டது. பின்வரும் திட்ட வரைபடம் இந்த மொழிபெயர்ப்பு ஒழுங்குமுறையை விளக்கும்.
பின்வரும் திட்ட வரைபடம் இம்மொழிபெயர்ப்பு ஒழுங்குமுறையை விளக்கும்.
தரவுத்தொகுதி
அமைப்பொழுங்கு பெறுதலுக்கும் மாற்றத்திற்கும் விதி அடிப்படை
விதீ ஈட்டு ஒழுங்கு முறை
ஆங்கில வாக்கியம்
உருபு ஆய்வு
அமைப்பொழுங்கால் இயக்கப்படும் பகுத்துக்குறித்தல்
அர்த்தப் பொருள் மயக்கநீக்கி
பன்மொழி சொல் தரவு மூலம்
மின் இணைப்பு அகரதி
இந்திய ஆரிய மொழிக் குடும்பத்திற்குப் போலி இலக்கு மொழி
இந்தி உரை உருவாக்கி
தவறாக உருவாக்கப்பட்ட வாக்கியங்களுக்கான திருத்தி
பின் சீராக்கி
இந்தி உரை
தமிழ் உரை
தமிழ் உரை உருவாக்கி
திராவிட மொழிக் குடும்பத்திற்கு போலி இலக்கு மொழி
பின் சீராக்கி
திருத்தி
தெலுங்கு உரை
பின் சீராக்கி
திருத்தி
தெலுங்கு உரை உருவாக்கி
திபத்தோ பர்மிய மொழிக் குடும்பத்திற்குப் போலி இலக்கு மொழி
. . .
. . .
. , .
பின் சீரமைப்புக் கருவிகள்
ஆஸ்ட்ரோ ஆசிய மொழிக் குடும்பத்திற்கு போலி இலக்கு மொழி . .
. . . .
பின்வருவன ஆங்கில பாரதி மொழிபெயர்ப்புத் திட்டத்தின் முக்கியக் கூறுகளாகும்.
1. விதி அடிப்படை (Rule Based)
இது ஆங்கிலத்திலிருந்து இந்திய மொழிகளுக்கு வாக்கியங்களின் அமைப்புகளைப் பொருத்துவதற்கான விதிகளைக் கொண்டிருக்கின்றது. இந்த ஆங்கிலத்திலிருந்து இந்திய மொழிகளுக்கு அமைப்பொழுங்கு மாற்றங்களின் தரவு மையம் மொழிபெயர்க்க வேண்டிய வாக்கியத்திற்கு அகக்கிளை அமைப்பைப் பெறும் வேலையைப் புறக்கணித்துப் புறக்கிளைகளிலிருந்து புறக்கிளை மாற்றத்தைச் செய்யும் வேலைக்குப் பணிக்கப்படுகிறது. வாக்கியங்களின் பொருண்மையைக் கண்டுபிடிக்க புற அமைப்பொழுங்கைப் பயன்படுத்தும் கருத்து, மொழியியலில் மிகப் பழமையானதாகும். இவ்வணுகுமுறை எளிதானது என்றாலும் இத்திட்டம் ஒரு மொழியின் புற அமைப்பு ஒழுங்குகளின் தனிப்பட்ட தன்மைகளைக் கண்டுபிடிக்கச் செயலூக்கமுடையதாகும். ஆங்கில பாரதியில் பயன்படுத்தப்படும் அணுகுமுறை சாம்ஸ்கியின் தொடரமைப்பு இலக்கணத்திலிருந்தும் சொல்சார் செயல்பாடு சார் இலக்கணத்தின் (Lexical Functional Grammar) சி-அமைப்பிலிருந்தும் (C-structure) அதிகமாக எடுத்தாண்டுள்ளது. விதி அடிப்படை (Rule based) என்று கூறப்படும் ஆங்கிலத்திலிருந்து இந்திய மொழிகளுக்கான அமைப்பு மாற்ற விதிகளின் தரவு மூலம் ஆங்கில பாரதி ஒழுங்குமுறையில் மையப்பகுதியாக அமைகிறது. இது ஆங்கிலத்திலிருந்து மொழிபெயர்க்கும் போது தொடரியலில் ஏற்படும் முக்கிய மாற்றங்களைக் கவனித்துக் கொள்கிறது. முன்னர் கூறிய படி இந்திய மொழிகளுக்குப் பொது விதி அடிப்படையை உருவாக்கி ஆங்கில பாரதி ஆங்கிலத்திலிருந்து மொழிபெயர்க்கும் போது சிறந்த நன்மையை வெளிப்படுத்துகிறது.
2. பொருண்மை மயக்க நீக்கி (Sense Disambiguator)
இத்தொகுதி மூலமொழியின் ஒவ்வொரு சொல்லுக்கும் சரியான அர்த்தத்தைத் தேர்ந்தெடுக்கப் பொறுப்புள்ளதாகும். இங்கு அர்த்த (பொருண்மை) மயக்க நீக்கம் மூல மொழியின் உரையில் மட்டுமே நிகழ்த்தப்பெறுகிறது. ஆங்கில பாரதியில் பயன்படுத்தப்படும் இவ்ணுகுமுறையை விதியால் விதிப் பொருள்கோள் (Rule-by-rule-Semantic Interpretation) எனக் கூறலாம். ஒரு தொடரியல் விதி பயன்படுத்தப்படும் ஒவ்வொரு நேரத்திலும் பொருள்கோள் (Semantic Interpreter) பயன்படுத்தப்படுகிறது.
3. இலக்கு உரை உருவாக்கிகள் (Target Text Generators)
இவை மொழிபெயர்ப்பு ஒழுங்குமுறையின் இறுதியாக அமைகின்றது. இதன் செயல்பாடு பொறுத்தமுறும் மூல மொழிகளிலிருந்து மொழிபெயர்க்கப்பட்ட வெளியீட்டை உருவாக்குவதாகும். இவை ஆங்கில பாரதியின் முந்தைய நிலைகளில் உருவாக்கப்பட்ட இடைப்பட்ட வடிவத்தை உள்ளீடாக ஏற்றுக்கொள்கிறது. இச்செயல்பாடு இயற்கை மொழி உருவாக்கம் (Natural Language Generation) என்று அழைக்கப்படும் செயல்பாட்டிலிருந்து வேறுபட்டதாகும்; இவ்வர்த்தத்தில் பிந்தையது எனக் கூறவேண்டும் (Strategic Level = திட்டநிலை) என்பதுடன் எவ்வாறு கூறவேண்டும் (Tactic Level = நடவடிக்கை நிலை) என்பதையும் தீர்மானிக்கவேண்டும். ஒரே விதி அடிப்படை மற்றும் அர்த்த மயக்க நீக்கி இவற்றைப் பயன்படுத்தும் வேறுபட்ட உரை உருவாக்கிகளைக் கொண்டு பல இலக்கு மொழிகளுக்கும் பொது இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறை அமைப்பு கிடைக்கப்பெறுகின்றது.
4. பன்மொழி அகராதி (Multi-Lingual Dictionary)
இது தொடரியல் வகைப்பாடுகள், சாத்தியமான அர்த்தங்கள், அர்த்தங்களின் மயக்கத்தை நீக்கும் முக்கியக் கூறுகள் (Features) இவற்றை உள்ளடக்கிய ஆங்கிலச் சொற்களுக்கும் இணையான மூல மொழிச் சொற்களுக்குப் பல விளக்கங்களைக் கொண்டிருக்கும்.
5. விதி அடிப்படை ஈட்டி (Rule-base Acquirer)
இது மொழிபெயர்ப்பு ஒழுங்குமுறைக்கு விதி அடிப்படையை உருவாக்குகிறது.
1.7.4. தமிழ் உருஷ்யன் மொழிபெயர்ப்புத் திட்டம்
1985-இல் தமிழ்ப் பல்கலைக்கழகத்தில் TUMTS (Tamil University Machine System) என்ற திட்டப்பணி உருவாக்கப்பட்டது. இதன் மூலம் ருஷ்ய மொழியில் உள்ள செய்திகளைத் தமிழில் மொழிபெயர்க்க ஒரு மென்பொருள் உருவாக்கப்பட்டது. இத்திட்டம் தமிழ்ப் பல்கலைக்கழகக் கணினி அறிவியல் துறை, மொழியியல் துறை மற்றும் மொழிபெயர்ப்புத் துறை ஆகியவைகளின் கூட்டு முயற்சியில் விளைந்ததாகும்.
1. கண்ணோட்டம்
இரு மொழிகளுக்கிடையே உள்ள சொல்வளம் (Vocabulary), இலக்கணம் (Grammar), கருத்தாடல் (Discourse) இவற்றின் ஒற்றுமை வேற்றுமைகளை ஆராய்வது வகைப்பாட்டியல் ஆகும். இரு மொழிகளுக்கிடையே உள்ள உறவுகள், தொடரியல் மற்றும் வாக்கியங்களுக்கு இடையே உள்ள உறவுகள் என்பன கண்டறிந்து முறைப்படுத்தப்பட்டன. இம்முறை மொழிபெயர்ப்பிற்குப் பின்வரும் இரு குறிக்கோள்கள் அடிப்படையாகக் கொள்ளப்பட்டன.
எழுத்து அல்லது இலக்கிய உரைகளை மட்டும் மொழிபெயர்ப்பிற்கு எடுத்துக்கொள்வது; பேச்சு மொழி வழக்கினை ஒதுக்குவது.
இலக்கியப் பண்புகளைத் தவிர்த்து அறிவியல் மற்றும் தொழில்நுட்ப உரைகளை மட்டும் எடுத்துக்கொள்வது.
2. முன்னேற்பாடுகள்
ருஷ்ய–தமிழ் மொழிபெயர்ப்பு முன்னேற்பாடுகளின் அடிப்படையில் மேற்கொள்ளப்பட்டது. இம்மொழிபெயர்ப்புக்கு ருஷ்ய மொழி மூல மொழியாகவும் (Source Language) தமிழ் மொழி இலக்கு மொழியாகவும் (Target Language) எடுத்துக்கொள்ளப்பட்டன. மூல மொழியில் அதாவது உருசியன் மொழியில் உள்ள உரைகள் ஒலிப்பெயர்ப்பு (Transliteration) செய்யப்பட்டு கணிப்பொறியில் உள்ளீடு செய்யப்பட்டன. ருஷ்ய-தமிழ் இருமொழி அகராதி உருவாக்கப்பட்டது.
ருஷ்ய மொழியில் அமைந்துள்ள சொற்கள் சொற்றொடர்கள் மற்றும் வாக்கிய அமைப்புகளில் சில முன்திருத்தம் (Pre Editing) செய்யப்பட்டன. மூல மொழியில் உள்ள சொல் மற்றும் வாக்கிய அமைப்பிற்கு நிகரான தமிழ்ச்சொல் மற்றும் வாக்கியம் ஆகியவற்றை நிர்ணயம் செய்ய விதிமுறைகள் உருவாக்கப்பட்டன. இத்தகைய விதிமுறைகளும் மாற்றம் (Transfer) என்ற பெயரில் பதிவு செய்யப்பட்டன. கணிப்பொறி வழி மொழிபெயர்ப்பு செய்த பின்னர் தேவைப்படின் தமிழ்மொழிக்கேற்ப வாக்கிய அமைப்புகள் திருத்தி அமைக்கப்பட்டன.
3. படிநிலைகள்
உருசியன்-தமிழ் மொழிபெயர்ப்பிற்கான படிநிலைகள் கீழே தரப்பட்டுள்ளன. மூல மொழியான உருசியன் L1 என்றும் இலக்கு மொழியான தமிழ் L2 என்றும் குறிப்பிடப்படுகின்றன.
முதற்கட்டமாக மூல மொழியில் உள்ள செய்தி ஒலிப்பெயர்ப்பு செய்யப்பட்டுக் கணிப்பொறியில் உள்ளீடு செய்யப்படுகின்றன. இரண்டாம் கட்ட நிலையில் மூல மொழியில் உள்ள செய்தி பகுப்பாய்வு செய்யப்படுகிறது. இந்நிலையில் சொற்களின் இலக்கணக்கூறுகள் கண்டறியப்படுகின்றன. இதற்கு உருசியன்-தமிழ் அகராதி உதவுகிறது. இப்பகுப்பாய்வு மூலம் உருசிய மொழியில் உள்ள செய்திகள் பெயர்த்தொடர், வினைத்தொடர், வினையடை, பெயரடை எனப் பாகுபடுத்தப்படுகின்றன.
மூன்றாம் கட்ட நிலையில் பகுப்பாய்வு செய்யப்பட்டுள்ள மூலமொழியில் உள்ள சொற்களின் வடிவம், வாக்கிய அமைப்பு போன்றவைகளுக்கு இலக்கு மொழியில் நிகராக உள்ள சொற்களின் வடிவம், வாக்கியம் ஆகியன மாற்றம் (Transfer) என்ற அமைப்பின் மூலம் கண்டறியப்பட்டு மொழி மாற்றம் செய்யப்படுகின்றன. இந்நிலையில் இவ்விரு மொழிகளுக்கும் இடையே உள்ள வேறுபாட்டு அறிவு (Contrast Knowledge) பயன்படுத்தப்படுகின்றது. கருத்தாடலைப் பொறுத்தவரையில் இவ்விரு மொழிகளுக்கிடையே ஒன்றுக்கொன்று (one-to-one) உறவு உள்ளது. இவ்வுறவினைக் கீழ்க்கண்ட எடுத்துக்காட்டு விளக்குகிறது. பெயர் உரிச்சொல்லைப் பொறுத்தவரையில் இவ்விரு மொழிகளுக்கிடையே பலவற்றிற்கு-ஒன்று என்ற (Many-to-one) உறவு உள்ளது.
உருசியன் தமிழ்
ADJ
SN
± ADJ
CASES
CENDERS
மேலும் இவ்விரு மொழிகளுக்கு இடையே உள்ள வேற்றுமை உறுப்புகளில் 'ஒன்றிற்கு பல' (One-to-many) உறவு உள்ளது.
உருசியன் தமிழ்
kiRaan
ON kiRaan
kiRaan
இது போன்று இவ்விரு மொழிகளுக்கிடையே உள்ள வேறுபாடுகள் விதிமுறைகளாகவும் மாற்றம் (Transfer) என்ற அமைப்பின் கீழ் பகுக்கப்பட்டுள்ளன. பகுப்பாய்வு செய்யப்பட்ட மூல மொழிச் செய்தி மாற்றம் (Transfer) என்ற அமைப்பில் உள்ளீடாகச் செல்கிறது. இந்நிலையில் இலக்கு மொழி அமைப்பிற்குச் செய்தி மொழிமாற்றம் செய்யப்படுகிறது.
நான்காவது கட்ட நிலையில் மொழிமாற்றம் செய்யப்பட்டுள்ள இலக்கு மொழி கட்டமைப்புகள் இலக்கு மொழியின் தன்மைகேற்ப உருவாக்கித் தருவது தான் உருவாக்கம் (Generation) என்ற பகுதியின் பணியாகும். இந்நிலையில் மொழிமாற்றம் செய்யப்பட்ட செய்திகள் உள்ளன. இச்செய்தியை இலக்கு மொழியின் வடிவத்தில் தரும் பணியை வெளியீடு (Output) என்ற அமைப்பு தருகிறது. மொழிபெயர்ப்பு செய்யப்பட்ட செய்தியைக் காட்சித்திரையில் காணலாம் மற்றும் அச்சிட்டுக்கொள்ளலாம். உருசியன் -தமிழ் மொழிபெயர்ப்பைப் பொறுத்த வரையில் வெளியீட்டைத் தமிழ் எழுத்துகளில் காண்பதற்கும் அச்சிட்டுக் கொள்வதற்கும் வசதிகள் உள்ளன. அது போல் ஒலிப்பெயர்ப்பு முறையிலும் விடையைப் பெறலாம்.
1.7.5. உலக வலைப்பின்னல் மொழி - தமிழுக்கான இடைமொழி இயந்திர மொழிபெயர்ப்பு (INL- Interlingual Machine Translation Approach for Tamil)
இவ்வணுகுமுறை சென்னையில் உள்ள அண்ணா பல்கலைக்கழகத்தில் கணிப்பொறி அறிவியல் துறையில் மேற்கொள்ளப்பட்டது (Dhanabalan & Geetha, 2004). இவ்ணுகுமுறையில் இடையீட்டு மொழியின் உருப்படுத்தம் பயன்படுத்தப்படுகிறது. மூல மொழி அகராதியையும் இலக்கணத் தகவல்களையும் பயன்படுத்தி இடைமொழி உருப்படுத்தம் மூல மொழியிலிருந்து இலக்கு மொழி உரையை உருவாக்குவதற்கு அகராதியையும் இலக்கணத்தையும் இணைத்துச் செய்யப்படும். இங்கு மூல மொழியிலிருந்து இலக்கு மொழிக்கு மொழிபெயர்க்கச் செய்ய பயன்படுத்தப்படும் இடைமொழி அமைப்பு உலகளாவிய வலைப்பின்னல் மொழி (Universal Networking Language) ஆகும். இம்மொழிபெயர்ப்பு இடைமொழி அமைப்பாகத் திட்டமிடப்பட்டு மூலமொழியிலிருந்து இலக்கு மொழிக்கும் இலக்கு மொழியிலிருந்து மூல மொழிக்கும் தானியக்க இயந்திர மொழிபெயர்ப்பைச் சாத்தியமாக்குகின்றது. UNL-க்கு மாற்ற En converter-உம், UNL-இலிருந்து இலக்கு மொழிக்கு மாற்ற Deconverter-உம் பயன்படுத்தப்படுகின்றது.
இவ்வணுகுமுறையின் திட்ட வடிவம் கீழேத் தரப்பட்டுள்ளது.
மூல மொழி உரைகள்
மூலமொழியிலிருந்து பாட அகராதி
UNL EN மாற்றி
மூல மொழியிலிருந்து UNL EN இலக்கணம்
UNL அறிவு அடிப்படை
UNL ஆவணம்
UNL இலக்கு மொழி அகராதி
UNL-இலிருந்து இலக்கு மொழி இலக்கணம்
UNL DE மாற்றி
இலக்கு மொழி ஆவணம்
மூல இலக்கு மொழி இணை நிகழ்வுகள் அகராதி
மேற்கண்ட படத்தில் காட்டியவாறு UNL அமைப்பு வேலை செய்து UNL மொழியிலிருந்து தமிழுக்கு மொழிபெயர்ப்புச் செய்யும்.
1.7.6. ஆங்கிலத்திலிருந்து மொழியியல் புத்தகங்களைத் தமிழில் மொழிபெயர்க்கும் திட்டம்
ஆங்கிலத்திலிருந்து மொழியியல் புத்தகங்களைத் தமிழில் மொழிபெயர்க்க ஒரு இயந்திர மொழிபெயர்ப்புக் கருவி உருவாக்க காமாட்சி மற்றும் ராசேந்திரன் (Kamatchi, Rajendran, 2004) ஒரு திட்டத்தை உருவாக்கிச் செயல்படுத்த முயன்றனர். தமிழில் முதுகலை மொழியியல் பாடத்திட்டத்திற்கு வேண்டி மொழியியல் புத்தகங்களைத் தமிழில் மொழிபெயர்க்க வேண்டிய கட்டாயம் ஏற்பட்டதால் இத்தகைய ஆய்வு மேற்கொள்ளப்பட்டது. இவ்வாய்வு மொழியியல் புத்தகங்களை ஆங்கிலத்திலிருந்து தமிழுக்கு மொழிபெயர்க்க உதவும் ஒரு கருவி தயாரிப்பதை நோக்கமாகக் கொண்டது. இக்கருவி பின்வரும் ஐந்து பகுதிகளைக் கொண்டது.
1. தமிழ் மொழி அமைப்புப் பகுதி
2. ஆங்கில மொழி அமைப்புப் பகுதி
3. ஆங்கில – தமிழ் மொழிபெயர்ப்பு அகராதி
4. ஆங்கில -தமிழ் மாற்றமைப்பு விதிகள்
5. ஆங்கில மொழியமைப்பு உருவாக்கி
பின்வரும் வரைபடம் இந்த மொழிபெயர்ப்பு கருவியின் செயல்பாட்டை விளக்கும்.
பகுப்பாய்வு
மூலமொழி பகுப்பாய்வு கிளையமைப்பு
இலக்கு மொழி பகுப்பாய்வு கிளையமைப்பு
மூல மொழி அமைப்பு
இலக்கு மொழி அமைப்பு
இந்தத் திட்டத்தின் படி இரண்டு விதமான மாற்றல்கள் செய்யப்படுகின்றன: 1. சொல்நிலை மாற்றம், 2. அமைப்பு நிலை மாற்றம். சொல்நிலை மாற்றத்தில் சொற்கள் ஒரு மூல மொழியிலிருந்து இலக்கு மொழிக்கு மாற்றம் செய்யப்படும். அமைப்பு நிலை மாற்றத்தில் மூல மொழி அமைப்பு இலக்கு மொழி அமைப்பாக மாற்றம் செய்யப்படும். இத்தகைய மொழிமாற்றக் கருவி ஆரம்ப கட்டத்திலேயே உள்ளது. அடுத்த படிக்குச் செல்லவில்லை.
1.7.7. AUKBC-நிறுவனத்தின் தமிழை உள்ளடக்கிய இயந்திர உதவி மொழிபெயர்ப்பு
AUKBC-நிறுவனத்தில் ஆங்கிலத்திலிருந்து தமிழுக்கு மொழிபெயர்க்கும் முயற்சிகள் மேற்கொள்ளப்பட்டு செயல்பாட்டில் உள்ளது. அவர்களுடைய முயற்சிகள் குறித்து (Machine Aided Translation Involving Tamil) என்ற கட்டுரையில் குமார சண்முகம் (Kumara Shanmugam, 2004) சுருக்கமாகக் கூறுகிறார்.
இயந்திர உதவி மொழிபெயர்ப்பு ஒரு மொழியில் உள்ள ஆவணத்தை மற்றொரு மொழிக்கு கொண்டு சென்று மொழி கடந்த தகவல்களைப் பெறுவதற்கு உதவும் பாலம் போன்று செயல்படுகிறது. மனித மொழிபெயர்ப்புடன் ஒப்பிடுகையில் இந்த ஒழுங்குமுறை சிக்கனமானது, உடனடியானது மற்றும் பெருக்கம் செய்ய இயல்வது. இரு மொழிகளுக்கிடையில் அம்மாதிரியான ஒழுங்குமுறையை உருவாக்குவது முக்கியமானது. ஒரு மொழியிலிருந்து உரையின் ஏதாவது ஒரு பகுதியை மற்ற மொழிக்கு மாற்றும் முழுவதும் தானியக்கமான உயர்ந்த மொழிபெயர்ப்பு முழுவதும் தானியக்கம் செய்ய மிகவும் கடினமானதாகும். இம்மாதிரியான ஒரு ஒழுங்குமுறையை உருவாக்குவதில் ஏற்படும் சிக்கலின் நிலை மொழிபெயர்க்கப்படும் இரு மொழிகளின் ஒற்றுமை மற்றும் வேற்றுமைகளைப் பொறுத்து அமையும். இவ்வொற்றுமை வேற்றுமைகள் மொழி மாற்றம் சொல்நிலையில் செய்யப்பட வேண்டுமா என்பதைத் தீர்மானிக்கும்.
பின்வரும் படம் இச்சாத்தியங்களை வெளிப்படுத்தும்.
பொருண்மையியல் அமைப்பு பொருண்மையியல் அமைப்பு இடைமொழி
தொடரியல் அமைப்பு தொடரியல் அமைப்பு
மாற்றம் நேரடி
சொல் அமைப்பு சொல் அமைப்பு
மூல மொழி இலக்கு மொழி
தமிழிலிருந்து பிற மொழிகளுக்கும் பிற மொழிகளிலிருந்து தமிழ்மொழிக்கும் இயந்திர உதவி மொழிபெயர்ப்பு ஒழுங்குமுறைகள் தமிழ்மொழியின் மீது பல நிலைகளிலான ஆய்வுகளை உள்ளடக்கும். ஒவ்வொரு நிலைக்கும் அதற்கான சிக்கல்கள் காணப்படும்.
1. உருபனியல் ஆய்வு (Morphological Analysis)
இது சொற்களின் வேர்ச்சொற்களைக் (Root word) கண்டுபிடிப்பதையும் அதன் இலக்கணப் பண்புக்கூறுகளைக் கண்டுபிடிப்பதையும் உள்ளடக்கும். தமிழ் ஒரு திரிபு (Inflection) வளமுள்ள மொழியாகையால் அதன் பகுப்பாய்வு ஆங்கிலத்தின் உருபனியல் பகுப்பாய்வை விடச் சிக்கல் வாய்ந்ததாக அமையும். சொற்களை உருபன்களாகப் பிரிப்பதிலும் அவற்றிற்குப் பொருத்தமான பொருண்மை மற்றும் இலக்கணத் தகவல்கள் தருவதிலும் கவனம் தேவை. பின்வரும் எடுத்துக்காட்டு இதைத் தெளிவுபடுத்தும்.
தமிழ்ச்சொல் : பணத்திற்காகத்தானே
உருபனியல் பிரிப்பு : பணம்+க்கு+ஆக+தான்+ஏ
வேர் சொல் (பணம்)
நான்காம் வேற்றுமை உருபு (க்கு)
கொடை வேற்றுமை உருபு (ஆக)
தான், ஏ- குறைச்சொல் (Clitics)
இந்தச் சொல் ஆங்கிலத்தில் மொழிபெயர்க்கப்படும் போது இது ஒரேச் சொல்லாக மொழிபெயர்க்கப்படாமல் for the sake of money only என மொழிபெயர்க்கப்பட வேண்டும்.
2. சொல் வகைப்பாட்டு அடையாளப்படுத்துதல் (Parts of Speech Tagging)
சொல் வகைப்பாட்டு அடையாளப்படுத்தி வாக்கியத்திற்கும் சொற்களுக்கும் சொல் வகைப்பாடு தர வேண்டும். இது வாக்கியத்தின் அமைப்பைப் புரிந்து கொள்ளவும் வாக்கியத்தின் அமைப்பை உருவாக்கவும் முக்கியமானதாகும். பின் வரும் எடுத்துக்காட்டு சொல்வகைப்பாடு அடையாளப்படுத்தும் செயல்பாட்டை விளக்கும்.
தமிழ் வாக்கியம் : அவன் படி ஏறினான்.
He staircase climbed
மேற்கண்ட வாக்கியம் பின்வருமாறு அடையாளப்படுத்தப்படும்.
அவன்
படி
ஏறினான் <ஏறு+PAST+3SM>
இதில்,
PRO ==> Pronoun ' மாற்றுப்பெயர்'
N ==> Noun 'பெயர்'
NOM ==> Nominative 'எழுவாய்ச் சொல்'
V ==> Verb 'வினை'
Past ==> Past tense 'இறந்த காலம்'
3SM ==> Third Person Singular Masculine 'படர்க்கை ஒருமை ஆண்பால்'
இந்த வேர்ச்சொல்லான படி என்பது ‘staircase' என்ற பொருளையோ 'read' என்ற பொருளையோ தரலாம். சொல்வகைப்பாட்டு அடையாளப்படுத்தி சொல் மற்றும் தகவலைப் பயன்படுத்தி இந்தப் பொருள் மயக்கத்தைத் தீர்க்கும். இவ்வாறு படி என்பதற்குப் பெயர் சொல் வகைப்பாட்டு அடையாளம் தரப்படும்.
3. தொடரியல் ஆய்வு (Syntax Analysis)
தொடரியல் ஆய்வின் போது பகுத்தாயப்படுகையில் வாக்கிய அமைப்பு தெரிந்து கொள்ளப்படும். பகுத்தாய்வதால் எச்சத்தொடர் எல்லைகள், முன்னுருபு இணைப்பு அடைகள் என்பன தெரிந்து கொள்ளப்பட்டு அவற்றின் பொருத்தமான உறுப்புகளுடன் தொடர்புபடுத்தப்படும். தமிழ் ஒரு சொல் சுதந்திரமான மொழியாகும். இது தொடரியல் பகுத்தாய்வைச் சிக்கலாக்கும். பெயருடன் இணைந்து வரும் வேற்றுமை உருபுகள் வாக்கியத்தில் இவ்வுறுப்புகளின் பங்களிப்பை மெய்ப்படுத்தம் செய்கின்றன. ஆனால் வேற்றுமை உருபு இல்லாதிருப்பது அமைப்புசார் பொருள் மயக்கத்திற்கு வழிவகுக்கும். எடுத்துக்காட்டாக,
தமிழ் வாக்கியம் : அவன் தங்கை வீட்டிற்குச் சென்றான்.
she/her sister house-dative go+past+3sf
என்பதற்கு இரண்டு பகுத்துக் குறிப்பான்கள் கிடைக்கும்.
(அவள்) NP (தங்கை வீட்டிற்கு) NP (சென்றாள்) V
(அவள் தங்கை) NP (வீட்டிற்கு) NP ( (சென்றாள்) V
இம்மாதிரியான சூழலில் வேற்றுமை உருபுகளின் பங்களிப்பு முக்கியமானது. அவைகளைப் பற்றி கீழே விளக்கப்பட்டுள்ளது.
பொருண்மையியல் ஆய்வு (Semantic Analysis)
பல அர்த்தங்கள் உள்ள சொற்களுக்கு ஒரு குறிப்பிட்ட சூழலுக்குத் தகுந்தவாறு சரியான அர்த்தம் கண்டுபிடிக்கப்பட வேண்டும். இங்கு மொழி நிகரன் மயக்கம் நீக்கப்பட்ட அர்த்தம் அடிப்படையில் தேர்ந்தெடுக்கப்பட வேண்டும்.
தமிழ் வாக்கியம்1 : அவன் படி ஏறினான்
Climb+past+3sm
தமிழ் வாக்கியம் 2 : அவன் படியால் அளந்தான்.
He vessel measure past+3sm
மேற்கூறிய வாக்கியங்களில் படி என்பதற்கு இரண்டு அர்த்தங்கள் இருக்கின்றன.
1. Staircase
2. Measuring Vessel
முதல் வாக்கியத்தில் ஏறினான் என்ற சொல்லுடன் இணைந்து வருகையைப் பயன்படுத்தி படி என்பதன் அர்த்தம் 'Staircase' என்பது தான் என்றும் இரண்டாம் வாக்கியத்தில் அளந்தான் என்ற சொல்லுடன் சேர்ந்து வருகையால் படி என்பதன் அர்த்தம் 'Measuring Vessel' என்பது தான் என்று நிர்ணயிக்கப்படுகிறது.
தொடரியல் சார் மாற்றம் (Syntactic Transfer)
மொழிபெயர்ப்பு செயல்பாட்டில் மாற்றல் அணுகுமுறை (Transfer approach) பயன்படுத்தப்படும் போது தொடரியல் மாற்றப்பகுதி தேவைப்படும். உள்ளீடு செய்யப்படும் வாக்கியத்தின் அமைப்பு இலக்கு மொழியின் பொருத்தமான அமைப்பிற்குத் தகுந்தவாறு மாற்றப்படுகின்றது.
தமிழ் வாக்கியம் : ராமன் புத்தகம் படித்தான்
Raman book read
அமைப்பு: Noun Noun Verb
கீழ்வருவது மேற்கண்ட வாக்கியத்திற்கு நிகரான ஆங்கில வாக்கியம்.
ஆங்கில வாக்கியம் : Raman read a book
அமைப்பு : Noun verb Noun
இந்த மொழிபெயர்ப்பில் Noun Noun Verb என்ற தமிழ் வாக்கியம் Noun Verb Noun என்று ஆங்கிலத்திற்கு நிகராக மாற்றப்படுகிறது. இந்த எடுத்துக்காட்டு மிக எளிமையானதாகும். ஆனால் இந்தச் செயல்பாடு கலவை வாக்கியங்களுக்கு இடையில் கடினமானதாகும்.
அகராதி பொருத்தம் (Dictionary Mapping)
இருமொழி அகராதியைப் பயன்படுத்தி மூல மொழி வேர்ச் சொற்கள் இலக்கு மொழியில் அதற்கு நிகரான சொற்களுடன் பொருத்தம் செய்யப்பெறும். ஒரு மூல மொழி வேர்ச்சொல்லுக்கு இலக்கு மொழியில் பல சொற்கள் கொண்ட தொடர்கள் நிகரன்களாக வரலாம். பொருத்தமான சொல் சூழல் அடிப்படையில் தேர்ந்தெடுக்கப்பட வேண்டும். வேர்ச்சொல்லின் இலக்கணப் பண்புக்கூறுகளின் இலக்கணம் அகராதியில் அடங்கி இருக்கும்.
உருபனியல் உருவாக்கம் (Morphological Generation)
இங்கு சொல்லின் திரிபு வடிவம் வேர் மற்றும் அதன் இலக்கண பண்புக்கூறுகளால் உருவாக்கப்படும்.
தமிழ் வேர்ச்சொல் : 'படி'
இலக்கண பண்புக்கூறுகள் : 'Past tense' +'3rd person', 'Singular', 'Masculine'
சொல் வடிவு : 'படித்தான்'
1.8 தமிழ் மொழி ஆய்வுக்குத் தேவையான மூலவளமும் கருவிகளும்
தமிழ் இயற்கைமொழி ஆய்விற்குத் தேவையான கருவிகளும் மூலவளங்களும் உருவாக்கப் படவேண்டும். இக்கருவிகளும் மூல வளங்களும் உருவாக்கப்பட்டால் தான் இயந்திர மொழிபெயர்ப்பு போன்ற ஆய்வுகளை நாம் செம்மையாகச் செய்யவியலும். அத்தகைய கருவிகள் பற்றியும் மூலவளங்கள் பற்றியும் இங்கு விளக்ககப் படுகின்றது.
1.8.1 கருவிகள்
1. உருபனியல் ஆய்வி (Morphological Analyzer)
95 விழுக்காட்டிற்கு மேல் முழுமையுடன் தொழில் நுட்பத்தின் தற்போதைய நிலையைப் பயன்படுத்தி ஒரு திறமையான உருபனியல் ஆய்வி தேவை. தற்போதைய உருபனியல் ஆய்விக்குச் சொல்லடுக்கு அணுகுமுறையையும் (Paradigam approach), முற்றுநிலைத் தானியங்கியையும் (Finite State Automata) பயன்படுத்தப்படுகின்றன.
2. அடையாளப்படுத்தி (Tagger)
வாக்கியங்களை அடையாளப்படுத்த முழு தானியக்க, பகுதி தானியக்க, விதி அடிப்படையிலான அல்லது புள்ளியியல் அடிப்படையிலான அடையாளப்படுத்தித் தேவை. இவ்வகையான அடையாளப்படுத்தல் இயந்திர மொழிபெயர்ப்பிற்கு மட்டுமல்லாமல் தகவல் பிரித்தெடுப்பு, தகவல் மீட்பு , உரைச்சுருக்கம் மற்றும் பிற பல்வேறுபட்ட பயன்பாடுகளிலும் பயன்படுகிறது.
3. பகுத்துக்குறிப்பான் (Parser)
ஒரு பகுத்துக்குறிப்பான் சார்பு இலக்கணம் (Dependency Grammar), தொடரமைப்பு இலக்கணம் (Phrase Structure Grammar), கிளை இணைப்பு இலக்கணம் (Tree Adjoining Grammar) போன்ற ஏதாவது இலக்கண வடிவமைப்புகள் அடிப்படையில் வாக்கியங்களுக்குப் பகுப்புக்கிளைகளைத் தரும். ஒரு பகுத்துக்குறிப்பான் தமிழ்மொழிப் பகுப்பாய்விற்கு மிகத் தேவை. இது விதிகள் மற்றும் பகுத்துக்குறிக்கும் இயந்திரத்தை உருவாக்குதலையும் உள்ளடக்கும். சில இயற்கை மொழி ஆய்வுப் பயன்பாடுகள் பகுத்துக்குறித்தலை வேண்டாது; அவைகளுக்குப் பகுதி பகுத்துக்குறித்தல் போதுமானது. பெயர்த்தொடர் கண்டுபிடிப்பு, எச்சத்தொடர் கண்டுபிடிப்பு என்பன இப்பயன்பாடுகளுக்கு உதவும்.
4. பொருண்மையியல் ஆய்வி (Semantic Analyzer)
சொல் (அர்த்தம்) மயக்கம் நீக்கும் கருவியை உருவாக்கும் செயல்பாடு அதன் தொடக்க நிலையில் தான் இருக்கிறது. இச்செயல்பாடு கூடுதலான கவனக்குவிப்பையும் கடினமான முயற்சிகளையும் வேண்டும். மேலும் இது சொற்கள் இணைந்து வரும் தகவலைச் சேகரிக்க வேண்டி பெரிய அடையாளப்படுத்தப்பட்ட தரவுத்தொகுதியை வேண்டும்.
2.8.2 மூலவளங்கள் (Resources)
1. அகராதி (Dictionary)
பல அகராதிகள் தமிழில் இருந்தாலும் அவையெல்லாம் மின் வடிவில் இல்லை. இவ்வகராதிகள் இயந்திரம் படிக்கவியலும் வடிவத்தில் இருந்தால் தான் அவற்றைக் கணினி செயல்பாட்டில் பயன்படுத்த முடியும்.
2. மொழி கடந்த அகராதி
இது சாதாரண மொழி கடந்த அகராதியைக் குறிப்பிடவில்லை. இயந்திர மொழிபெயர்ப்புக்கு நமக்குத் தேவையான அகராதி மொழி கடந்த வேர் அகராதிகளாகும். தனிப்பட்ட மனிதர்களும் நிறுவனங்களும் அவர்களுடைய பயன்பாட்டிற்காக இரு மொழி அகராதிகளை உருவாக்குகின்றனர்; இவை இவ்வாய்வுக் களத்தில் ஈடுபடும் ஆய்வாளர்களுக்கிடையில் பங்கிடப்பட வேண்டும்.
3. தரவுத்தொகுதி
ஒரு மொழியின் தரவுத்தொகுதி அம்மொழியின் நடை, சொல் பயன்பாடு போன்றவற்றின் உருப்படுத்தம் ஆகும். இது மேலும் உருபனியல் பகுப்பாய்விகள், பகுத்துக்குறிப்பான்கள் மற்றும் உருவாக்கிகள் என்பனவற்றை மதிப்பீடு செய்யும் பரிசோதனைக் கருவியாகச் செயல்படும். இந்திய மொழிகளின் மைய நிறுவனம் சுமார் 15 மொழிகளுக்கு மூன்று மில்லியன் சொற்களைக் கொண்ட தரவுத்தொகுதிகளை உருவாக்கியுள்ளது. மேலும் சில தரவுத்தொகுதிகளை அடையாளப்படுத்தி உள்ளது. இருக்கின்ற வசதிகளை வைத்துக்கொண்டு பல்வேறுபட்ட மொழிகளுக்குத் தரவுத்தொகுதிகளைச் சேகரிக்க வேண்டி பொதுவான திட்டம் ஊக்கப்படுத்தப்பட வேண்டும். புத்தகங்கள், நாளிதழ்கள், கால இதழ்கள் போன்றவற்றைத் தவிர இணையதளங்களைப் பயன்படுத்தி தரவுத்தொகுதி சேகரிக்கப்பட வேண்டும்.
4. சொல்வகைப்பாடு அடையாளப்படுத்தப்பட்ட தரவுத்தொகுதி (POS Tagged Corpus)
சொல் வகைப்பாடு அடையாளப்படுத்தப்பட்ட தரவுத்தொகுதிகளில் உள்ள எல்லா வாக்கியங்களும் சொல் வகைப்பாட்டிற்கு வேண்டி அடையாளப்படுத்தப்பட்டிருக்க வேண்டும். இந்த அடையாளப்படுத்தப்பட்ட தரவுத்தொகுதி புள்ளியியல் அடிப்படையிலான சொல் வகைப்பாட்டு அடையாளப்படுத்தி உருவாக்குவதற்குத் துணைபுரியும். இம்மூலவளத்தின் மீது பல்வேறு வகையான ஆய்வுகளினால் ஒரு மொழிக்குக் கணினிசார் இலக்கணம் உருவாக்க இயலும்.
5. இணைத் தரவுத்தொகுதிகள் (Parallel Corpus)
இணைத் தரவுத்தொகுதி இரு மொழிகளுக்கு மாற்றமைவு விதிகளை (Transfer Rules) உருவாக்க முக்கியமான மூலவளமாகும். இது புள்ளியியல் அல்லது எடுத்துக்காட்டு அடிப்படையிலான இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறைகள் உருவாக்கத் துணைபுரியும். இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறைகளை உருவாக்குவதற்கு இணைதரவுகளின் பத்திகள், வாக்கியங்கள், சொற்கள் இவற்றை வரிசையாக்கம் செய்ய வரிசையாக்கக் கருவிகள் தேவை. சில வெளியீட்டாளர்களிடமும் அரசு நிறுவனங்களிலும் இம்மாதிரியான இணைத் தரவுத்தொகுதிகள் விளைவாக்கம் உள்ள ஒழுங்குமுறைகளை உருவாக்க வேண்டி ஆராய்ச்சியாளர்களிடம் பயன்படுத்தத் தரப்பட வேண்டும்.
5. மாற்றமைவு இலக்கணம் (Transfer Grammar)
மாற்றமைவு இலக்கணம் இரு மொழிகளின் தொடரியல் அமைப்புக்கு இடையில் முரண் வேறுபாடுகளை அறிந்து கொள்கிறது. மாற்றமைவு அணுகுமுறைகளை உருவாக்க இம்மாதிரியான மாற்றமைவுப் பகுதியை உருவாக்குவது கட்டாயமாகும். மொழிகளைப் பற்றிய ஆழ்ந்த அறிவுள்ள மொழியியலார் இம்மாதிரியான மூலவளத்தை உருவாக்கலாம்.
6. இணைவமைதி அகராதிகள் (Collocation Dictionary)
இணைவமைதி அகராதி மொழியின் மயக்கமான சொற்களின் முறையான சேர்க்கைகளைக் கொண்டிருக்கும். அம்மாதிரியான அகராதி பொருண்மை மயக்க நீக்கத்திற்கு முக்கியமான பகுதியாகும். தமிழுக்கு அம்மாதிரியான மூலவளத்தைச் சில ஆய்வாளர் குழுமங்கள் செய்து வருகின்றது.
1.9. முடிவுரை
இதுவரை இவ்வாய்வேட்டின் பின்னணியாக வரும் இயந்திர மொழிபெயர்ப்பு பற்றி விரிவாகக் கூறப்பட்டது. இயந்திர மொழிபெயர்ப்பின் பல பரிமாணங்கள் இங்கு விளக்கப்பட்டுள்ளன. இந்தியாவிலும் தமிழ்நாட்டிலும் மேற்கொள்ளப்பட்ட இயந்திர மொழிபெயர்ப்பு முயற்சிகள் பற்றி கூறப்பட்டுள்ளது. இயந்திர மொழிபெயர்ப்புக்குச் செய்யப்பட வேண்டிய முறையான ஆய்வுச் செயல்பாடுகள் குறித்து விளக்கங்கள் தரப்பட்டுள்ளன.
கருத்துகள் இல்லை:
கருத்துரையிடுக