தமிழ் மலையாளம் இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறை
(TAMIL-MALAYALAM MACHINE TRANSLATION SYSTEM)
செ. வீர அழகிரி
மொழியியல் துறை
தமிழ்ப் பல்கலைக் கழகம்
தஞ்சாவூர் 613 010
மார்ச்சு 2011
இவ்வாய்வேடு தமிழ்-மலையாளம் இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறையைப் பற்றி விளக்குகின்றது.
இந்திய மொழிகளிலிருந்து இந்திய மொழிகளுக்கான இயந்திர மொழிபெயர்ப்புத் திட்டம் இணையம் அடிப்படையிலான மொழிபெயர்ப்பு திட்டம் ஆகும், 2006 அக்டோபரிலிருந்து மைய அரசின் கருத்துப் பரிமாற்றம் மற்றும் தகவல் தொழில் நுட்ப அமைச்சின் கீழ் தகவல் தொழில் நுட்பத் துறையின் நிதி நல்கையால் நடைபெற்று வருகின்றது. இதன் முதல் நிலை 2006 அக்டோபர் 30-ஆம் நாள் தொடங்கப்பட்டு 2010 ஏப்பிரலில் முடிவுற்றது. இத்திட்டம் இந்திய மொழியிலிருந்து மற்றொரு இந்திய மொழிக்கு இயந்திர மொழிபெயர்ப்பை உருவாக்கும் இணையம் அடிப்படையிலான மொழிபெயர்ப்புத் திட்டமாகும். இந்த ஒழுங்குமுறை இரு திசையில் செயல்படும் மற்றும் பொதுவான களத்தில் பின்வரும் மொழிகளுக்கிடையில் செயலாற்றும்.
தமிழ் - இந்தி
தெலுங்கு - இந்தி
மராத்தி - இந்தி
பெங்காளி - இந்தி
தமிழ் - தெலுங்கு
உருது - இந்தி
கன்னடா - இந்தி
பஞ்சாபி - இந்தி
மலையாளம் - தமிழ்
இந்திய மொழி பேசுபவர்கள் இந்த ஒழுங்குமுறையைப் பயன்படுத்துவார்கள். இந்த ஒழுங்குமுறையைக் கற்றல் நுட்பங்களைப் (Machine learning teachiques) பயன்படுத்தி மேம்படுத்த இயலும். இந்த ஒழுங்குமுறை சுற்றுலா மற்றும் உடல் நலம் என்ற இரண்டு குறிப்பிட்ட களங்களுக்கு இயந்திர மொழிபெயர்ப்பைச் செய்யும். இத்திட்டத்தின் ஒரு பகுதியான தமிழ்-மலையாளம் இயந்திர மொழிபெயர்ப்பு இராஜீவ் காந்தி நிதி உதவிபெறும் என்னால் எடுத்துக்கொள்ளப்பட்டு நடைமுறைப்படுத்தப்பட்டுள்ளது.
நோக்கம்
தமிழ்-மலையாளம் இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறையை உருவாக்குவதுதான் இவ்வாய்வேட்டின் தலையாய நோக்கம் ஆகும்.
கருதுகோள்
இயந்திரமொழி ஒழுங்குமுறையை குறிப்பிட்ட செயல்பாட்டைச் செய்யும் சிறு பகுதிகளாகப் பகுத்துக்கொண்டு இயந்திர மொழிபெயர்ப்பு செய்வது தவறுகளைக் கண்டுபிடித்துத் திருத்த உதவும் என்பது இவ்வாய்வின் தலையாய குறிக்கோளாகும். குறிப்பிட்ட பொருண்மைக் கள அடிப்படையில் (சுற்றுலா, உடல்நலம்) இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறையை உருவாக்குவது பொதுவான பொருண்மைக் கள அடிப்படையில் உருவாக்குவதை விட எளிமையானதாகும்.
நோக்கமும் வாய்ப்பும்
இந்த ஒழுங்குமுறை நிலைப்பேறு பெற்ற மொழியில் எழுதப்பட்ட இணைய பக்கங்கள் அல்லது கால இதழ்கள், நாளிதழ்கள் மீது வேலை செய்யும். சரியான தன்மை, பயன்படுத்துவோர் திருப்தி (accuracy / user satisfaction ), 85 % - 90 % விழுக்காடு திறமையுடன் களம் சிறப்பிக்கப்பட்ட இயந்திர மொழிப்பெயர்ப்பின் முழுமையான அமைப்பு உருவாக்கப்பட்டும் மற்றும் 80– 85 % திறமையுடன் பொதுப் பயன்பாடு இயந்திர மொழிபெயர்ப்பு அமைப்பு உருவாக்கப்படும்.
நெறிமுறை
இந்திய மொழி இயந்திர மொழிபெயர்ப்பு ஒழுங்கு முறை பல இயற்கைமொழி ஆய்வு ஆய்வுக் குழுவினர் பங்களிப்பால் உருவாக்கப்பட்டுளது. இந்திய மொழி பெயர்ப்பு ஒழுங்குமுறை உருவாக்கத்தில் பெரிய செயல்பாடு சிறிய செல்பாடுகளாப் பகுக்கப்பட்டுள்ளது. பங்களிக்கும் ஒவ்வொரு குழுவினரும் ஒன்றோ அதற்கு மேலோ வேளைகளை எடுத்துக்கொண்டு இணையாக வேலை செய்கின்றனர். பெரும்பாலான பகுதிகள் மொழிச் சுதந்திரமான (language independent engine) இயந்திரமாகவும் மொழிச் சிறப்பான தரவாகவும் (language specific data) பகுக்கப்பட்டுள்ளது. இது போல் ஒரு மொழிக் குழுவினர் ஒரு குறிப்பிட்ட மொழிக்குத் தரவைத் தருவர். ஒரே இயந்திரம் பல மொழிகளுக்கு வேலை செய்யும்.
பகுதிகளாக அமைத்தல்
இந்திய மொழிபெயர்ப்பு ஒழுங்குமுறை பல பகுதிகளைக் கொண்டது. ஒவ்வொரு பகுதியும் ஒரு தர்க்கம்சார் வேலையைச் செய்யும்; பெரும்பாலும் இந்த வேலை சிறியதாகும். இதன் காரணமாக ஏதாவது மாற்றம் ஏற்பட்டால் சிறிய பகுதியில் அதை எளிதாகச் செய்யவியலும்.
சக்தியின் தரமான அமைப்பு (Shakthi Standard Format (SSF)
எல்லாப் பாகங்களும் (modules)வடிவ அமைப்பு நிர்ணயிக்கப்பட்ட தரவின் ஒழுக்கில் செயல்படும். ஒரு பகுதி அதன் வேலையில் வெற்றி பெற்றால் அதன் வெளியீட்டு ஒழுங்கு புதிய சின்னத்தையோ ஆய்வையோ சேர்க்கும். பெரும்பாலான பகுதிகளுக்குத் தனிப்பகுதிகளின் வட்டாரச் சிக்கல்களை உறுதியான கட்டுப்பாட்டில் வைக்க இந்த அணுகுமுறை உதவும்.
தோல்விகளை நேர்செய்தல்
(SSF) வடிவமைப்பு பகுதியின் ஒவ்வொரு நிலையில் ஏற்படும் தோல்விகளை நேர்செய்ய வசதி செய்யும். எடுத்துக்காட்டாக அதே SSF -இன் மீது அதன் சின்னத்தின் மதிப்பை விளைவிக்கத் தவறினால் கீழ் ஒழுக்குப் பகுதிகள் ( down streom modules ) தரவின் ஒழுங்கின் மீது தொடர்ந்து செயல்படும்.
தெளிவு
இந்தியமொழி இயந்திர மொழிப்பெயர்ப்பில் SSF வடிவமைப்பின் பயன்பாடு ஒவ்வொரு பகுதியின் உள்ளீட்டிற்கும் வெளியீட்டிற்கும் முன் நிகழ்ந்திராதத் தெளிவைப் பெற உதவுகிறது. ஒரு பகுதியின் உரை சார் வெளிப்யீடு மனிதப் பயன்பாட்டிற்கு மட்டுமல்லாமல் அதன் உள்ளீடாக தரவு ஒழுக்கில் அடுத்து வருகிற பகுதியிலும் பயன்படுத்தப்படும்.
டாஷ்போர்டு
இந்திய மொழி மொழிபெயர்ப்பின் எல்லாப் பகுதிகளும் டாஷ்போர்டின் (dash board) உதவியால் இயங்குகிறது. இது குறிப்பிட்டபடி தரவு ஒழுக்கின் பைப்லைன்களை உருவமைப்பு செய்கிறது. இருப்பினும் பைப் லைன்களுக்குப் பதிலாக எல்லாப் பகுதிகளும் செயல்படும் பங்கிடப்பட்ட நினைவகத்தையோ பிளாக் போர்டையோ (Black Board) நிறுவுவதால் ஒங்குமுறையை விரைவுப்படுத்த இயலும். இருப்பினும் இது பங்கிடப்பட்ட நினைவாகத்தில் (அல்லது நினைவக உருப்படுத்தத்தில் SSF) இயங்குவதற்கு வேண்டி பகுதிகள் எழுதப்பட்டிருக்கவேண்டும் என்று அவசியப்படும்.
முழுவிளக்கம்
இந்திய மொழியிலிருந்து இந்திய மொழிக்கான மொழிபெயர்ப்பு ஒழுங்குமுறை ஆய்தல் - மாற்றியமைத்தல் - உருவாக்குதல் என்ற மேற்கோள் வாய்ப்பாடு அடிப்படையில் செயல்படும். முதலாவது மூலமொழியின் ஆய்வு செய்யப்படும். பின்னர் இலக்குமொழிக்குச் சொற்றொகையும் ஆயப்பட்ட அமைப்பும் மாற்றம் செய்யப்படும். இறுதியாக இலக்கு மொழி உருவாக்கப்படும்.
இந்திய மொழிகள் ஒற்றுமையுள்ளதாக இருப்பதாலும் இலக்கண அமைப்புகளைப் பங்கீட்டுக் கொள்வதாலும் ஆழமற்ற பகுத்துக் குறித்தல் செய்யப்படும். மாற்றமைவு இலக்கணப் பகுதி எளிமையாக வைக்கப்படும். பொருண்மை களச் சிறப்புப் பெயரிடப்பட்ட சொற்களின் புரிந்து கொள்வான்களாலும் பொருத்தமான அகராதி போன்றவற்றாலும் கையாளப்படும். ஆழமற்ற பகுத்துக் குறித்தலானது, உருபனியல் ஆய்வு, சொல் வகைப்பாடு அடையாளப்படுத்தல் மற்றும் தொடர்பகுத்தல் என்பனவற்றை உள்ளடக்கும். முதலாவது (உருபனியல் பகுத்தாய்வு ) விதி அடிப்படையிலானது; இரண்டாவது (சொல் வகைப்பாடு அடையாளப்படுத்தல்) புள்ளியியல் அடிப்படையிலானது; மூன்றாவது (தொடர்ப்பு) விதி அடிப்படை மற்றும் புள்ளியியல் அடிப்படை இரண்டும் இணைந்தது. முழு ஆய்வு வேலையும் பல பாகங்களாகப் பிரிக்கபட்டுள்ளது. ஒவ்வொரு பாகமும் சிறிய தர்க்க வேலையைச் செய்யும். இந்த ஒழுங்குமுறையின் முழு அமைப்பும் கீழே தரப்பட்டிருக்கும் படத்தில் காட்டப்பட்டுள்ளது.
மாற்றம்
மூலமொழி இலக்குமொழி
இணையதள மூலம் மொழிபெயர்ப்பு
TOCHTML வெளியீடு
பனுவல் சேகரிப்பான்
பகுக்கப்படாத உரை
உரை சுத்திகரிப்பவர்
உரை முன் பகுப்பாய்வி
மாற்றுதரவுடன் தரம்
சொற்களாகப் பிரிப்பான்
SSF
புணர்ச்சி பிரிப்பான்
உருபனியல் பகுப்பாய்வி
சொல்வகை அடையாளப்படுத்தி சொல்வகை அடையாளப்படுத்தப்பட்ட தரவு
சொல்வகைபாடு அடையாளப்படுத்தும்
சொல் உருவாக்கி இயந்திரம்
உருபன் தரவு இயந்திரம்
தொடர் பகுப்பான் அடையாளப்படுத்தப் படாதவை
தொடர் பகுத்தல்
தொடர் பகுக்கும் இயந்திரம்
வாக்கிய உருவாக்கி இயந்திரம் உடன்பாட்டு விதிகள்
வட்டார சொல் குழுமி
பெயரிடப்பட்ட சொல் அறிவான்
தரவு மைய விதிகள்
மூலமொழியிலிருந்து இலக்கு மொழிக்கு மாற்றல் பொருத்தி மற்றும் அறிவான்
மூல மொழி இலல்கு அகராதி
எளிய பகுத்துக் குறிப்பான்
சொல் அர்த்தமய நீக்கல்
ஒவ்வொரு முக்கியமான பகுதியும் கீழே விளக்கப்பட்டுள்ளன. ஒவ்வொரு பகுதியும் அதற்கு நேரே தரப்பட்டுள்ள முக்கிய வேலையைச் செய்கின்றன. இருப்பினும் முக்கிய வேலை தவிர அவை சில முன்னாய்வையும் (Preprocessigs) பின்னாய்வையும் (Post processing) செய்கின்றன. எடுத்துக்காட்டாகத் தொடர்பகுப்பான் பகுதி தொடர் பகுதிகளைக் கண்டுபிடிக்கின்றன. இவ்வாறு தொடர்பகுப்பான் பகுதி முக்கிய வேலையான தொடர் பகுத்தலைச் செய்கின்றது. இருப்பினும் தொடர் பகுதியின் தலைமையைக் கண்டுபிடிக்கும் பின்னாய்வையும் செய்கின்றது. மேலும் தலைமைப் பண்புக் கூறுகளைத் தொடர்பகுதியின் பண்புக்கூறுகளாக நகல் செய்கின்றது.
ஆய்வின் பின்வரும் இயல்களைக் கொண்டுள்ளது.
இயல்1: முன்னுரை
இயல் 2: இயந்திர மொழிபெயர்ப்பு ஒழுங்குமுறை
இயல் 3: தமிழ்மொழிப் பகுப்பாய்வு
3.1. சொற்களாகப் பிரித்தல்
3.2. சந்திபிரித்தல்
3.3. உருபனியல் பகுப்பாய்வு
3.4. சொல்வகைப்பாட்டு அடையாளப்படுத்தல்
3.5. தொடர் பகுத்தல்
3.6. தேவையற்றதை நீக்குதல்
3.7. தலைப்பு கணித்தல்
3.8. விபக்தி கணித்தல்
3.9. இயற்பெயர்களைக் கண்டுகொள்ளுதல்
3.10. எளியத் தொடரியல் பகுப்பு
3.11. சொல்நிலையில் மயக்கம் நீக்கல்
இயல் 4; தமிழ்-மலையாளம் மாற்றம்
4.1 மாற்றம் செய்யும் இலக்கணம்
4.2. சொல்நிலை மாற்றம்
4.3 எழுத்துப் பெயர்ப்பு
இயல் 5: மலையாள மொழி உருவாக்கம்
5.1 வாக்கிய நிலை உருவாக்கம் ( sentence level generation )
5.2 வட்டாரச் சொல் குழுமப் பிரிப்பான் ( local word group splitter )
5.3 சொல் உருவாக்கம் ( morphological generation )
இயல் 6: முடிவுரை
இயல் 1: முன்னுரை
இவ்வியலில் ஆய்வின் நோக்கம், கருதுகோள்கள், ஆய்வு நெறிமுறை, ஆய்வின் அமைப்பு, ஆய்வின் பயன்பாடு என்பன விளக்கப்பட்டுள்ளன.
இயல் 2: இயந்திரமொழிபெயர்ப்பு ஒழுங்குமுறை
இவ்யியலில் இயந்திர மொழிபெயர்ப்பு பற்றி விரிவாகக் கூறப்பட்டுள்ளது. முந்தைய இயந்திர மொழிபெயர்ப்பு முயற்சிகள், இன்றைய இயந்திர மொழிபெயர்ப்பு நடைமுறை, இந்தியாவில் இயந்திர மொழிபெயர்ப்பு முயற்சிகள் என்பன குறித்து விளக்கப்பட்டுள்ளன.
இயல் 3: தமிழ்மொழிப் பகுப்பாய்வு
இவ்வியலில் பின்வரும் தலைப்புகளில் தமிழ் மொழிப் பகுப்பாய்வு விளக்கப்பட்டுள்ளது: சொற்களாகப் பிரித்தல், சந்திபிரித்தல், உருபனியல் பகுப்பாய்வு,. சொல்வகைப்பாட்டு அடையாளப்படுத்தல், தொடர் பகுத்தல், தேவையற்றதை நீக்குதல், தலப்பு கணித்தல், விபக்தி கணித்தல், இயற்பெயர்களைக் கண்டுகொள்ளுதல், எளியத் தொடரியல் பகுப்பு, சொல்நிலையில் மயக்கம் நீக்கல்
சொற்களாகப் பிரித்தல்
இப்பகுதில் தமிழ் உரை சொற்களாக முதலில் பிரிக்கப்படும்.
சந்திபிரித்தல்
தமிழ் மொழி உருபனியல் அடிப்படையிலும் சொல்லடிப்படையிலும் ஒரு கலவைத்தன்மையான மொழியாகும். எனவே சொற்கள் கலவைத்தன்மையாக இருக்கும். இச்சொற்கள் பகுத்தாயத்தக்க விதத்தில் எளிய சொற்களாக அல்லது தனிநிலைச் சொற்களாக சந்தி விதிகளைப் பயன்படுத்தி பிரிக்கப்படும்.
உருபனியல் பகுப்பாய்வு
ஒரு சொல் தரப்படும் போது உருபனியல் ஆய்வி அதன் வேரையும் சொல்லின் இலக்கணப் பண்புக்கூறுகளையும் அடையாளங்கண்டு கொள்கிறது. திரிபு வளம் இல்லாத மொழிகளுக்கு எல்லாச் சொல் வடிவுகளையும் கொண்ட எளிய அகராதி நோக்கீடு போதுமானது. தமிழ், மலையாளம் போன்ற திரிபு வளமுள்ள மொழிகளுக்கு அகராதியை உருவாக்குவது எளிதல்ல. இது பெரிய சேகரிப்பையும் உயர்ந்த செயல்பாட்டுக் கணிப்பையும் வேண்டும். இதற்கு நல்ல மாற்று வழி வேர்ச்சொற்களின் அகராதியை வைத்துக் கொண்டு உருபனியல் ஆய்வியைப் பயன்படுத்தி சொல் வடிவை வேராகவும் இலக்கணப் பின்னுருபுகளாகவும் பிரிப்பதாகும்.
மேற்கோள் வாய்ப்பாடு அடிப்படையிலான அணுகுமுறைகள் (Paradigm based approaches) இந்திய மொழிகளுக்கு நல்ல வெற்றி மதிப்பீட்டைத் தருகிறது.
சொல்வகைப்பாடு அடையாளப்படுத்தல்
சொல்வகை அடையாளப்படுத்தல் வாக்கியத்தில் உள்ள ஒவ்வொரு சொல்லுக்கும் ஒரு சொல் வகைப்பாட்டைத் தருவதாகும். வாக்கியத்தில் உள்ள ஒவ்வொரு சொல்லுக்கும் பெயர்கள், வினைகள், பெயரடைகள், வினையடைகள் என்று அடையாளம் தருவது ஒரு வாக்கியத்தில் ஒவ்வொரு உறுப்பின் பங்களிப்பையும் ஆய்வதற்கு உதவும். சொல்வகைப்பாட்டு அடையாளப் படுத்துவதற்கு விதி அடிப்படை, புள்ளியியல் அடிப்படை போன்ற பல அணுகுமுறைகள் இருக்கின்றன. இங்கு புள்ளியல் அணுகுமுறை பின்பற்றப்படுகின்றது.
தொடர் பகுத்தல்
தொடர்பகுத்தல் (Chunking) என்பது ஒரு வாக்கியத்தில் உள்ள எளிய பெயர்த்தொடர்கள், வினைக்குழுமங்கள், பெயரடை தொடர் மற்றும் வினையடை தொடர்களை அடையாளம் காண்பது ஆகும். இது தொடர்பகுதி மற்றும் புலக்குறிப்பு இவற்றின் எல்லையை அடையாளங்காண்பதை உட்படுத்தும்.
வட்டாரச் சொல் குழுமி (Local Word Grouper)
வட்டாரச் சொல் குழுமி விபக்தி கணினியாக்கத்தின் (Vibhakti Computation) தொழில்நுட்ப வேலையைச் செய்யும். தனிச்சொற்களாக வரும் துணை வினைகள் தனிப் பொருளடக்கச் சொற்களாகக் கருதப்படுவதில்லை. ஏனென்றால் அவை முதன்மை வினையின் தலைமையாக இருக்கும் தொடர்பகுதியின் இலக்கணப் பண்புக் கூறுகளைச் சிறப்பீடு செய்யும். இது இந்தியில் தனிச் சொற்களாக வருகின்ற பெயர்விபக்தி என்று அழைக்கப்பெறுகின்ற பின்னுருபுகளுக்கும் உண்மையாகும். வட்டாரச் சொல் குழுமி பொருத்தமான கலவை நிலை மாறும் கூட்டுநிலை சொல் குழும ஆக்க விதிகளைத் திறமையாகக் கையாளும். முக்கியமான வேலை வட்டாரத் தகவல் அடிப்படையில் செயல்பாட்டுச் சொற்களைப் (Functional Words) பொருளடக்கச் சொற்களுடன் (Content Words) குழுமுவதாகும். இந்த வேலையை நிறைவேற்ற பயன்படுத்தப்படும் ஒரு செயல்முறை கிரியரூப்பா அட்டவணைகளைப் (Kiya rupa Charts) பயன்படுத்துவதாகும். இந்த அட்டவணைகள் ஒரு தனி செயல்பாட்டைக் குறிக்கும் தொடர்ச்சியான வினைகளிலிருந்து உருவாக்க வேண்டிய குழுமங்களைச் சிறப்பீடு செய்யும்.
இயல் 4: தமிழ்-மலையாளம் மாற்றம்
இங்குப் பின்வரும் தலைப்புகளில் தமிழ்-மலையாளம் மாற்றம் பற்றி விளக்கப்படும்: மாற்றம் செய்யும் இலக்கணம் , சொல்நிலை மாற்றம், எழுத்துப் பெயர்ப்பு.
மாற்றம் பகுதி (Transfer Module)
மொழியாய்வில் வாக்கியங்கள் அவற்றின் தொடரமைப்பை அடையாளம் காண்பதற்காகப் பகுத்துக் குறிக்கப்பெறும். இந்திய மொழிகளுக்குள் வேறுபாடுகளை விட ஒற்றுமைகள்தான் அதிகம். எடுத்துக்காட்டாகத் தமிழ், மலையாளம் மொழிகளின் முழு பகுத்துக் குறித்தலை வேண்டாது. இத்திட்டத்தில் இயந்திர மொழிபெயர்ப்பு முழு வாக்கியப் பகுத்துக் குறிப்பான் இல்லாது நிறைவேற்றப்படும். மூலமொழியின் அமைப்பிற்கு இலக்குமொழி அமைப்பில் நிகரான அமைப்பு இல்லாவிட்டால் அமைப்பு சார் மாற்றம் தேவைப்படும். ஒரு பகுதி பகுத்துக் குறித்தல் அல்லது ஆழமற்ற பகுத்துக் குறித்தல் மாற்றத்திற்கு உட்படுத்தப்படும் வாக்கியங்களின் குறிப்பிட்ட உறுப்புகளை அடையாளம் கண்டால் போதுமானது.
மொழிகளுக்கிடையில் உள்ள தொடரியல் வேறுபாடு கலவை வாக்கிய கட்டுமானங்களில், குறிப்பாக எச்சத்தொடர்களில் காணப்படும். இது மாற்றமைவு இலக்கணத்தால் இணைக்கப்படும். இந்தப் பகுதி எழுத்துருவாக்கத்தின் வேலையையும் உட்படுத்தும். இந்திய மொழிகளுக்குள் (உருது மொழியை உள்ளடக்கி) எழுத்துருவாக்கத்தை நிறைவேற்றும் ஒரு பகுதி உருவாக்கப்பட வேண்டும். எழுத்துருவாக்கம் சொல்லையோ சொற்களையோ படிப்பவரின் எழுத்துக்கு மாற்றுகிறது. எடுத்துக்காட்டாக ஒருவருக்கு தமிழ் தெரிந்திருந்தால் தமிழ் எழுத்துருவில் மலையாள உரையைப் படிக்க இயலும் என்றால் அதன் பொருளின் சில பாகங்களை அவரால் புரிந்து கொள்ள முடியும். மொழிபெயர்ப்பு ஒரு சொல்லுக்கோ ஒரு தொடர் பகுதிக்கோ தோற்றுப்போனால் எழுத்துருவாக்கம் படிப்பவரை படிக்கவும் புரிந்து கொள்ளவும் அனுமதிக்கும். இந்திய மொழிகள் பல எண்ணிக்கையிலான சொற்களைப் பங்கிட்டுக் கொண்டுள்ளன. எனவே படிப்பவருக்கு ஏற்றவாறு எழுத்துருமாற்றம் செய்தால் அவரால் மூலமொழியில் உள்ள உரையிலிருந்து சிலவற்றைப் புரிந்து கொள்ள இயலும்.
இருமொழிய அகராதி பொருத்தம் (Bilingual Mapping)
உருபனியல் பகுப்பாய்வால் அடையாளம் காணப்பட்ட வேர்ச்சொல் இலக்குமொழி நிகரன்களுக்கு வேண்டி இருமொழி அகராதியில் பார்க்கப்படும். இந்த இருமொழி அகராதி இலக்கு மொழியின் வேர்ச்சொல் நிகரன்களையும் அதன் வகைப்பாடு (பெயர், வினை போன்றவை) மேற்கோள் வாய்ப்பாடு மற்றும் பிற தேவையான தகவல்களைக் கொண்டிருக்கும். இந்த நிலை மூலமொழி இலக்கணம் பின்னுருபுகளுக்கு இலக்கு மொழி நிகரன்களை அடையாளம் காண அகராதியைப் பயன்படுத்துகிறது.
இயல் 5: மலையாள மொழி உருவாக்கம்
இவ்வியலில் பின்வரும் தலைப்புகளில் மலையாள மொழி உருவாக்கம் விளக்கப்படும்: வாக்கிய நிலை உருவாக்கம் ( sentence level generation ), வட்டாரச் சொல் குழுமப் பிரிப்பான் (local word group splitter ), சொல் உருவாக்கம் ( morphological generation )
வாக்கியநிலை உருவாக்கம்
இந்தச் செயல்பாடு தேவையானால் தொடர்பான்களை முதன்மையாக நிரல் மாற்றியமைக்கும். சில வாக்கியநிலை நோக்குகளும் இந்தப் பகுதியால் கையாளப்படும். எடுத்துக்காட்டாக பெயர், வினை உடன்பாடு போன்றவை இங்கு கையாளப்படும். இந்த மட்டம் தொடர்பகுதி மட்ட ஆய்வாகும். வட்டாரச்சொல் வகுப்புகளைக் கொண்ட தொடர் பகுதிகளுக்குப் பொருத்தமான சொற்கள் (அப்படியிருந்தால்) உருவாக்கப்படும். முதன்மை வினை, துணை வினை உடன்பாடு போன்ற உள் தொடர் பகுதி உடன்பாடு இங்குக் காணப்படும்.
வட்டாரச்சொல் குழு பிரிப்பான்
இந்தப் பகுதி ஒரு சொல்லுக்கு விபக்தி மற்றும் பிற தகவல்களைக் கணிக்கும் மற்றும் அவற்றைத் தனிச்சொற்களாகத் திருப்பி அனுப்பும்.
உருபனியல் உருவாக்கம்
ஒரு குறிப்பிட்ட இலக்கண வகைக்காக ஒரு சொல்லை உருவாக்க வேர்ச்சொல்லுடன் பொருத்தமான பின்னொட்டுகள் இணைக்கப்பட வேண்டும். உருவாக்கி மொழியின் உருபனியலுக்குத் தக்கவாறு வேர்ச்சொல்லை திரிபுற செய்யும் மற்றும் இலக்குமொழி சொல் வடிவை வெளியிடும். இவ்வாறு உருவாக்கப்பட்ட சொற்கள் முழு இலக்குமொழி வாக்கியத்தை உருவாக்க இணைக்கப்படும்.
மதிப்பீடு செய்தல்
மதிப்பீடு செய்யும் இயக்க நுட்பம் தனி வாக்கியங்களுக்கும் உரைகளுக்கும் வேண்டி இறுதி பயன்பாட்டாளர்களுக்காக நிறுவப்படும். இது புரிந்து கொள்ளுதல் மற்றும் மொழிபெயர்ப்பு தரம் இவற்றிற்காக மதிப்பீடு செய்யப்படும்.
இரண்டாவது நிலையில் மதிப்பீடு ஒழுங்குமுறையின் வேகத்திற்காகவும் பயன்பாட்டிற்காகவும் செய்யப்படும்.
இயல் 6: முடிவுரை
இவ்வியலில் இவ்வாய்வின் கண்டுபிடிப்புகள், கருதுகோளின் நிறைவு, ஆய்வின் பயன்பாடுகள் என்பன விளக்கப்படும்.
ஆய்வின் பயன்பாடு
இயந்திர மொழிபெயர்ப்பு என்பது காலத்தின் கட்டாயமாகும். தமிழுக்கான தமிழில் இயந்திர மொழிபெயர்ப்பிற்கான முயற்சிகளில் நாம் ஈடுபட்டே ஆக வேண்டும். இல்லாவிட்டால் இருமொழிய (Bilingual) (ஆங்கிலம், தமிழ்) நிலையிலிருந்து ஒரு மொழிய நிலைக்கு (Mondingual)மாறிவருகின்ற நம் மாணவ சமுதாயத்தைக் காப்பாற்ற இயலாது போய்விடும். இணைய தளத்தில் கிடைக்கும் அறிவு மூலங்களைத் தமிழர்களாய நாம் பெறாது போய் விடுவோம். இதுபோல தமிழில் கிடைக்கும் அரிய தகவல்கள் பிற மொழியினவர்களுக்குப் போய்ச் சேராது. தகவல் பன்மடங்காகப் பெருகிவரும் இக்கால கட்டத்தில் தகவல் பரிமாற்றத்திற்கு இயந்திர மொழிபெயர்ப்பே விடையாகும்.
கருத்துகள் இல்லை:
கருத்துரையிடுக