Monday, September 6, 2010

On Machine Translation (In Indian context and Hindi Homonymys)

On Machine Translation (In Indian context and Hindi Homonymys)

आधुनिकीकरण के युग में भारतीय विद्वानों को यह कभी नहीं भूलना चाहिए की भारत एक बहुभाषिक देश है। बहुभाषिकता की समस्या को अनुवाद के माध्यम से दूर किया गया लेकिन सूचना प्रौद्योगिकी(Information Technology) के युग में भाषा का मुकाबला मशीन से है। वर्तमान युग में वैश्विक स्तर पर मशीनी अनुवाद के क्षेत्र में कुछ प्रमुख समस्याओं को निम्न रुप से देख सकते हैं, जिनका निराकरण अभी नहीं हो पाया है। समान उच्चारण वाले भिन्नार्थक शब्द (Homonymy), वाक्यगत द्विअर्थकता(Syntactical Ambiguity), संदर्भ परक द्विअर्थकता(Referential Ambiguity), अस्पष्ट पद (Fuzzy), संकेत, कहावतें, मुहावरे(Metaphors and Symbols), विकसित नए शब्द(New Vocabulary Development) आदि। इन समस्याओं में Homonymy की समस्या एक प्रमुख समस्या है, जिसपर वैश्विक स्तर पर विचार किया जा रहा है। आवश्यकता है कि भारतीय भाषाओं में भी इस विषय पर अनुसंधान हो। “Homonym” शब्द ग्रीक के Homo + onyms शब्दों के पूर्वसर्ग और परसर्ग से बना है । जिसका हिंदी अर्थ “समान उच्चारण वाले भिन्नार्थक शब्द” है। छोटे बच्चे, सामान्य पाठक, श्रोता, मानव द्वारा किये जा रहे अनुवाद (Human Translation), आशु अनुवाद(interpretion), नई भाषा सीखते समय(Language Acquisition), और कृत्रिम बुद्धि निर्माण-कर्ता विशेषज्ञों (Artificial Intelligence specialists) को समान उच्चारण वाले भिन्नार्थक शब्दों (Homonymy) के कारण अर्थ के अस्पष्टता की समस्या उत्पन्न होती है। मानव अपनी कुशाग्र बुद्धि, पूर्व संदेशों की सहायता एवं शारीरिक गतिविधियों को देखते हुए संदेशों का अर्थ समझता है। यह प्रक्रिया पूर्ण रुप से मानव मस्तिष्क पर आधारित है, जो मानव मस्तिष्क में होने वाले विशिष्ट कोश, वैश्विक ज्ञान एवं भाषिक ज्ञान की सहायता से पूर्ण होती है। इस समस्या के निराकरण के लिए मशीन को मशीन की भाषा से अवगत कराया जाता है लेकिन यह भाषिक साधन अभी पूर्ण रुप से विकसित नहीं हुए हैं। मशीनी अनुवाद की इन समस्याओं में समान उच्चारण वाले शब्दों (Homonyms) की समस्या गंभीर रुप से सामने आई है। समान उच्चारण वाले शब्दों के निराकरण की समस्या विश्व के अधिकतम मशीनी अनुवाद यंत्रों में है। मशीनी अनुवाद में निर्माण होने वाली इस वैश्विक स्तर की समस्या पर हिंदी – मराठी मशीनी अनुवाद में यह पहला अनुसंधान है।
इस अनुसंधान के प्रथम अध्याय में मशीनी अनुवाद की समस्याओं के संबंध में चर्चा की गई है। इसी के साथ मशीनी अनुवाद का संक्षिप्त इतिहास और प्राकृतिक भाषा संसाधन(एनएलपी) की भी चर्चा की गई है। भारतीय एवं पाश्चात्य भाषाओं के मशीनी अनुवाद यंत्रों से तुलना करने के उद्देश्य से मशीनी अनुवाद की समस्याओं को वैश्विक स्तर के म.अनु. की समस्याओं एवं भारतीय भाषाओं के म.अनु. की समस्याओं में विभाजित किया गया है।
द्वितीय अध्याय में अनुसंधान के प्रमुख विषय समान उच्चारण वाले भिन्नार्थक शब्द, समान उच्चारण वाले भिन्नार्थक शब्दों के प्रकार और समान उच्चारण वाले भिन्नार्थक शब्दों के सामान्य व्याकरणिक सूत्रों पर चर्चा की गई है। जिसमें Homonymy शब्दों के प्रकारों की समस्याओं को मानव द्वारा किये जाने वाले अनुवाद एवं मशीनी अनुवाद में किस प्रकार समस्याऐं उत्पन्न होती है, मनुष्य इन समस्याओं का किस प्रकार समाधान निकालता है। इस पर विचार किया गया है।
तृतीय अध्याय में समान उच्चारण वाले भिन्नार्थक शब्दों का विभाजन दो भागों में किया गया है। १. समान लिपि , समान उच्चारण , भिन्नार्थक शब्द और २. भिन्न लिपि, समान उच्चारण, भिन्नार्थक शब्द। विभाजीत शब्दों का हिंदी-मराठी शब्दों का संकलन किया गया है। संकलित शब्दों पर विस्तृत चर्चा कर हिंदी से मराठी में उचित अर्थों को स्पष्ट किया गया है। Homonymy शब्दों को व्याकरणिक कोटियों की सहायता से स्पष्ट किया गया है, जिससे शब्द का अर्थ स्पष्ट हो सके। यह पाठ हिंदी-मराठी मशीनी अनुवाद में प्राकृतिक भाषा संसाधन के भाषिक संसाधनों में समान उच्चारण वाले भिन्नार्थक शब्दों की अस्पष्टता को दूर करने के लिए भाषा संसाधन(Language Tool) निर्माण में लघु शब्दकोश के रुप में महत्वपूर्ण योगदान देगा।
चतुर्थ अध्याय मुख्य रुप से ’कंम्प्यूटर भाषा प्रोग्रामिंग’ के लिए रखा गया है जिसमें अनेकार्थक शब्दों पर किये गये अनुसंधान की सहायता से मशीनी अनुवाद करते समय यह कार्य किस प्रकार सहायता करेगा इसकी प्रोग्रामिंग की गई है। जिसके निर्देशानुसार Homonymy शब्दों के विशिष्ट सहायक लघु शब्दकोश(Special Dicationary) की सहायता से मशीन कार्य करेगी। इसी के साथ कुछ व्याकरणिक नियमों की सहायता से भी कलन-विधि संपन्न की गई है।
अनुसंधान का अंतिम अध्याय अनुसंधान के उपयोग को स्पष्ट करता है। जिससे किया गया कार्य किसी भी प्रकार केवल सिद्धांतों तक ही सीमित न रह पाये। उपयोगिता को स्पष्ट करने के लिए हिंदी-मराठी शब्द-जाल एवं मशीनी अनुवाद में अनुसंधान का अधिक से अधिक किस प्रकार उपयोग होगा इस पर चर्चा की गई है। यह अनुसंधान कार्य पाँच अध्यायों में लिखा गया है जिसे अनुसंधान की आवश्यकता के अनुसार विभाजित किया गया है।
२००६ में भारत सरकार ने मशीनी अनुवाद के संबंध में काफी सकारात्मक रवैया अपनाते हुए भारत की अधिकतर प्रमुख भाषाओं में मशीनी अनुवाद यंत्र बनाने की परियोजना बनाई है। जिसके निर्माण से मशीनी अनुवाद जगत में वैश्विक स्तर पर एक नया इतिहास बन जायेगा लेकिन यह कार्य काफी कठिन है। भारतीय भाषाओं से भारतीय भाषाओं में मशीनी अनुवाद यंत्र निर्माण की यह परियोजना केवल मशीनी अनुवाद के लिए ही नहीं बल्कि संपूर्ण अनुवाद क्षेत्र के लिए काफी सकारात्मक है। जिसका विवरण टेबल नंबर एक में देख सकते है।

Tabl. NO.11: Marathi-Hindi MT is one of the major language pair in this project.

No comments:

समय