भारत में मशीनी अनुवाद की समस्याएँ(Problems In Indian Machine Translation Systems)
भारत में संगणक की साक्षरता अभी पूर्ण रुप से नहीं आ पाई है, आज भी कई कार्यालयों में संगणक का उपयोग कम मात्रा में किया जाता है। इसी का नतीजा है कि भारत में सबसे पहले अनुवादक को अनुवाद सॉफ्टवेर की जटिलताओं और संगणक कार्य शैली की कुशलता से ज्ञात कराना पड़ता है। उन्हें यह भी ध्यान रखना होता है कि उपयोग कर्त्ता को विंडोज और “लिनिक्स” संगणक प्रणालियों के दोनों परिवेशों से ज्ञात कराना है। क्योंकि अनुसारका लिनक्स परिवेश में विकसित किया गया है यदि इन्हें विंडोज के परिवेश में विकसित किया जाता तो प्रयोक्ता उसका और अधिक लाभ उठा पाते।1 म.अनु. निर्माण कर्त्ताओं की इस गलती के कारण म.अनु. उपयोग कर्त्ताओं (म.अनु. users) को कई कठिनाईयाँ उठानी पडती हैं। अनुसंधान की पद्धतियों पर विचार किया जाए तो “दूसरे देशों में वैयक्तिक अनुसंधान भी होता है भारत में मशीनी अनुवाद के क्षेत्र में वैयक्तिक अनुसंधान नहीं होता इसके फलस्वरुप भारत जैसे देश में जहाँ कुल आबादी के ३% से भी कम लोग अंग्रेजी जानते हो (Sinha and Jain, 2003) वहाँ आवश्यकता है कि अंग्रेजी से भारतीय स्थानीय भाषा के लिए मशीनी अनुवाद यंत्र निर्माण किया जाये।” “Private research also in other countries but not in India. Consequently, in a country like India, where English is understood by less than 3% of the population (Sinha and Jain, 2003), the need for developing MT systems for translating from English into some native Indian languages is very acute.2
भारत एक बहुभाषी देश होने के कारण भारत में मशीनी अनुवाद की संभावनाओं को नकारा नहीं जा सकता। भारत में मशीनी अनुवाद की प्रक्रिया को अधिक गति प्रदान करना इस लिए भी महत्वपूर्ण है कि पाश्चात्य भाषाऐं भाषा प्रौद्योगिकी(Language Technology) में तेजी के साथ प्रगति कर रहे हैं। भारतीय भाषाओं को भी प्रौद्योगिकी एवं जागतिक स्तर पर अपनी भाषा की अस्मिता को बनाए रखने के लिए मशीनी अनुवाद में अधिक विकसित होना अत्यावश्यक है। जिससे भारतीय भाषाओं का प्रचार-प्रसार विश्व की अन्य भाषाओं की तरह समान रुप से चलता रहे। जिससें सभी भाषाओं का संतुलन बना रहे । किसी एक भाषा के अधिक विकसित होने या उपयोग में लाने से अन्य भाषाओं के विकास में बाधा तो पहुंचती ही है और कभी-कभी कम संख्या में बोली जाने वाली भाषा समाप्त हो जाती है। भारत के मशीनी अनुवाद यंत्रों की स्रोत भाषाओं पर विचार किया जाए तो भारत में अधिकतर मशीनी अनुवाद का कार्य अंग्रेजी से भारतीय भाषाओं में शुरु हुआ। अंग्रेजी भाषा की संरचना भारतीय भाषाओं से भिन्न होने के कारण कई समस्याओं का सामना करना पड़ा। आज भी मशीनी अनुवाद का प्रमुख कार्य अंग्रेजी से भारतीय भाषाओं के मशीनी अनुवाद यंत्रों पर ही होता है। संभवता इस संकल्पना में बदलाव की गुंजाइश दिखाई देती है। कुछ विद्वान भारत की सभी भाषाओं के लिए म.अनु. की संकल्पना करते हैं लेकिन भारत के सभी भाषाओं के लिए अनुवाद यंत्र निर्माण कर पाना आज की परिस्थिति में संभव नहीं है। To our knowledge there is no direct machine translation software development being done on Indian subcontinent languages – languages spoken by nearly twenty percent of the world’s people. The reasons are simple, the resources available for traditional machine translation are simply non-existent and the commercial viability of such development seems dim.3 However, the new field of research into statistical machine translation offers hopes that Tamil translation may be just around the corner, to the pleasure and social benefit of all. अब तक भारतीय उपमहद्वीप की भाषाओं के लिये कोई भी पूर्णत: मशीनी अनुवाद यंत्र निर्माण नहीं हो पाया है जबकि २०% लोग इन भाषाओं को बोलते हैं। इसका एक कारण यह भी है कि पारंपरिक मशीनी अनुवाद यंत्र में उपयोग किए जाने वाले भाषिक संसाधन लगभग अनुपलब्ध है, और ऐसे प्रयोगों की व्यावसायिक उपयोगिता बहुत ही सीमित है। तदोपरांत मशीनी अनुवाद में नए रुप से हो रहे अनुसंधान से आशा की जा सकती है कि तमिल अनुवाद यंत्र सामाजिक रुप से भी महत्वपूर्ण काम करेगा। “Two major problems exist in connection with machine translation and cross-language retrieval of Tamil (and other Indian languages). First is the lack of machine-readable resources for either machine translation or cross-language dictionary lookup. Such dictionaries need to be pared of poetic and Classical terminology and augmented with modern words as found in recent newspaper and Magazine texts. Tamil is a phonetic language. By default each Tamil consonent is followed by an ‘a’ vowel sound. The vowel sound is modified by the addition of glyphs, such as the curlicue following the ‘m’ which changes it sound from ‘ma’ to ‘mi’. To suppress the vowel sound one places a dot over the consonant. This means that borrowed words from English or other languages will ‘sound’ similar in Tamil to their native language (Malten 1996).”4 तमिल मशीनी अनुवाद यंत्र पर विचार किया जाए तो तमिल (और अन्य भारतीय भाषाओं के) मशीनी अनुवाद यंत्र में दो प्रमुख समस्याएँ दिखाई देती है। सबसे पहले कई मशीन साधित भाषाई संसाधन मशीनी अनुवाद के लिए या अंतर-भाषाओं के लिए कोश। कुछ कोशों में काव्यात्मक और शास्त्रीय तकनीक के साथ नए विकसित शब्द हो जो समाचार पत्रों और पत्रिकाओं से लिए जाएँ। तमिल एक स्वनिम आधारित भाषा है, नियमानुसार प्रत्येक तमिल व्यंजन के बाद एक ’अ’ स्वर आता है। इस स्वर में विशेष आकृति द्वारा परिवर्तन किया जाता है। जैसे कि ’म’ के बाद लगने वाली मात्रा ’मा” ध्वनि को ’मि’ में परिवर्तित कर देती है। इस स्वर को विलोपित करने के लिए व्यंजन पर एक बिंदी लगाई जाती है। अर्थात अंग्रेजी या अन्य भाषाओं से लिए गए शब्दों का उच्चारण तमिल में भी उनके मूल उच्चारण के समान ही होगा। इस क्षेत्र की एक समस्या कोशीय-संसाधनों का अभाव है। इस दिशा में एकल कारपोरा की शब्दवर्ग अंकक(टैगिंग) एवं एनोटेशन समानांतर कारपोरा का विकास, पदबंध कोशों का निर्माण, शब्दजाल विकास आदि कार्य किए जाने की आवश्यकता है। तमिल द्रविड भाषा परिवार की भाषा होने के बावजूद आर्य भाषा परिवार की भाषाओं के साथ महत्वपूर्ण संबंध रखती है। हिंदी-तमिल एवं तमिल-हिंदी मशीनी अनुवाद यंत्रों पर काम किया जा रहा है इसलिए तमिल मशीनी अनुवाद यंत्र में होने वाली समस्याओं को नजर अंदाज नहीं किया जा सकता। यह कार्य मूलत: भाषापरक कार्य है अत:
समें भाषा विज्ञानियों, कोशविज्ञानियों, संगणक विज्ञानियों और अनुवाद विज्ञानियों आदि की भूमिका प्रमुख है। “अधिकतर अनुवाद यंत्र सरकारी वित्तपोषण से विकसित किए गए है उनमें भाषा-विशेषज्ञों का सहयोग अधिक परिलक्षितता देखाई देती है। यद्यपि इसका दोष भाषा विशेषज्ञों के ही मत्थे मढ़ा जाता हैं, किंतु वस्त्तुत: स्थिति यह है कि कंप्यूटर विज्ञानी भाषा विशेषज्ञों का सहयोग लेने से नकारते हैं।”5 एक दूसरे पर आरोप-प्रत्यारोप से अधिक, सहयोग की आवश्यकता है। इन कारणों से भी भारतीय म.अनु. की दुर्गति दिखाई देती है। भारत में म.अनु. की एक समस्या यह भी है कि कई अंग्रेजी से हिंदी अनुवाद यंत्रों पर एक साथ कई संस्थानों में कार्य हो रहा है और हर कोई अपने यंत्र को अधिक उपयुक्त एवं अधिक प्रगत मान रहा है, जबकि अब तक कोई भी मशीन पूर्ण रुप से अनुवाद के लिए सक्षम नहीं है। हालांकि इन अनुवाद यंत्रों के निर्गत पाठ के प्रतिशत में अंतर जरुर है।
भारतीय भाषाओं के मशीनी अनुवाद यंत्रों में निर्माण होने वाली कुछ मुख्य समस्याओं को निम्न रुप से देखा जा सकता है। 1. भाषिक संरचना 2.वाक्यगत भाषिक अस्पष्टता 3.स्रोत भाषा का अधिक विकसित होना 4.संदर्भ परक अस्पष्टता, 5. मूल पाठ के छोटे एवं लंबे पदों के शून्य अनुवाद की समस्या 6.अलंकारों एवं संकेतों के अनुवाद की समस्या, 7.विकसित नए शब्दों के अनुवाद की समस्या, 8.संज्ञा और सर्वनाम के शून्य अनुवाद की समस्या 9.वाक्य, शब्द एवं प्रोक्ति की अपूर्णता की समस्या 10.शब्दगत संबंध की समस्या। इन समस्याओं का मूल कारण है भाषिक संसाधनों का पूर्ण विकसित न होना। जिसके चलते किसी भी एक भाषिक संसाधन के द्वारा होने वाली गलती के कारण अनुवाद यंत्र में कई समस्याएँ निर्माण होती हैं।
बावजूद इतनी सारी समस्याओं के मशीनी अनुवाद पर यह बार-बार आक्षेप लिया जाता है कि कोई भी मशीनी अनुवाद यंत्र सौ प्रतिशत शुद्धता का दावा नहीं कर सकता। मशीनी अनुवाद की प्रक्रिया सफल करने के लिए म.अनु. की प्रक्रिया को मानव अनुवाद की प्रक्रिया के सोपानों में ढाला जाए। जिससे गलतियों का प्रतिशत कम हो सके। वर्तमान कंप्यूटर प्रणालियां अनेक गलतियाँ करती हैं जो मानव अनुवाद में काफी आसान होती हैं। म.अनु. द्वारा की गई छोटी-छोटी गलतियों का मशीन स्वयं पता नहीं लगा सकती है। जिसके कारण निर्गत पाठ(Output) बगैर वाक्य संरचना या अनुवाद की गलतियाँ ठीक किए बगैर मिलता है, जो एक अशुद्ध पाठ होता है।
इस क्षेत्र की एक समस्या कोशीय संसाधनों का अभाव है। इस दिशा में एकल कारपोरा की टैगिंग एवं एनोटेशन समानांतर कारपोरा का विकास, पदबंध कोशों का निर्माण, वर्डनेट विकास आदि कार्य किए जाने की आवश्यकता है। मशीनी अनुवाद की असफलता का मुख्य कारण यह भी है कि अब तक ऐसी तकनीक उपलब्ध नहीं थी, जिसकी सहायता से अर्थगत और संदर्भगत संदिग्धताओं को स्पष्ट किया जा सके किंतु कृत्रिम बुद्धि (Artificial Intelligence) के अंतर्गत ज्ञान निरुपण(Knowledge Representation) की ऐसी विधियां विकसित की जा रही हैं, जिसकी सहायता से प्राकृतिक भाषाओं में सन्निहित वाक्यपरक, अर्थपरक और संदर्भपरक प्रक्रियाओं को कंप्यूटर मनुष्य से भी अधिक अच्छी तरह समझ सकेगा।6 जो म.अनु. को सफल बनाने में मदद करेगा।
बीसवीं सदी के अंत के दशकों में मशीनी अनुवाद ने हमारे दृष्टि पटल पर एक अमिट छाप छोडी है, जिसकी कल्पना ने ही हमें अब तक मशीनी अनुवाद से बांधे रखा है। कंप्यूटर की उक्त सीमाओं पर अनुसंधान कर धीरे-धीरे दूर किया जा सकता है। इसके लिए अनेक भाषाओं पर एक साथ काम करने के बजाए एक ही भाषा पर कई विद्वानों को काम करना चाहिए। उस भाषा में मिलने वाली प्रमुख समस्याओं को खंडों में बांट कर या दूसरे शब्दों में कहा जाए तो समस्याओं का खंडीकरण कर बड़ी समस्या को छोटी-छोटी समस्याओं में विभाजित कर छोटी समस्याओं का ऐसा समाधान खोजा जाए जो अंत में मिलकर बड़ी समस्या के समाधान के रुप में सामने आए। इस प्रकार एक-एक भाषाओं पर काम कर मशीनी अनुवाद यंत्रों का निर्माण किया जाए तो भाषाओं के साथ ही उस भाषा को बोलने वाले समाज का भी विकास होगा जैसे तमिल मशीनी अनुवाद यंत्र के संबंध के लिए कहा जाता है। “Building translation system From and to Tamil helps the Tamil community all over the world in accessing the information in Tamil.” तमिल भाषा में और तमिल भाषा से म.अनु. का विकास कर संपूर्ण तमिल समाज को विश्व से सूचना और ज्ञान-अर्जन का कार्य करेगा। यह कार्य मशीनी अनुवाद केवल तमिल के लिए ही नहीं भारत की सभी भाषाओं के लिए लागू होगा जिसके लिए म.अनु. की समस्याओं को दूर करना आवश्यक है। अंत में म.अनु. के समाधान और समस्याओं के संबंध में फेडरिक सी.गेए(Fredric C. Gey)म.अनु. के संसाधनों पर चर्चा के उपरांत यही कहते है कि “मशीनी अनुवाद के संसाधनों को और विकसित करने की अत्यावश्यकता है।” “After having discussed the various components of an MT system, and the resources that might be needed to be build for MT ”7
1 मशीनी अनुवाद:भारतीय परिदृश्य – प्रो.ठाकुर दास – अनुवाद पत्रिका (कंप्यूटर विषेशांक-२) अप्रैल-जून २००४
2 CONTRIBUTIONS TO ENGLISH TO HINDI MACHINE TRANSLATION USING EXAMPLE-BASED APPROACH
DEEPA GUPTA DEPARTMENT OF MATHEMATICS INDIAN INSTITUTE OF TECHNOLOGY DELHI
HAUZ KHAS, NEW DELHI-110016, INDIA JANUARY, 2005
3 Prospects for Machine Translation of the Tamil Language Fredric C. Gey
4 Prospects for Machine Translation of the Tamil Language Fredric C. Gey
5 वहीं – पेज ४३
6 कंप्यूटर के भाषिक अनुप्रयोग – विजय कुमार मल्होत्रा – पृष्ठ संख्या - ७५
7 Prospects for Machine Translation of the Tamil Language Fredric C. Gey