MACHINE TRANSLATION

हिंदी अनुवाद के सैध्दातिक पक्षों की जानकारी छात्रों और अनुवाद में कार्य कर रहें अभिभावकों देने के लिए यह ब्लॉग बनाया गया है। इस ब्लाग में मशीनी अनुवाद की बढती माँग के कारण रखाना उचीत समझा गया है। अनुवाद के विद्वानों और छात्रों से अनुरोध हैं की वे अपना विचार अवश्य भेजें।....... कांबले प्रकाश अभिमन्यु

Monday, September 6, 2010

(Problems In Indian Machine Translation Systems)

भारत में मशीनी अनुवाद की समस्याएँ(Problems In Indian Machine Translation Systems)

भारत में संगणक की साक्षरता अभी पूर्ण रुप से नहीं आ पाई है, आज भी कई कार्यालयों में संगणक का उपयोग कम मात्रा में किया जाता है। इसी का नतीजा है कि भारत में सबसे पहले अनुवादक को अनुवाद सॉफ्टवेर की जटिलताओं और संगणक कार्य शैली की कुशलता से ज्ञात कराना पड़ता है। उन्हें यह भी ध्यान रखना होता है कि उपयोग कर्त्ता को विंडोज और “लिनिक्स” संगणक प्रणालियों के दोनों परिवेशों से ज्ञात कराना है। क्योंकि अनुसारका लिनक्स परिवेश में विकसित किया गया है यदि इन्हें विंडोज के परिवेश में विकसित किया जाता तो प्रयोक्ता उसका और अधिक लाभ उठा पाते।¹ म.अनु. निर्माण कर्त्ताओं की इस गलती के कारण म.अनु. उपयोग कर्त्ताओं (म.अनु. users) को कई कठिनाईयाँ उठानी पडती हैं। अनुसंधान की पद्धतियों पर विचार किया जाए तो “दूसरे देशों में वैयक्तिक अनुसंधान भी होता है भारत में मशीनी अनुवाद के क्षेत्र में वैयक्तिक अनुसंधान नहीं होता इसके फलस्वरुप भारत जैसे देश में जहाँ कुल आबादी के ३% से भी कम लोग अंग्रेजी जानते हो (Sinha and Jain, 2003) वहाँ आवश्यकता है कि अंग्रेजी से भारतीय स्थानीय भाषा के लिए मशीनी अनुवाद यंत्र निर्माण किया जाये।” “Private research also in other countries but not in India. Consequently, in a country like India, where English is understood by less than 3% of the population (Sinha and Jain, 2003), the need for developing MT systems for translating from English into some native Indian languages is very acute.²

भारत एक बहुभाषी देश होने के कारण भारत में मशीनी अनुवाद की संभावनाओं को नकारा नहीं जा सकता। भारत में मशीनी अनुवाद की प्रक्रिया को अधिक गति प्रदान करना इस लिए भी महत्वपूर्ण है कि पाश्चात्य भाषाऐं भाषा प्रौद्योगिकी(Language Technology) में तेजी के साथ प्रगति कर रहे हैं। भारतीय भाषाओं को भी प्रौद्योगिकी एवं जागतिक स्तर पर अपनी भाषा की अस्मिता को बनाए रखने के लिए मशीनी अनुवाद में अधिक विकसित होना अत्यावश्यक है। जिससे भारतीय भाषाओं का प्रचार-प्रसार विश्व की अन्य भाषाओं की तरह समान रुप से चलता रहे। जिससें सभी भाषाओं का संतुलन बना रहे । किसी एक भाषा के अधिक विकसित होने या उपयोग में लाने से अन्य भाषाओं के विकास में बाधा तो पहुंचती ही है और कभी-कभी कम संख्या में बोली जाने वाली भाषा समाप्त हो जाती है। भारत के मशीनी अनुवाद यंत्रों की स्रोत भाषाओं पर विचार किया जाए तो भारत में अधिकतर मशीनी अनुवाद का कार्य अंग्रेजी से भारतीय भाषाओं में शुरु हुआ। अंग्रेजी भाषा की संरचना भारतीय भाषाओं से भिन्न होने के कारण कई समस्याओं का सामना करना पड़ा। आज भी मशीनी अनुवाद का प्रमुख कार्य अंग्रेजी से भारतीय भाषाओं के मशीनी अनुवाद यंत्रों पर ही होता है। संभवता इस संकल्पना में बदलाव की गुंजाइश दिखाई देती है। कुछ विद्वान भारत की सभी भाषाओं के लिए म.अनु. की संकल्पना करते हैं लेकिन भारत के सभी भाषाओं के लिए अनुवाद यंत्र निर्माण कर पाना आज की परिस्थिति में संभव नहीं है। To our knowledge there is no direct machine translation software development being done on Indian subcontinent languages – languages spoken by nearly twenty percent of the world’s people. The reasons are simple, the resources available for traditional machine translation are simply non-existent and the commercial viability of such development seems dim.³ However, the new field of research into statistical machine translation offers hopes that Tamil translation may be just around the corner, to the pleasure and social benefit of all. अब तक भारतीय उपमहद्वीप की भाषाओं के लिये कोई भी पूर्णत: मशीनी अनुवाद यंत्र निर्माण नहीं हो पाया है जबकि २०% लोग इन भाषाओं को बोलते हैं। इसका एक कारण यह भी है कि पारंपरिक मशीनी अनुवाद यंत्र में उपयोग किए जाने वाले भाषिक संसाधन लगभग अनुपलब्ध है, और ऐसे प्रयोगों की व्यावसायिक उपयोगिता बहुत ही सीमित है। तदोपरांत मशीनी अनुवाद में नए रुप से हो रहे अनुसंधान से आशा की जा सकती है कि तमिल अनुवाद यंत्र सामाजिक रुप से भी महत्वपूर्ण काम करेगा। “Two major problems exist in connection with machine translation and cross-language retrieval of Tamil (and other Indian languages). First is the lack of machine-readable resources for either machine translation or cross-language dictionary lookup. Such dictionaries need to be pared of poetic and Classical terminology and augmented with modern words as found in recent newspaper and Magazine texts. Tamil is a phonetic language. By default each Tamil consonent is followed by an ‘a’ vowel sound. The vowel sound is modified by the addition of glyphs, such as the curlicue following the ‘m’ which changes it sound from ‘ma’ to ‘mi’. To suppress the vowel sound one places a dot over the consonant. This means that borrowed words from English or other languages will ‘sound’ similar in Tamil to their native language (Malten 1996).”⁴ तमिल मशीनी अनुवाद यंत्र पर विचार किया जाए तो तमिल (और अन्य भारतीय भाषाओं के) मशीनी अनुवाद यंत्र में दो प्रमुख समस्याएँ दिखाई देती है। सबसे पहले कई मशीन साधित भाषाई संसाधन मशीनी अनुवाद के लिए या अंतर-भाषाओं के लिए कोश। कुछ कोशों में काव्यात्मक और शास्त्रीय तकनीक के साथ नए विकसित शब्द हो जो समाचार पत्रों और पत्रिकाओं से लिए जाएँ। तमिल एक स्वनिम आधारित भाषा है, नियमानुसार प्रत्येक तमिल व्यंजन के बाद एक ’अ’ स्वर आता है। इस स्वर में विशेष आकृति द्वारा परिवर्तन किया जाता है। जैसे कि ’म’ के बाद लगने वाली मात्रा ’मा” ध्वनि को ’मि’ में परिवर्तित कर देती है। इस स्वर को विलोपित करने के लिए व्यंजन पर एक बिंदी लगाई जाती है। अर्थात अंग्रेजी या अन्य भाषाओं से लिए गए शब्दों का उच्चारण तमिल में भी उनके मूल उच्चारण के समान ही होगा। इस क्षेत्र की एक समस्या कोशीय-संसाधनों का अभाव है। इस दिशा में एकल कारपोरा की शब्दवर्ग अंकक(टैगिंग) एवं एनोटेशन समानांतर कारपोरा का विकास, पदबंध कोशों का निर्माण, शब्दजाल विकास आदि कार्य किए जाने की आवश्यकता है। तमिल द्रविड भाषा परिवार की भाषा होने के बावजूद आर्य भाषा परिवार की भाषाओं के साथ महत्वपूर्ण संबंध रखती है। हिंदी-तमिल एवं तमिल-हिंदी मशीनी अनुवाद यंत्रों पर काम किया जा रहा है इसलिए तमिल मशीनी अनुवाद यंत्र में होने वाली समस्याओं को नजर अंदाज नहीं किया जा सकता। यह कार्य मूलत: भाषापरक कार्य है अत:

समें भाषा विज्ञानियों, कोशविज्ञानियों, संगणक विज्ञानियों और अनुवाद विज्ञानियों आदि की भूमिका प्रमुख है। “अधिकतर अनुवाद यंत्र सरकारी वित्तपोषण से विकसित किए गए है उनमें भाषा-विशेषज्ञों का सहयोग अधिक परिलक्षितता देखाई देती है। यद्यपि इसका दोष भाषा विशेषज्ञों के ही मत्थे मढ़ा जाता हैं, किंतु वस्त्तुत: स्थिति यह है कि कंप्यूटर विज्ञानी भाषा विशेषज्ञों का सहयोग लेने से नकारते हैं।”⁵ एक दूसरे पर आरोप-प्रत्यारोप से अधिक, सहयोग की आवश्यकता है। इन कारणों से भी भारतीय म.अनु. की दुर्गति दिखाई देती है। भारत में म.अनु. की एक समस्या यह भी है कि कई अंग्रेजी से हिंदी अनुवाद यंत्रों पर एक साथ कई संस्थानों में कार्य हो रहा है और हर कोई अपने यंत्र को अधिक उपयुक्त एवं अधिक प्रगत मान रहा है, जबकि अब तक कोई भी मशीन पूर्ण रुप से अनुवाद के लिए सक्षम नहीं है। हालांकि इन अनुवाद यंत्रों के निर्गत पाठ के प्रतिशत में अंतर जरुर है।

भारतीय भाषाओं के मशीनी अनुवाद यंत्रों में निर्माण होने वाली कुछ मुख्य समस्याओं को निम्न रुप से देखा जा सकता है। 1. भाषिक संरचना 2.वाक्यगत भाषिक अस्पष्टता 3.स्रोत भाषा का अधिक विकसित होना 4.संदर्भ परक अस्पष्टता, 5. मूल पाठ के छोटे एवं लंबे पदों के शून्य अनुवाद की समस्या 6.अलंकारों एवं संकेतों के अनुवाद की समस्या, 7.विकसित नए शब्दों के अनुवाद की समस्या, 8.संज्ञा और सर्वनाम के शून्य अनुवाद की समस्या 9.वाक्य, शब्द एवं प्रोक्ति की अपूर्णता की समस्या 10.शब्दगत संबंध की समस्या। इन समस्याओं का मूल कारण है भाषिक संसाधनों का पूर्ण विकसित न होना। जिसके चलते किसी भी एक भाषिक संसाधन के द्वारा होने वाली गलती के कारण अनुवाद यंत्र में कई समस्याएँ निर्माण होती हैं।

बावजूद इतनी सारी समस्याओं के मशीनी अनुवाद पर यह बार-बार आक्षेप लिया जाता है कि कोई भी मशीनी अनुवाद यंत्र सौ प्रतिशत शुद्धता का दावा नहीं कर सकता। मशीनी अनुवाद की प्रक्रिया सफल करने के लिए म.अनु. की प्रक्रिया को मानव अनुवाद की प्रक्रिया के सोपानों में ढाला जाए। जिससे गलतियों का प्रतिशत कम हो सके। वर्तमान कंप्यूटर प्रणालियां अनेक गलतियाँ करती हैं जो मानव अनुवाद में काफी आसान होती हैं। म.अनु. द्वारा की गई छोटी-छोटी गलतियों का मशीन स्वयं पता नहीं लगा सकती है। जिसके कारण निर्गत पाठ(Output) बगैर वाक्य संरचना या अनुवाद की गलतियाँ ठीक किए बगैर मिलता है, जो एक अशुद्ध पाठ होता है।

इस क्षेत्र की एक समस्या कोशीय संसाधनों का अभाव है। इस दिशा में एकल कारपोरा की टैगिंग एवं एनोटेशन समानांतर कारपोरा का विकास, पदबंध कोशों का निर्माण, वर्डनेट विकास आदि कार्य किए जाने की आवश्यकता है। मशीनी अनुवाद की असफलता का मुख्य कारण यह भी है कि अब तक ऐसी तकनीक उपलब्ध नहीं थी, जिसकी सहायता से अर्थगत और संदर्भगत संदिग्धताओं को स्पष्ट किया जा सके किंतु कृत्रिम बुद्धि (Artificial Intelligence) के अंतर्गत ज्ञान निरुपण(Knowledge Representation) की ऐसी विधियां विकसित की जा रही हैं, जिसकी सहायता से प्राकृतिक भाषाओं में सन्निहित वाक्यपरक, अर्थपरक और संदर्भपरक प्रक्रियाओं को कंप्यूटर मनुष्य से भी अधिक अच्छी तरह समझ सकेगा।⁶ जो म.अनु. को सफल बनाने में मदद करेगा।

बीसवीं सदी के अंत के दशकों में मशीनी अनुवाद ने हमारे दृष्टि पटल पर एक अमिट छाप छोडी है, जिसकी कल्पना ने ही हमें अब तक मशीनी अनुवाद से बांधे रखा है। कंप्यूटर की उक्त सीमाओं पर अनुसंधान कर धीरे-धीरे दूर किया जा सकता है। इसके लिए अनेक भाषाओं पर एक साथ काम करने के बजाए एक ही भाषा पर कई विद्वानों को काम करना चाहिए। उस भाषा में मिलने वाली प्रमुख समस्याओं को खंडों में बांट कर या दूसरे शब्दों में कहा जाए तो समस्याओं का खंडीकरण कर बड़ी समस्या को छोटी-छोटी समस्याओं में विभाजित कर छोटी समस्याओं का ऐसा समाधान खोजा जाए जो अंत में मिलकर बड़ी समस्या के समाधान के रुप में सामने आए। इस प्रकार एक-एक भाषाओं पर काम कर मशीनी अनुवाद यंत्रों का निर्माण किया जाए तो भाषाओं के साथ ही उस भाषा को बोलने वाले समाज का भी विकास होगा जैसे तमिल मशीनी अनुवाद यंत्र के संबंध के लिए कहा जाता है। “Building translation system From and to Tamil helps the Tamil community all over the world in accessing the information in Tamil.” तमिल भाषा में और तमिल भाषा से म.अनु. का विकास कर संपूर्ण तमिल समाज को विश्व से सूचना और ज्ञान-अर्जन का कार्य करेगा। यह कार्य मशीनी अनुवाद केवल तमिल के लिए ही नहीं भारत की सभी भाषाओं के लिए लागू होगा जिसके लिए म.अनु. की समस्याओं को दूर करना आवश्यक है। अंत में म.अनु. के समाधान और समस्याओं के संबंध में फेडरिक सी.गेए(Fredric C. Gey)म.अनु. के संसाधनों पर चर्चा के उपरांत यही कहते है कि “मशीनी अनुवाद के संसाधनों को और विकसित करने की अत्यावश्यकता है।” “After having discussed the various components of an MT system, and the resources that might be needed to be build for MT”⁷

1 मशीनी अनुवाद:भारतीय परिदृश्य – प्रो.ठाकुर दास – अनुवाद पत्रिका (कंप्यूटर विषेशांक-२) अप्रैल-जून २००४

2 CONTRIBUTIONS TO ENGLISH TO HINDI MACHINE TRANSLATION USING EXAMPLE-BASED APPROACH

DEEPA GUPTA DEPARTMENT OF MATHEMATICS INDIAN INSTITUTE OF TECHNOLOGY DELHI

HAUZ KHAS, NEW DELHI-110016, INDIA JANUARY, 2005

3 Prospects for Machine Translation of the Tamil Language Fredric C. Gey u>

4 Prospects for Machine Translation of the Tamil Language Fredric C. Gey u>

5 वहीं – पेज ४३

6 कंप्यूटर के भाषिक अनुप्रयोग – विजय कुमार मल्होत्रा – पृष्ठ संख्या - ७५

7 Prospects for Machine Translation of the Tamil Language Fredric C. Gey u>

मशीनी अनुवाद की समस्याएँ।(Problems of Machine Translation )

मशीनी अनुवाद की समस्याएँ। Problems of Machine Translation

अनुवाद मूल रुप से एक बौद्धिक प्रक्रिया है। जिसकी क्षमता केवल मनुष्य के पास है। अत: कोई भी कंप्यूटर पूरी तरह मानव बुद्धि की जगह नहीं ले सकता। “किसी एक भाषा से दूसरी भाषा में अनुवाद की प्रक्रिया मात्र शब्दों का अनुवाद नहीं है बल्कि यह एक विचार प्रक्रिया है, वाक्य, शब्द और अर्थ के स्तर पर प्राकृतिक भाषाओं में व्याप्त संदिग्धता को समझ कर जब तक रीतिबद्ध नहीं कर लिया जाता तब तक मशीनी अनुवाद की कल्पना भी नहीं की जा सकती।”1 मशीनी अनुवाद में एक ओर प्राकृतिक बुद्धि और कृत्रिम बुद्धि की प्रक्रियाओं के मूल तत्वों का समावेश होता है दूसरी ओर संप्रेषण के सिद्धांतों, व्याकरण के नियमों और तर्क विज्ञान (logic science) के सिद्धांतों का भी समावेश होता है। मशीनी अनुवाद की समस्याओं को प्रमुख रुप से चार भागों में विभाजित किया जा सकता हैं।

2.1. अनुवाद पूर्व समस्याएँ (pre -Translation Problems)
2.2. अनुवाद की समस्याएँ (Translation Problems)
2.3. अनुवादोत्तर समस्याएँ (Post-Translation Problems)
2.4. अनुवादक की समस्याएँ (Translator/User problems)
मशीनी अनुवाद की समस्याएँ मशीनी अनुवाद में होने वाले घटकों के अकार्यक्षम व्यवहार के कारण उत्पन्न होती हैं। ये समस्यायें कई बार मशीन में होने वाले प्रोग्राम के कारण उत्पन्न होती हैं, तो कई बार मानव निर्मित होती हैं जिन्हें हम निम्न रुप से देख सकते हैं।
2.1. अनुवाद पूर्व समस्याएँ:-

यह समस्याएँ मशीनी अनुवाद का कार्य करने से पहले आने वाली समस्याएँ हैं। भारत एक बहुभाषिक देश होने के बावजूद भारत की अधिकांश जनसंख्या निम्न आय रेखा में रहती है जिसमें कई लोग अनुवाद को अपना व्यवसाय चुनते हैं। ऐसे लोगो के लिए म.अनु. को आर्थिक रुप से उपयोग में लाना कठिन है। जैसे :- “MT is a very expensive endeavor, both in terms of the software development effort required and in terms of the linguistic resources which need to be assembled.2 दूसरी समस्या कंप्यूटर की सीमित उपलब्धता, उच्च कोटि के या तेज गति से कार्य न करने वाले कंप्यूटर हैं। इस परिस्थिति में उपयोग कर्त्ता/कर्मचारी को कंप्यूटर की जानकारी न होना या अनुवाद यंत्रों के संबंध में संपूर्ण जानकारी का अभाव भी एक अनुवाद पूर्व समस्या कही जा सकती है।

2.2 अनुवाद की समस्याएँ:- अनुवाद की समस्या प्रमुख रुप से अनुवाद की प्रक्रिया से जुड़ी हुई है। जिसे हम पुन: तीन भागों में विभाजित कर सकते हैं।
2.2.1 भाषा वैज्ञानिक समस्याएँ (Language problems)
2.2.2 व्याकरणिक समस्याएँ (Grammar problems)
2.2.3 भाषिक संसाधनों के उपयोग और निर्माण की समस्याएँ (for use and development of language tool)
2.1 भाषा वैज्ञानिक समस्याएँ :- मशीनी अनुवाद में भाषा वैज्ञानिक समस्याओं (Linguistic problems In म.अनु.) को Harold Somers ने निम्न रुप से विभाजित किया है जिसमें भाषा विज्ञान की अधिकतर समस्याओं पर विस्तृत रुप से विचार होना चाहिए।3
2.1.1 समस्या विश्लेषक (प्राकृतिक भाषा संसाधन के लिए) problems Analysis
(Apply to all NLP):- (क) शाब्दिक(Lexical) (ख) वाक्यगत(Syntactic), (ग) अर्थगत(Semantic)
2.1.2. म.अनु.में व्यतिरेकी समस्याएँ. (Contrastive problems In MT)
(क) शब्दगत (Lexical), (ख) संरचनागत (Structural), (ग) संदर्भपरक (Representational), (घ) शैली और प्रोक्तिपरक(problems in Style/Register)
(ड) अर्थगत भिन्नता (conceptual differences), (ढ) शाब्दिक अस्पष्टता (Lexical gaps)
1. Staructural divergence linked to lexical differences

2. Structural divergence linked to grammatical differences

3. Level shift: - Similar grammatical meanings conveyed by
Different devices
2.1.3 शाब्दिक विश्लेषण(Lexical Analysis)
2.1.3.1 विखंडिकरण प्रक्रिया (Segmentation)
2.1.1.1 रुप विज्ञान की (In Morphology):-
1. प्रकार्यात्मक रुपविज्ञान(Functional Morphology)
2. व्युत्पादक रुपविज्ञान (Derivational Morphology)
3. द्विअर्थी रुपविज्ञान(Ambiguous Morphology)
2.1.3.3 अपरिचित शब्द (Unknown words):- Misspelled, spelling, not in
Dictionary, because it a regular derivation, proper name, Compound
2.1.3.4 शाब्दिक अस्पष्टता (Lexical Ambiguity) :-
“(1) संरचनात्मक (Structural) बनाम (असंरचनात्मक) Unstructured
(2) (वास्तविक)Real बनाम (संयोगी)Accidental
(3) (सीमित)Local बनाम वैश्विक(Global)
(4) विश्लेषित Analytical (ड) वैश्विक अस्पष्टता Global Ambiguity
(5) सतही(Shallow) बनाम गहन अस्पष्टता (Deep Ambiguity) : -
अन्वादेशक Anaphora, (उदय)Raising, (कारक)Case-
रुपरेखा आधारित अस्पष्टता(Frame ambiguity), (परिणाम सूचक)
Quantifier and कर्त्ता आधारित (operator scope)”4

2.1.3.5 अस्पष्ट कोटियाँ (Category Ambiguities):-

1) अनेकार्थक शब्द (Homonymy):- (समध्वन्यात्मक शब्द) Homophones, Homographs (समान लिपि वाले शब्द) (proper names : - many proper names form Homonyms with meaningful words)
2). समोच्चारित शब्द :- (Polysemy) ये भाषिक समस्यायें मानव द्वारा किये जाने वाले अनुवाद में भी समान रुप से दृष्टिगत (निर्मित) होती हैं।
2.2 व्याकरणिक समस्याएँ:- मशीनी अनुवाद के लिए जिस प्रकार के व्याकरणिक मॉडल की जरुरत होती है वह स्वरुप परंपरागत व्याकरणिक मॉडल से भिन्न होता है। जिससे मशीनी अनुवाद के प्रकारो के अनुसार ही म.अनु. के उपयोग में व्याकरण के प्रकार भी अलग-अलग दिखाई देते हैं। जिसमें से कुछ इस प्रकार हैं “FUG (kAY-1984), HPSG(Polard and Sag-1994), LFG(Bresnsn-1982), TAG (Joshi and Schables-1992), Panini Grammar”5 समस्याओं की इन कोटियों में भाषिक और व्याकरणिक समस्याएँ सबसे अधिक जटिल होती हैं।
2.3 भाषिक संसाधानों के उपयोग और निर्माण की समस्याएँ:- किसी एक म.अनु. के निर्माण में लाए गए सभी भाषिक साधन (Language Tools (LTs)) किसी दूसरी भाषा के मशीनी अनुवाद यंत्र निर्माण के उपयोग में आएंगे यह निश्चित रुप से नहीं कहा जा सकता हैं । भाषिक संसाधनों की यह समस्या भाषाओं की असमान संरचना के कारण उत्पन्न होती है। यह निर्माण कार्य कई जगह होता है। पाश्चात्य देशों में यह कार्य काफी तेजी से हो रहा है।

2.3.अनुवादेत्तर समस्याएँ:- कुछ ऐसी समस्याएँ भी होती है जो अनुवादेत्तर तो होती हैं लेकिन अप्रत्यक्ष रुप से उनका संबंध अनुवाद से ही होता है जिसे हम उपेक्षित (ignore) नहीं कर सकते। म.अनु. के संदर्भ में प्रयुक्त सभी भाषिक संसाधन; किसी अन्य (दूसरी) भाषा के मशीनी-अनुवाद-यंत्र के निर्माण में प्रयुक्त होंगे यह निश्चित नहीं कहा जा सकता। किसी भी मशीनी अनुवाद के निर्माण में आने वाली समस्याएँ केवल अनुवाद से ही जुड़ी नहीं होती अपितु अन्य बहुत सी समस्यायें भी होती हैं, जैसे -

2.31.1 यांत्रिक (कंप्यूटर) समस्याएँ
2.3.1.2 अभिकलनात्मक भाषाविदों की अनुपस्थिति की समस्या
2.3.1.3 कंप्यूटरी कृत भाषा और प्रोग्राम को समझने की समस्या

मशीन द्वारा मिलने वाला (output(OP)) निर्गत पाठ (Formed language) कृत्रिम भाषा में मिलता है। जिसको मानवीय भाषा में लाकर व्यवस्थित रुप प्रदान करने के लिए मशीनी अनुवाद में कोई भाषिक साधन उपलबद्ध नहीं है।
2.4. अनुवादक की समस्याएँ :-
प्रत्येक समस्या का प्रभाव अनुवाद पर होता है लेकिन कुछ समस्याएँ मूल रुप से अनुवादक/प्रयोग कर्त्ता की होती हैं। अनुवाद पूर्व या अनुवाद के बाद निर्गत पाठ में कोई समस्या उत्पन्न हो जाने पर अनुवाद यंत्र ठीक करने के लिए म.अनु. का उपयोग कर रहे उपभोक्ता को मशीन में सुधार के लिए मशीनी अनुवाद यंत्र निर्माण करने वाली संस्था से संपर्क करना पड़ेगा। समस्या किसी भी प्रकार की हो प्रयोग कर्त्ता स्वयं अनुवाद यंत्र ठीक नहीं कर सकता। इन समस्याओं के साथ मशीन ही नहीं अनुवादक/उपयोग कर्ता (Translator/user) भी जूझता है। मशीनी अनुवाद में समस्यायें तो बहुत हैं जिन पर एक विस्तृत चर्चा की आवश्यकता है। मशीनी अनुवाद की समस्याएँ भाषाओं के साथ कुछ भाषिक कारणों से बदल जाती हैं, लेकिन इनकी मात्रा कुछ हद तक कम होती है।
पाश्चात्य देशों मे संगणक भारत से कई वर्ष पूर्व आया जिसका उपयोग पाश्चत्य भाषा वैज्ञानिक और संगणक विज्ञानियों ने भली-भाँति समझ कर भाषा विश्लेषण के लिए संगणक का उपयोग किया। यह कार्य भारतीय मशीनी अनुवाद कार्य के शुरु होने से लगभग पच्चीस वर्ष पूर्व हुआ। जिसका परिणाम आज यह हुवा है कि भारत में मशीनी अनुवाद पर कार्य कर रहे विद्वान पाश्चात्य मशीनी अनुवाद यंत्रों को स्रोत यंत्रों के रुप में देखते hain.

BY Kamble Prakash Abhimannu, Ph.D Hindi Translation, New Delhi-67

भारत में मशीनी अनुवाद की आवश्यकता

भारत में मशीनी अनुवाद की आवश्यकता

भारत एक बहुभाषिक देश है। जहाँ कई भाषाऐं एक साथ बोली और समझी जाती हैं। विशेषकर उस स्थिति में जहाँ १६ से अधिक प्रशासनिक भाषाएं हों वहाँ मशीनी अनुवाद यंत्र विकसित करना कम से कम कार्यालयीय भाषाओं के लिए बहुत ही उपयोगी सिद्ध होगा। इसी के साथ भारतीय भाषाओं की सीमाओं को तोड़ने के लिए भी मशीनी अनुवाद की आवश्यकता है। जिससे प्राशासनिक कार्य अधिक गति से पूर्ण हो सके।

1.3 म.अनु. में स्रोत भाषा विश्लेषण (The Source Language Analysis) की आवश्यकता।

किसी भी प्रोग्राम (यंत्र) को बनाने के लिए कई भाषाई संसाधनों की आवश्यकता होती है जिनकी सहायता के बीना प्रोग्राम का कार्य पूर्ण नहीं हो सकता। मशीनी अनुवाद के प्रोग्राम को बनाने के लिए प्रा.भा.सं. (NLP) के कई भाषाई संसाधनों का उपयोग करना पड़ता है। यह भाषाई संसाधन निम्न रुप में देखे जा सकते हैं। (A) वाक(Recognition) (B) बोधन प्रक्रिया(Understanding), (C) जनन (Generation) (D) प्राकृतिक भाषा संसाधन की प्रमुख रुपावली (प्रा.भा.सं. Standard Paradigm) (E) प्रोक्ति विश्लेशक (Discourse Analyser) (F) अर्थ विश्लेषक (Semantic Analyser) (G) रुप विश्लेषक (Morphological Analyser) (H) स्रोत भाषा विश्लेषक (The Source Language Analyser), (I) वाक्य विश्लेशक (Syntactic Analyser) (J) लक्ष्य भाषा प्रजनन (Target Language Generation Content Delimitation) (K) अन्वादेशक(Anaphora) (L) वाक्यगत चयन (Syntactic Selection) (M) पाठगत संरचना (Text Structuring) (N) संदर्भगत आदेश (Constituent Ordering) (O) प्रतिफलन (Realization) (P) शब्दकोश चयन (Lexical Selection) । इन भाषिक संसाधनों का उपयोग स्रोत भाषा विश्लेशण के लिए किया जाता है। इन सभी भाषिक संसाधनों के साथ अन्य सहायक संसाधनों की भी आवश्यकता होती है। जिसका निर्माण प्रा.भा.सं. में किए जाने वाले भाषिक अनुसंधानों के बाद हो पाता है, इसलिए म.अनु. के निर्माण में प्रा.भा.सं. की सबसे अधिक आवश्यकता है।

MACHINE TRANSLATION

Monday, September 6, 2010

(Problems In Indian Machine Translation Systems)

मशीनी अनुवाद की समस्याएँ।(Problems of Machine Translation )

भारत में मशीनी अनुवाद की आवश्यकता

समय

Blog Archive