Monday, September 6, 2010

1.मशीनी अनुवाद का परिचय :- Introduction of Machine Translation

1.मशीनी अनुवाद का परिचय :- Introduction of Machine Translation
अनुवाद के कई प्रकार हैं जिनमें “मशीनी अनुवाद” भी अनुवाद का एक प्रकार है मशीनी अनुवाद में मानव का केवल सहायक के रुप में उपयोग किया जाता है और बाकी काम कंप्यूटर के माध्यम से पूर्ण किया जाता है। जिसे एक विशिष्ट कंप्यूटर प्रोग्राम के द्वारा संचालित किया जाता है। लेकिन अनुवाद केवल शब्दों का खेल नहीं है, अनुवाद के स्त्रोत पाठ में संस्कृति, भाव और संवेदनाओं का भी प्रभाव होता हैं। दो भाषाओं के शब्दों के उलटफेर में कंप्यूटर मानव बुद्धि से आगे निकल गया लेकिन जब बात संस्कृति, संवेदना और भावनाओं के भाषांतरण की आई तो कंप्यूटर पुन: मानव की शरण में आ गया। इस जटिलता को दूर करने में कंप्यूटर इस कदर फँसा हुआ है कि अब बिना मानव सहायता के कंप्यूटर से अनुवाद कर पाना मुश्किल हो रहा है। पूर्णत: सफल म.अनु. का निर्माण न होना ही इसका सबसे बड़ा उदाहरण है इस कार्य में मशीनी अनुवाद निर्माणकर्त्ताओं ने अभी हार नहीं मानी है। भारतीय अनुवाद यंत्र भी इन समस्याओं के बराबर शिकार होते हुए नजर आ रहे हैं। इसीलिए अनुवाद यंत्र निर्माण करने से पूर्व अनुवाद की समस्याओं के विषय में जान लेना आवश्यक हो जाता है। मशीनी अनुवाद की संकल्पना को व्यवस्थित रुप से देखने के लिए म.अनु. की परिभाषाओं को निम्न रुप से देख सकते हैं।
प्रो.सूरजभान सिंह के अनुसार मशीनी अनुवाद की सामान्य परिभाषा यह है कि “अनुवाद की ऐसी प्रक्रिया जिसमें कंप्यूटर प्रणाली(system) के जरिए एक भाषा से दूसरी भाषा में अपने आप अनुवाद हो, इस प्रक्रिया में अनुवाद की जाने वाली सामग्री(Text) को (Input)आगत शब्द के रुप में देते है। कंप्यूटर की भीतरी प्रणाली जिसमें दोनों भाषाओं के शब्दों, मुहावरो और व्याकरणिक नियमों का ज्ञान संचित रहता है, अपने आप उस सामग्री का दूसरी भाषा में अनुवाद करती है और कुछ ही क्षणों में निर्गत पाठ (output) के रुप में अनुदित सामग्री प्राप्त हो जाती है।”1
डॉ. दीपा गुप्ता के अनुसार म.अनु. की परिभाषा कुछ इस प्रकार है। मशीनी अनुवाद एक ऐसी प्रक्रिया है जो पाठ के इकाईयों को एक भाषा(स्रोत भाषा) से दूसरी भाषा(लक्ष भाषा) में कंप्यूटर के माध्यम से अनूदित करती है।“Machine Translation (MT) is the process of translating text units of one language (source language) into a second language (target language) by using computers.”2
उपर्युक्त परिभाषाओं से स्पष्ट होता है कि अंशत: मानव सहायता के साथ (यंत्र) कंप्यूटर का उपयोग कर एक प्राकृतिक मानव भाषा का दूसरी प्राकृतिक मानव भाषा में अनुवाद करना ही मशीनी अनुवाद या यंत्रानुवाद है। इसी के आधार पर म.अनु. में मशीन की सहभागिता के आधार पर म.अनु. को तीन भागों में विभाजित किया गया हैं।
1) पूर्णत: मशीनी अनुवाद (Fully Machine Translation)
2) मानव साधित मशीनी अनुवाद (Human Aided Machine Translation)
3) मशीन साधित मानव अनुवाद (Machine Aided Human Translation)3
1.1 मशीनी अनुवाद की प्रक्रिया और संक्षिप्त इतिहास : -
विश्वभर के मशीनी अनुवाद के इतिहास पर विचार किया जाए तो मशीनी अनुवाद का इतिहास लगभग पचास वर्ष पुराना है। सबसे पहले “मशीनी अनुवाद यंत्र” निर्माण करने का प्रयास १९५६ में जार्ज टाऊन विश्वविद्यालय वाशिंगटन में शुरु हुआ था। जिस पर अल्पेक रिपोर्ट (ALPAC Report1966) के आने के बाद कुछ वर्ष म.अनु. पर हो रहा कार्य काफी धीमा हो गया था। १९८० के दशक के बाद पुन: म.अनु. का कार्य काफी तेज गति से आगे बढ़ा और आज यह स्थिति है कि विश्व में कई मशीनी अनुवाद यंत्र स्वस्थ रुप से अनुवाद कार्य कर रहें हैं। इस बीच कई अनुवाद यंत्र ऐसे भी रहे जो केवल अनुवाद यंत्र निर्माण के अभ्यास के तौर पर निर्माण किए गए थे। इनमें से कुछ म.अनु. यंत्र आज भी काम कर रहें हैं। मशीनी अनुवाद यंत्रों के कुछ नाम इस प्रकार हैं। “GAT, SYSTRAN, LOGOS, METEL, TAUM-METEO, EUROTRA, ATLAS-I, ALTAS-II, TAURUS, PIUOT, ALPA, LOGOS, CULT, TITUS, ARINC-78, METAL, MU, MT.S-NCST आदि।”4
भारत में मशीनी अनुवाद की प्रथम शुरुआत 1983 से मानी जाती है। जो दक्षिण भारत के तमिल विश्वविद्यालय में रशियन-तमिल TUMTS अनुवाद यंत्र के लिए शुरु हुआ। (In India research on MT began in 1983 at the Tamil University in South India. The TUMTS system is a small-scale 'direct translation' system specifically designed for Russian as SL and Tamil as TL and running on a small microcomputer.5) लेकिन इस यंत्र की क्षमता काफी कम थी। इस यंत्र का निर्गत पाठ(Output) भी अधिक उच्च स्तर का नहीं था। इसलिए भारत में मशीनी अनुवाद की विधिवत शुरुआत आई.आई.टी कानपुर में शुरु हुए “अक्षर भारती ग्रुप” के “आंग्लभारती मशीनी अनुवाद यंत्र” से मानी जाती है। इसके उपरांत आज भारत में कई मशीनी अनुवाद यंत्रों पर कार्य किया जा रहा हैं। जिसमें (मॅट)MAT, (अनुवादक)ANUVADAK, (मंत्रा)MANTRA, (शिव)SIVA, (मंत्र)MANTR, (अनुवाद-यन्त्र)ANUVADAYAN- TR (CIILM) (अंग्रेजी-हिंदी) (अनुसारका)ANUSARAKA (भारतीय भाषाओं के लिए), (शक्ति) Shakti (अंग्रेजी-मराठी, हिंदी, तेलगु के लिए) है। भारत सरकार ने भारतीय भाषाओं से भारतीय भाषाओं के लिए मशीनी अनुवाद यंत्र की एक नई महत्वपूर्ण योजना आरंभ की है। जिसमें “Indian Language to Indian Language Machine Translation system” निर्मित किए जा रहें हैं। जिसका विवरण टेबल १ में दिया गया है।
अनुवाद की प्रक्रिया अपने-आप में एक अति कठिन कार्य है। मशीनी अनुवाद की प्रक्रिया पर विचार किया जाए तो म.अनु. की प्रक्रिया मानव द्वारा किए गए अनुवाद(Human Translation) की प्रक्रिया के समान ही है। लेकिन म.अनु. की प्रक्रिया में मानव को केवल एक सहायक के रुप में ही कार्य करना पड़ता है। अनुवाद की प्रक्रिया में उसका कोई कार्य नहीं होता।
सीलिए म.अनु. की प्रक्रिया अधिक जटिल बन जाती है। जिसमें अनुवाद के शब्द चयन से लेकर वाक्य व्याकरणिक संरचना और अर्थ चयन का भी काम मशीन को ही करना पड़ता हैं। मशीन भावनाशून्य और सभ्यता-संस्कृति से अनभिज्ञ होने के कारण “मशीन अनुवाद” प्रक्रिया को सही रुप से अंजाम नहीं दे पाती है। इस प्रक्रिया में पाठ(Text) कई भाषा संसाधनों(LTs) से होकर जाता है। मशीनी अनुवाद की संपूर्ण प्रक्रिया संक्षिप्त रुप में निम्न से देख सकते है।
मशीनी अनुवाद की प्रक्रिया : - मशीनी अनुवाद के लिए सबसे प्रमुख कंप्यूटर में “अभिष्ट भाषिक संरचना का यह व्युत्पादन कंप्यूटर में केंद्रीय संसाधक इकाई के माध्यम से होता है। कंप्यूटर की इस केंद्रीय संसाधक इकाई में एक नियंत्रक इकाई, एक मुख्य स्मृति पटल और एक गणितीय इकाई होती है। जिसके आदेशों के आधार पर कंप्यूटर चलता है। मशीनी अनुवाद की प्रक्रिया भी इसी के आधार पर आगे बढ़ती है। सबसे पहले पाठ निवेशन का कार्य होता है। प्रत्येक मशीनी अनुवाद यंत्र की यह प्रक्रिया दो रुपों में होती है। १.लक्ष्य पाठ अनुवाद यंत्र में दिए गए बॉक्स में टाईप कर दिया जाता है। २.या लक्ष्य पाठ की फाईल को ब्राऊस करके। इस प्रक्रिया के उपरांत ही अनुवाद की प्रक्रिया आरंभ होती है।
सामान्यत: भारतीय मशीनी अनुवाद में अनुसारका मशीनी अनुवाद की प्रक्रिया निम्ना नुसार होती है। प्रथम 1.स्रोत भाषा पाठ(SOURCE LANGUAGE TEXT) 2.धातु(ROOT WORD) मशीन को दिए गए स्रोत पाठ के शब्दों में धातुओं को देखा जाता है। जिससे उचित अर्थ मिल सके। इसके उपरांत दिए गए पाठ में व्याकरणिक कार्य होता है जो सभी अनुवाद यंत्रों में समान नहीं मिलते। व्याकरणिक कार्य अधिकतर अनुवाद यंत्र निर्माण कर्ता ही निश्चित करते है कि मशीनी अनुवाद यंत्र किस व्याकरण के आधार पर कार्य करेगी। जैसे:- 3. वृक्ष संवादिता व्याकरण(POS TAG) इसके आधार से शब्दों को चिन्हित किया जाता है और आगे कार्य भी चलता है। 4.शब्द चिन्हक CHANKAR MARKING 5.पदसूत्र (PADSUTRA) इस प्रक्रिया में शब्दों को फिर से संघटित किया जाता है। 6.शब्द साधक प्रक्रिया (WORD GRUPING) 7.कथ्य विसंदिग्धिकरण (SENSE DISAMBIGUATION) विसंदिग्धिकरण की प्रक्रिया सबसे महत्वपूर्ण प्रक्रिया होती है। जिससे पाठ में निर्माण होने वाली संदिग्धता दूर की जाती है। पाठ में कई जगह पूर्वसर्ग एवं परसर्ग लगने से कई समस्याएँ निर्माण होती है जिसका निराकरण इस प्रक्रिया के माध्यम से दूर किया जाता है। 8.पूर्वसर्ग गतिविधियाँ(PREPOSITION MOVEMENTS) इस प्रक्रिया में स्रोत पाठ का लक्ष्य पाठ में रुपांतरन करने के लिए शब्दकोश से लिए गए शब्दों का प्रजनन किया जाता है। 9.लक्ष्य भाषा पाठ प्रजनन (TARGET LANGUAGE GENERATION) कई जगह लक्ष्य भाषा पाठ के प्रजनन में कई समस्याएँ निर्माण होती है। शब्द कोश में शब्द का अर्थ या वाक्य पद नहीं मिल पाते हैं ऐसे समय में भाषा व्यवहार संग्रह की मदद ली जाती है। 10.भाषा व्यवहार संग्रह(CORPARA ) यह एक भाषिक साधन है जिसका कार्य पाठ में आए रुपों को विश्लेषित करना एवं रुप संरचना का विश्लेषण करना है । 11.रूपवैज्ञानिक विश्लेषण MORPHOLOGICAL ANYLISAR 12.विश्लेषक(PARASAR) दिए गए पाठ का निर्माण एवं पाठ को प्रदर्शित करने के लिए तैयार करने का काम करता है। जिसे हम आगत पाठ भी कहते है। 13.सर्जक(GENARATER) आगत पाठ मशीनी अनुवाद का सबसे अंतिम चरण होता है। जिसमें सभी व्याकरणिक, कोशिय, अल्गोरिथमिक एवं भाषिक संसाधनों की प्रक्रिया के अंत में जो पाठ निकल कर आता है उसे हम आगत पाठ कहते है। 14.निर्गत पाठ (Output) इस प्रकार मशीनी अनुवाद की सामान्य प्रक्रिया चलती रहती है। इन साधनों के अतिरिक्त अन्य कई साधन भी इस प्रक्रिया में छोटे स्तरों पर कार्य करते हैं। लेकिय यह कार्य भी महत्वपूर्ण होता है।
Graph No.16
(ref. by International Machine Translation )
म.अनु. के सभी साधनों (Tools) का शब्द संचयन(Lexical Data) से अति निकटतम संबंध होता है। जिसके माध्यम से किसी पाठ को स्रोत भाषा से लक्ष्य भाषा तक पहुँचाने में सहायता प्राप्त की जाती है। इस प्रक्रिया में होने वाली एक गलती संपूर्ण पाठ के अंतर्गत समस्या निर्माण करती है। ऐसी समस्याओं को मशीन स्वयं संशोधित नहीं कर पाती है। भारत में भी कई म.अनु. यंत्र बनाये जा रहें हैं जैसे- सी-डॅक नोएडा द्वारा “आँग्ल भारती-मॅट”, आई.आई.टी.हैदराबाद “अनुसारका”, सी-डॉक पुणे द्वारा “मंत्र”, आई.आई.टी.मुम्बई द्वारा “मात्रा”, इन्फ़ोसेट द्वारा “अनुवादक” आदि, परंतु इनमें से किसी में भी अनुवाद की शुद्धता की दर शत-प्रतिशत नहीं हैं, यह भी इसकी एक प्रमुख समस्या है।

6 comments:

chetna said...

लेख अच्छा है। मशीनी अनुवाद के बारे में काफी जानकारी प्रदान करता है, लेकिन 'वृक्ष संवादिता व्याकरण'(POS TAG) क्या है। मुझे समझ नहीं आया। कृपया इसकी जानकारी दें।

Dr. Arti Pathak said...

बेहतरीन लेख नई जानकारी के साथ

vcgiri ka india said...

जानकारी लाभदायक है और हिंदी क्षेत्र में काम करने वालों के लिए उपयोगी है

Ram Chandar Azad said...

लाभदायक जानकारी

Unknown said...

Thanks 😊

Dr. Arti Pathak said...

शानदार लेख

समय