Wednesday, March 12, 2008

LEXICAL AMBIMUITY IN HINDI – MARAHI MACHINE TRANSLATION SYSTEM IN

हिंदी मराठी मशीनी अनुवाद में शाब्दिक अस्पस्टता ( समान उच्चारण वाले शब्दों के संदर्भ में )

LEXICAL AMBIMUITY IN HINDI – MARAHI MACHINE TRANSLATION SYSTEM IN
(IN THE CONTEXT OF HOMONMYS)
Kamble Prakash Abhimannu JNU N.Delhi – 67


प्रस्तावना : -
आधुनिकिकरण् के युग में भारतीय विद्वान यह कभी नहीं भूल सकते की भारत एक बहूभाषिक देश है । बहुभाषिकता की कमस्या को अनुवाद के मध्यम के दूर किया गया लेकिन आई टी के युग में भाषा का मुकाबला मशीन से है । “मशीनी अनुवाद के क्षेत्र में वर्तमान युग में इआश्विक स्तर पर प्रमुख निम्न समस्याऎं हैं । जिनका निहाकरण अभी नहीं हो पाया है । समान अर्थ वाले शब्द , समान उच्चारण वाले भिन्नार्थक शब्द , वाक्यगत द्विअर्थकता , संदर्भ परक द्विअर्थकता , अस्पष्ट पद , संकेत , कहावते , मुहावरे , विकसित नए शब्द आदि । “Homonym” शब्द ग्रीक के homo + onyms इन शब्दों के पूर्वसर्ग और परसर्ग से homonym शब्द बना है । जिसका हिंदी अर्थ “ समान उच्चारण वाले शब्द ” है । समान उच्चारण वाले शब्दों से छोटे बच्चे , सामन्य पाठक , श्रोता आदि के मन में भी समस्याऎं उत्पन्न होती है । मानव अपनी कुशल बुद्धि , पूर्व संदेशोंकी सहायता , शारिरीक गतिविधियों को देखते हुए संदेशों का अर्थ समजता है । यह प्रक्रिया पूर्ण रुप से मानवी मस्तिष्क पर आधारित है , जिसे कोश , वैश्विक ज्ञान एवं भाषिक ज्ञान की सहायता होती है । इस समस्या का निराकरण करने के लिए मशीन को मशीनी भाषा से अवगत कराया जाता है लेकिन यह भाषिक साधन विकसित नहीं हुए है ।
मशीनी अनुवाद की समस्याऒं से मशीनी अनुवाद में Homonyms ( समान उच्चारण वाले शब्दों की समस्या ) गंभीर रुप से सामने आई । समान उच्चारण वाले शब्दों के निराकरण की समस्या विश्व से कई मशीनी अनुवाद यंत्रों को है । मशीनी अनुवाद में वैश्विक स्तर की समस्या पर हिंदी – मराठी मशीनी अनुवाद में यह पहला अनुसंधान होगा ।
मशीनी अनुवाद में वाक्य एवं शब्द की द्विअर्थकता का समाधान करने की प्रक्रिया Word Sense Disambiguter में होती है । जिसे Grammatical Ambiguity एवं Lexical Disambiguity इन दो भागों में देखा जाता हैं । Lexical Disambiguyter शब्दों की प्रयोजनमूलकता, भाषा वैज्ञानिक रुपों एवं व्याकरणिक कोटियों के अनुसार शब्दों को विभाजित करता है । Lexical Ambiguity में दो प्रकार की द्विअर्थकता होती है Polysemy और Homonym. Homonyms से उत्पन्न द्विअर्थकता अधिक कठिनाइयाँ उत्पन्न करती है । Homonyms को निम्न रुप से विभाजित किया किया जाएगा ।

क्र. वर्तनी उच्चारण अर्थ
१. समान वर्तनी समान उच्चारण भिन्न अर्थ
२. समान वर्तनी ( भिन्न व्याकरण ) भिन्न उच्चारण भिन्न अर्थ
३. भिन्न वर्तनी समान उच्चारण भिन्न अर्थ

(नामों में अधिकतार समान उच्चारण वाले भिन्नर्थक शब्दों को देखा जाता हैं )
जैसे : -
क्र. हिंदी व्याकरणिक कोटि मराठी अर्थ
१. पंकज नाम कमळ जलज, कमल क फूल
२. पंकज नाम पंकज लडके का नाम
३. पर कारक पर , परंतू लेकिन , परंतु
४. पर नाम पंख पक्षी
५. कर नाम कर , हाथ कर , हाथ
६. कर क्रिया करणे करना

हिंदी – मरठी में एसे कई शब्द है जिनके उच्चरण , वर्त्नी और् अर्थ समान है जैसे : - साल – वर्ष , साल – फल का छिल्का या पेड की छाल । स्त्रोत भाषा मे आए किसी श्ब्द की लक्ष्य भाषा में
“ समान उच्चारण , कमान वर्तनी , समान अर्थ हो सकता है “ । “समान उच्चरण वाले शब्दों की समस्या स्त्रोत भाषा एवं लक्श्य भाषा दॊनों भाषाऒं में एक ही शब्द के समान उच्चारण वाले दो अर्थ होते है । इन समस्याओं के काहण अनुवादक गलतियाँ करता हैं । यही समस्या मशीनी अनुवाद करेगी । इस शोध में इस समस्या पर भी विचार किया जाएगा ।

व्याकरणिक एवं भाषा वैज्ञानिक नियम : - मशीनी अनुवाद में व्याकरण महत्वपूर्ण होता है । अंग्रेजी भाषा की वाक्य रचना ( कर्ता – कर्म - क्रिया ) इस प्रकार की है । दोनॊं भाषाऒं की वाक्य रचना भिन्न होने के कारण कई व्याकरणिक समस्याएँ उत्पन्न होती है । हिंदी मराठी एक ही भाषा परिवार से होने से हिंदी – मरठी भाषा की वाक्यसंरचना ( कर्ता – कर्म - क्रिया ) समान है । जिसका उपयोग वाक्य के अर्थ को स्पस्ट करने में होग ।
शोध प्रविधि : - शोध की प्रविधि मात्रात्मक एवं गुणात्मक होगी । जिसमें भाषा की व्याकरणिक कोटियों की समानताओं के कारण व्याकरणिक सूत्र परक ( Rule-based ) मशीनी अनुवाद यंत्र के निर्माण में कार्य करना उचित होगा । मात्रात्मक प्रविधि में व्याकरणिक नियमों एवं भाषा वैज्ञानिक रुपों को नियमबद्ध किया जाएगा । इस अनुसंधान में java programming language क उयोग होगा । अनुसंधान के उपयोग के लिए अनुसंधान को Internet कि शायता से अन्य विश्वविद्यालयों , मशीनी अनुवाद यंत्र निर्माण में कार्य कर रहें संस्थानों एवं अनुसंधान कर्ताओं से भी इस विषय पर विचार किया जा सकें । अनुसंधान के लिए मशीनी अनुवाद के अन्य भाषिक साधनों की सहायता ली जाएगी । १.वाक्य विश्लेशक ( Tagger ) 2.शब्द विश्लेशक ( Chunker ) 3.कार्पस( corpus ) ४.कंम्पूटरी कृत कोश ( Computational Dictionary )
अनुसंधान का प्राथमिक उपयोग : - यह अनुसंधान का निम्न मशीनी अनुवाद यंत्रों में उपयोग होगा । १.शब्दबंध हिंदी मरठी आन ( Shabdabandha Hindi to Marathi Online Dictionary ) २.भारतीय भाषा से भारतीय भाषाओं के अनुवाद के लिए ।
भारतीय भाषाओं में मशीनी अनुवाद को मिली इस गति को सफल करने के लिए यह अनुसंधान अवश्य सहायक होगा । प्रस्तवित शोध का अध्याय विभाजन
प्रस्तावना : -
१.मशीनी अनुवाद की समस्याऎं
१.वैश्विक स्तर पर अनुवाद की समस्याऎं
२.भारत में मशीनी अनुवाद की समस्याऎं
२.समान उच्चारण वाले शब्दों से अनुवाद एवं मशीनी अनुवाद में निर्माण होने वाली समस्याऎं
१. मानव द्वार होने वाले अनुवाद एवं मशीनी अनुवाद समान उच्चारण वाले शब्दों की समस्याऎं
२. समान उच्चारण वाले शब्दों के प्रकार एवं व्यकरणीक सूत्र
३.हिंदी मराठी मशीनी अनुवाद समान उच्चारण वाले शब्दों की समस्याओं का भाषिक सूत्र
१.समान लिपी , समान उच्चारण , भिन्नार्थक शब्द
२. समान लिपी , भिन्न उच्चारण , भिन्नार्थक शब्द
३. भिन्न लिपी , समान उच्चारण , भिन्नार्थक शब्द
४. समान उच्चारण वाले शब्दों की समस्याओं का निराकरण कंपूतरी भाषा के रुप में
१. व्याकरणिक एवं भाषा वैज्ञानिक नियम
२.कंम्पूटर प्रोग्रामिंग भाषा
५. उपयोग
१.भारतीय भाषा से भारतीय भाषा के कंम्पूटरी कृत कोश के लिए
२.भारतीय भाषाओं से भारतीय भाषाओं के मशीनी अनुवाद में
उपसंहार

No comments:

समय