हस्तलिपि अभिज्ञान: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 23: Line 23:


==ऑनलाइन मान्यता ==
==ऑनलाइन मान्यता ==
ऑनलाइन लिखावट पहचान में पाठ का स्वचालित रूपांतरण शामिल होता है क्योंकि यह एक विशेष [[digitizer]] या पीडीए पर लिखा जाता है, जहां एक सेंसर पेन-टिप मूवमेंट के साथ-साथ पेन-अप/पेन-डाउन स्विचिंग को भी पकड़ लेता है। इस प्रकार के डेटा को डिजिटल स्याही के रूप में जाना जाता है और इसे लिखावट का डिजिटल प्रतिनिधित्व माना जा सकता है। प्राप्त सिग्नल को अक्षर कोड में परिवर्तित किया जाता है जो कंप्यूटर और टेक्स्ट-प्रोसेसिंग अनुप्रयोगों में प्रयोग करने योग्य होते हैं।
ऑनलाइन हस्तलिपि समरूपता में विषय का स्वचालित रूपांतरण सम्मलित होता है चूंकि यह एक विशेष [[Index.php?title=डिजिटीज़ेर|डिजिटीज़ेर]] या PDA पर लिखा जाता है, जहां एक सेंसर पेन-टिप मूवमेंट के साथ-साथ पेन-अप/पेन-डाउन स्विचिंग को भी पकड़ लेता है। इस प्रकार के डेटा को डिजिटल स्याही के रूप में जाना जाता है और इसे हस्तलिपि का डिजिटल प्रतिनिधित्व माना जा सकता है। प्राप्त सिग्नल को अक्षर कोड में परिवर्तित किया जाता है जो कंप्यूटर और टेक्स्ट-प्रोसेसिंग अनुप्रयोगों में प्रयोग करने योग्य होते हैं।


ऑनलाइन लिखावट पहचान इंटरफ़ेस के तत्वों में आम तौर पर शामिल हैं:
ऑनलाइन हस्तलिपि समरूपता अंतरापृष्ठ के तत्वों में सामान्यतः सम्मलित हैं:


* उपयोगकर्ता के लिखने के लिए एक कलम या लेखनी सम्मलित है।
* उपयोगकर्ता के लिखने के लिए एक कलम या लेखनी सम्मलित है।
* एक स्पर्श संवेदनशील सतह, जिसे आउटपुट डिस्प्ले के साथ एकीकृत या उसके निकट किया जा सकता है।
* एक स्पर्श संवेदनशील सतह, जिसे आउटपुट डिस्प्ले के साथ एकीकृत या उसके निकट किया जा सकता है।
* एक सॉफ्टवेयर एप्लिकेशन जो लेखन सतह पर स्टाइलस की गतिविधियों की व्याख्या करता है, परिणामी स्ट्रोक्स को डिजिटल टेक्स्ट में अनुवादित करता है।
* एक सॉफ्टवेयर एप्लिकेशन जो लेखन सतह पर स्टाइलस की गतिविधियों की व्याख्या करता है, परिणामी रेखा को डिजिटल विषय में अनुवादित करता है।


ऑनलाइन लिखावट पहचानने की प्रक्रिया को कुछ सामान्य चरणों में विभाजित किया जा सकता है:
ऑनलाइन हस्तलिपि समरूपता की प्रक्रिया को कुछ सामान्य चरणों में विभाजित किया जा सकता है:


* प्रीप्रोसेसिंग,
* प्रीप्रोसेसिंग,
Line 37: Line 37:
*वर्गीकरण
*वर्गीकरण


प्रीप्रोसेसिंग का उद्देश्य इनपुट डेटा में अप्रासंगिक जानकारी को त्यागना है, जो मान्यता को नकारात्मक रूप से प्रभावित कर सकता है।<ref>Huang, B.; Zhang, Y. and Kechadi, M.; ''Preprocessing Techniques for Online Handwriting Recognition. Intelligent Text Categorization and Clustering'', Springer Berlin Heidelberg, 2009, Vol. 164, "Studies in Computational Intelligence" pp. 25–45.</ref> यह गति और सटीकता से संबंधित है। प्रीप्रोसेसिंग में आमतौर पर बाइनराइज़ेशन, सामान्यीकरण, सैंपलिंग, स्मूथिंग और डीनोइज़िंग शामिल होते हैं।<ref>Holzinger, A.; Stocker, C.; Peischl, B. and Simonic, K.-M.; ''[http://www.mdpi.com/1099-4300/14/11/2324 On Using Entropy for Enhancing Handwriting Preprocessing]'', Entropy 2012, 14, pp. 2324–2350.</ref> दूसरा चरण फीचर निष्कर्षण है। प्रीप्रोसेसिंग एल्गोरिदम से प्राप्त दो- या उच्च-आयामी वेक्टर फ़ील्ड में से, उच्च-आयामी डेटा निकाला जाता है। इस कदम का उद्देश्य मान्यता मॉडल के लिए महत्वपूर्ण जानकारी को उजागर करना है। इस डेटा में पेन का दबाव, वेग या लिखने की दिशा में बदलाव जैसी जानकारी शामिल हो सकती है। अंतिम बड़ा कदम वर्गीकरण है. इस चरण में, निकाले गए फीचर्स को अलग-अलग वर्गों में मैप करने के लिए विभिन्न मॉडलों का उपयोग किया जाता है और इस प्रकार उन वर्णों या शब्दों की पहचान की जाती है जो फीचर्स का प्रतिनिधित्व करते हैं।
प्रीप्रोसेसिंग का उद्देश्य इनपुट डेटा में अप्रासंगिक जानकारी को त्यागना है, जो मान्यता को नकारात्मक रूप से प्रभावित कर सकता है।<ref>Huang, B.; Zhang, Y. and Kechadi, M.; ''Preprocessing Techniques for Online Handwriting Recognition. Intelligent Text Categorization and Clustering'', Springer Berlin Heidelberg, 2009, Vol. 164, "Studies in Computational Intelligence" pp. 25–45.</ref> यह गति और सटीकता से संबंधित है। प्रीप्रोसेसिंग में सामान्यतः बाइनराइज़ेशन, सामान्यीकरण, सैंपलिंग, स्मूथिंग और डीनोइज़िंग सम्मलित होते हैं।<ref>Holzinger, A.; Stocker, C.; Peischl, B. and Simonic, K.-M.; ''[http://www.mdpi.com/1099-4300/14/11/2324 On Using Entropy for Enhancing Handwriting Preprocessing]'', Entropy 2012, 14, pp. 2324–2350.</ref> दूसरा चरण फीचर निष्कर्षण है। प्रीप्रोसेसिंग एल्गोरिदम से प्राप्त दो- या उच्च-आयामी वेक्टर फ़ील्ड में से, उच्च-आयामी डेटा निकाला जाता है। इस कदम का उद्देश्य मान्यता मॉडल के लिए महत्वपूर्ण जानकारी को उजागर करना है। इस डेटा में पेन का दबाव, वेग या लिखने की दिशा में बदलाव जैसी जानकारी सम्मलित हो सकती है। अंतिम बड़ा कदम वर्गीकरण है. इस चरण में, निकाले गए फीचर्स को अलग-अलग वर्गों में मैप करने के लिए विभिन्न मॉडलों का उपयोग किया जाता है और इस प्रकार उन वर्णों या शब्दों की पहचान की जाती है जो फीचर्स का प्रतिनिधित्व करते हैं।


=== हार्डवेयर ===
=== हार्डवेयर ===
कीबोर्ड इनपुट के प्रतिस्थापन के रूप में लिखावट पहचान को शामिल करने वाले वाणिज्यिक उत्पाद 1980 के दशक की शुरुआत में पेश किए गए थे। उदाहरणों में [[पेंसेप्ट]] पेनपैड<ref>{{Citation
कीबोर्ड इनपुट के प्रतिस्थापन के रूप में हस्तलिपि समरूपता को सम्लित करने वाले वाणिज्यिक उत्पाद 1980 के दशक की आरंभ में पेश किए गए थे। उदाहरणों में [[पेंसेप्ट]] पेनपैड<ref>{{Citation
   | title = Pencept Penpad (TM) 200 Product Literature
   | title = Pencept Penpad (TM) 200 Product Literature
   | publisher= Pencept, Inc.
   | publisher= Pencept, Inc.
   | date=1982-08-15
   | date=1982-08-15
   | url=http://users.erols.com/rwservices/pens/biblio83.html#Pencept83
   | url=http://users.erols.com/rwservices/pens/biblio83.html#Pencept83
   }}</ref> और इन्फोराइट पॉइंट-ऑफ-सेल टर्मिनल जैसे हस्तलेखन टर्मिनल शामिल हैं।<ref>{{Citation
   }}</ref> और इन्फोराइट पॉइंट-ऑफ-सेल टर्मिनल जैसे हस्तलेखन टर्मिनल सम्मलित हैं।<ref>{{Citation
   | title = Inforite Hand Character Recognition Terminal
   | title = Inforite Hand Character Recognition Terminal
   | publisher= Cadre Systems Limited, England
   | publisher= Cadre Systems Limited, England
Line 62: Line 62:
   }}</ref> और अन्य . पहला व्यावसायिक रूप से उपलब्ध टैबलेट-प्रकार का पोर्टेबल कंप्यूटर [[Index.php?title=GRID सिस्टम्स|GRID सिस्टम्स]]  का GIRD पैड था, जिसे सितंबर 1989 में जारी किया गया था। इसका ऑपरेटिंग सिस्टम [[Index.php?title=MS-डॉस|MS-डॉस]] पर आधारित था।
   }}</ref> और अन्य . पहला व्यावसायिक रूप से उपलब्ध टैबलेट-प्रकार का पोर्टेबल कंप्यूटर [[Index.php?title=GRID सिस्टम्स|GRID सिस्टम्स]]  का GIRD पैड था, जिसे सितंबर 1989 में जारी किया गया था। इसका ऑपरेटिंग सिस्टम [[Index.php?title=MS-डॉस|MS-डॉस]] पर आधारित था।


1990 के दशक की शुरुआत में,[[Index.php?title=NCR|NCR]], [[Index.php?title=IBM|IBM]] और [[Index.php?title=EO|EO]] सहित हार्डवेयर निर्माताओं ने जीओ कॉर्प द्वारा विकसित [[Index.php?title=पेनप्वाइंट|पेनप्वाइंट]] ऑपरेटिंग सिस्टम पर चलने वाले [[टैबलेट कंप्यूटर]] जारी किए है। पेनपॉइंट ने लिखावट पहचान और इशारों का उपयोग किया और तीसरे पक्ष के सॉफ़्टवेयर को सुविधाएं प्रदान कीं। आईबीएम का टैबलेट कंप्यूटर [[Index.php?title= थिंकपैड|थिंकपैड]] नाम का उपयोग करने वाला पहला कंप्यूटर था और आईबीएम की लिखावट पहचान का उपयोग करता था।  इस पहचान प्रणाली को बाद में पेन कंप्यूटिंग के लिए माइक्रोसॉफ्ट विंडोज़ और ओएस/2 के लिए आईबीएम के पेन में पोर्ट किया गया। इनमें से कोई भी व्यावसायिक रूप से सफल नहीं था।
1990 के दशक की आरंभ में,[[Index.php?title=NCR|NCR]], [[Index.php?title=IBM|IBM]] और [[Index.php?title=EO|EO]] सहित हार्डवेयर निर्माताओं ने GO कॉर्प द्वारा विकसित [[Index.php?title=पेनप्वाइंट|पेनप्वाइंट]] ऑपरेटिंग सिस्टम पर चलने वाले [[टैबलेट कंप्यूटर]] जारी किए है। पेनपॉइंट ने हस्तलिपि समरूपता और इशारों का उपयोग किया और तीसरे पक्ष के सॉफ़्टवेयर को सुविधाएं प्रदान कीं है। IBM का टैबलेट कंप्यूटर [[Index.php?title= थिंकपैड|थिंकपैड]] नाम का उपयोग करने वाला पहला कंप्यूटर था और IBM की हस्तलिपि समरूपता का उपयोग करता था।  इस पहचान प्रणाली को बाद में पेन कंप्यूटिंग के लिए माइक्रोसॉफ्ट विंडोज़ और OS/2 के लिए IBM के पेन में पोर्ट किया गया था। इनमें से कोई भी व्यावसायिक रूप से सफल नहीं था।


इलेक्ट्रॉनिक्स में प्रगति ने लिखावट पहचान के लिए आवश्यक कंप्यूटिंग शक्ति को टैबलेट कंप्यूटर की तुलना में छोटे फॉर्म फैक्टर में फिट करने की अनुमति दी, और लिखावट पहचान को अक्सर हाथ से पकड़े गए पीडीए के लिए इनपुट विधि के रूप में उपयोग किया जाता है। लिखित इनपुट प्रदान करने वाला पहला पीडीए [[एप्पल न्यूटन]] था, जिसने जनता को एक सुव्यवस्थित उपयोगकर्ता इंटरफ़ेस के लाभ से अवगत कराया। हालाँकि, सॉफ्टवेयर की अविश्वसनीयता के कारण यह उपकरण व्यावसायिक रूप से सफल नहीं रहा, जो उपयोगकर्ता के लेखन पैटर्न को सीखने की कोशिश करता था। [[न्यूटन ओएस]] 2.0 के जारी होने तक, जिसमें लिखावट की पहचान में काफी सुधार हुआ था, जिसमें मॉडललेस त्रुटि सुधार जैसी वर्तमान पहचान प्रणालियों में अभी भी नहीं पाई जाने वाली अनूठी विशेषताएं शामिल थीं, बड़े पैमाने पर नकारात्मक पहली छाप बनी थी। ऐप्पल न्यूटन के बंद होने के बाद, इस सुविधा को मैक ओएस एक्स 10.2 और बाद में इंकवेल के रूप में शामिल किया गया था।
इलेक्ट्रॉनिक्स में प्रगति ने हस्तलिपि समरूपता के लिए आवश्यक कंप्यूटिंग शक्ति को टैबलेट कंप्यूटर की तुलना में छोटे फॉर्म फैक्टर में फिट करने की अनुमति दी, और हस्तलिपि समरूपता को अधिकांशतः हाथ से पकड़े गए PDA के लिए इनपुट विधि के रूप में उपयोग किया जाता है। लिखित इनपुट प्रदान करने वाला पहला PDA [[एप्पल न्यूटन]] था, जिसने जनता को एक सुव्यवस्थित उपयोगकर्ता इंटरफ़ेस के लाभ से अवगत कराया था। चूंकि, सॉफ्टवेयर की अविश्वसनीयता के कारण यह उपकरण व्यावसायिक रूप से सफल नहीं रहा, जो उपयोगकर्ता के लेखन पैटर्न को सीखने की कोशिश करता था। [[Index.php?title=न्यूटन OS|न्यूटन OS]] 2.0 के जारी होने तक, जिसमें हस्तलिपि की समरूपता में काफी सुधार हुआ था, जिसमें मॉडललेस त्रुटि सुधार जैसी वर्तमान पहचान प्रणालियों में अभी भी नहीं पाई जाने वाली अनूठी विशेषताएं सम्मलित थीं, बड़े पैमाने पर नकारात्मक पहली छाप बनी थी। ऐप्पल न्यूटन के बंद होने के बाद, इस सुविधा को मैक OS X 10.2 और बाद में इंकवेल के रूप में सम्मलित किया गया था।


पाम ने बाद में ग्रैफ़िटी पहचान प्रणाली पर आधारित पीडीए की एक सफल श्रृंखला शुरू की। ग्रैफ़िटी ने प्रत्येक वर्ण के लिए "यूनिस्ट्रोक्स", या एक-स्ट्रोक रूपों के एक सेट को परिभाषित करके प्रयोज्य में सुधार किया। इससे गलत इनपुट की संभावना कम हो गई, हालांकि स्ट्रोक पैटर्न को याद रखने से उपयोगकर्ता के लिए सीखने की अवस्था में वृद्धि हुई। ग्रैफ़िटी लिखावट मान्यता को ज़ेरॉक्स द्वारा रखे गए पेटेंट का उल्लंघन करते हुए पाया गया, और पाम ने ग्रैफ़िटी को सीआईसी लिखावट मान्यता के लाइसेंस प्राप्त संस्करण के साथ बदल दिया, जो यूनिस्ट्रोक रूपों का समर्थन करते हुए, ज़ेरॉक्स पेटेंट से पहले का था। उल्लंघन के अदालती निष्कर्ष को अपील पर उलट दिया गया, और फिर बाद की अपील पर फिर से उलट दिया गया। बाद में इसमें शामिल पक्षों ने इस और अन्य पेटेंट से संबंधित समझौते पर बातचीत की।
पाम ने बाद में ग्रैफ़िटी समरूपता प्रणाली पर आधारित PDA की एक सफल श्रृंखला प्रारंभ की थी। ग्रैफ़िटी ने प्रत्येक वर्ण के लिए "यूनिस्ट्रोक्स", या एक-स्ट्रोक रूपों के एक सेट को परिभाषित करके प्रयोज्य में सुधार किया था। इससे गलत इनपुट की संभावना कम हो गई, चूंकि स्ट्रोक पैटर्न को याद रखने से उपयोगकर्ता के लिए सीखने की अवस्था में वृद्धि हुई थी। ग्रैफ़िटी लिखावट मान्यता को ज़ेरॉक्स द्वारा रखे गए पेटेंट का उल्लंघन करते हुए पाया गया, और पाम ने ग्रैफ़िटी को CIC हस्तलिपि समरूपता के लाइसेंस प्राप्त संस्करण के साथ बदल दिया, जो यूनिस्ट्रोक रूपों का समर्थन करते हुए, ज़ेरॉक्स पेटेंट से पहले का था। उल्लंघन में अदालती निष्कर्ष की अपीलों पर परिवर्तन कर दिया गया, और फिर बाद की अपील पर फिर से परिवर्तन किया गया था। बाद में इसमें सम्मलित पक्षों ने इस और अन्य पेटेंट से संबंधित समझौते पर बातचीत की थी।


टैबलेट पीसी एक नोटबुक कंप्यूटर है जिसमें एक [[Index.php?title=डिजिटाइज़र टैबलेट|डिजिटाइज़र टैबलेट]] और एक स्टाइलस होता है, जो उपयोगकर्ता को यूनिट की स्क्रीन पर हाथ से टेक्स्ट लिखने की अनुमति देता है। ऑपरेटिंग सिस्टम लिखावट को पहचानता है और उसे टेक्स्ट में परिवर्तित करता है। [[विंडोज विस्टा]] और [[विंडोज 7]] में वैयक्तिकरण सुविधाएँ शामिल हैं जो उपयोगकर्ता के अंग्रेजी, जापानी, चीनी पारंपरिक, चीनी सरलीकृत और कोरियाई के लिए लेखन पैटर्न या शब्दावली सीखती हैं। सुविधाओं में एक "वैयक्तिकरण विज़ार्ड" शामिल है जो उपयोगकर्ता की लिखावट के नमूनों के लिए संकेत देता है और उच्च सटीकता पहचान के लिए सिस्टम को फिर से प्रशिक्षित करने के लिए उनका उपयोग करता है। यह प्रणाली पीडीए के लिए [[ विंडोज़ मोबाइल ]] ओएस में नियोजित कम उन्नत लिखावट पहचान प्रणाली से अलग है।
टैबलेट PC एक नोटबुक कंप्यूटर है जिसमें एक [[Index.php?title=डिजिटाइज़र टैबलेट|डिजिटाइज़र टैबलेट]] और एक स्टाइलस होता है, जो उपयोगकर्ता को यूनिट की स्क्रीन पर हाथ से टेक्स्ट लिखने की अनुमति देता है। ऑपरेटिंग सिस्टम लिखावट को पहचानता है और उसे टेक्स्ट में परिवर्तित करता है। [[विंडोज विस्टा]] और [[विंडोज 7]] में वैयक्तिकरण सुविधाएँ सम्मलित हैं जो उपयोगकर्ता के अंग्रेजी, जापानी, चीनी पारंपरिक, चीनी सरलीकृत और कोरियाई के लिए लेखन पैटर्न या शब्दावली सीखती हैं। सुविधाओं में एक "वैयक्तिकरण विज़ार्ड" सम्मलित है जो उपयोगकर्ता की हस्तलिपि के प्रतिरूपों के लिए संकेत देता है और उच्च सटीकता पहचान के लिए सिस्टम को फिर से प्रशिक्षित करने के लिए उनका उपयोग करता है। यह प्रणाली PDA के लिए[[ विंडोज़ मोबाइल ]]OS में नियोजित कम उन्नत हस्तलिपि समरूपता प्रणाली से अलग है।


हालाँकि लिखावट पहचान एक इनपुट फॉर्म है जिसकी जनता आदी हो गई है, लेकिन इसने डेस्कटॉप कंप्यूटर या लैपटॉप में व्यापक उपयोग हासिल नहीं किया है। यह अभी भी आम तौर पर स्वीकार किया जाता है कि [[अल्फ़ान्यूमेरिक कीबोर्ड]] इनपुट तेज़ और अधिक विश्वसनीय दोनों है। 2006 तक, कई पीडीए लिखावट इनपुट की पेशकश करते हैं, कभी-कभी प्राकृतिक घसीट लिखावट को भी स्वीकार करते हैं, लेकिन सटीकता अभी भी एक समस्या है, और कुछ लोगों को अभी भी एक साधारण [[Index.php?title=ऑन-स्क्रीन कीबोर्ड|ऑन-स्क्रीन कीबोर्ड]] भी अधिक कुशल लगता है।
चूंकि हस्तलिपि समरूपता एक इनपुट फॉर्म है जिसकी जनता आदी हो गई है, परंतु इसने डेस्कटॉप कंप्यूटर या लैपटॉप में व्यापक उपयोग हासिल नहीं किया है। यह अभी भी सामान्यतः स्वीकार किया जाता है कि [[अल्फ़ान्यूमेरिक कीबोर्ड]] इनपुट तेज़ और अधिक विश्वसनीय दोनों है। 2006 तक, कई PDA हस्तलिपि इनपुट की प्रस्तुत करते हैं, कभी-कभी प्राकृतिक कर्षण लिखावट को भी स्वीकार करते हैं, परंतु सटीकता अभी भी एक समस्या है, और कुछ लोगों को अभी भी एक साधारण [[Index.php?title=ऑन-स्क्रीन कीबोर्ड|ऑन-स्क्रीन कीबोर्ड]] भी अधिक कुशल लगता है।


===सॉफ़्टवेयर===
===सॉफ़्टवेयर===

Revision as of 23:29, 10 July 2023

देश के स्टार टेक्स विलियम्स के हस्ताक्षर

हस्तलिपि अभिज्ञान (HWR), जिसे हस्तलिपि पाठ्य पुस्तक अभिज्ञान के रूप में भी जाना जाता है, कागज़ी आलेखों, फोटोग्राफ,टच स्क्रीन और अन्य उपकरणों जैसे स्रोतों से सुगम हस्तलिखित इनपुट प्राप्त करने और व्याख्या करने की कंप्यूटर की क्षमता है।[1][2] लिखित पाठ्य पुस्तक की छवि को दृक् रेखाचित्रण (ऑप्टिकल कैरेक्टर रिकग्निशन) या इंटेलीजेंट वर्ड रिकग्निशन द्वारा पेपर से "ऑफ लाइन" का अनुभव किया जा सकता है। वैकल्पिक रूप से, पेन टिप की गतिविधियों को "ऑन लाइन" से अनुभव किया जा सकता है, उदाहरण के लिए पेन-आधारित कंप्यूटर स्क्रीन सतह द्वारा, सामान्यतः उपलब्ध हैं। एक हस्तलिपि समरूपता प्रणाली स्वरूपण को संभालती है, वर्णों में सही विभाजन करती है, और सबसे प्रशंसनीय शब्द ढूंढती है।

ऑफ़लाइन मान्यता

ऑफ़लाइन हस्तलिपि समरूपता में एक छवि में विषय का स्वचालित रूप से अक्षर कोड में रूपांतरण सम्मलित होता है जो कंप्यूटर और पाठ-प्रसंस्करण अनुप्रयोगों में उपयोग करने योग्य होता है। इस फॉर्म द्वारा प्राप्त डेटा को लिखावट का स्थिर प्रतिनिधित्व माना जाता है। ऑफ़लाइन हस्तलिपि पहचानना तुलनात्मक रूप से कठिन है, चूंकि अलग-अलग लोगों की हस्तलिपि शैली अलग-अलग होती है। और, आज की स्थिति के अनुसार, OCR इंजन मुख्य रूप से मशीन मुद्रित विषय और ICR विषय पर केंद्रित हैं।

पारंपरिक तकनीक

चरित्र निष्कर्षण

ऑफ़लाइन चरित्र पहचान में अधिकांशतः किसी प्रपत्र या आलेख को स्कैन करना सम्मलित होता है। इसका उद्देश्य है कि स्कैन की गई छवि में सम्मलित अलग-अलग स्वरूपों को निकालने की आवश्यकता होगी। ऐसे उपकरण सम्मलित हैं जो इस चरण को निष्पादित करने में सक्षम हैं।[3] चूंकि, इस चरण में कई सामान्य निर्बलता हैं। सबसे सामान्यः तब होता है जब जुड़े हुए वर्ण दोनों वर्णों वाली एकल उप-छवि के रूप में लौटाए जाते हैं। यह समरूपता चरण में एक बड़ी समस्या का कारण बनता है। फिर भी कई कलनविधि उपलब्ध हैं जो जुड़े हुए स्वरूपों के विपत्ति को कम करते हैं।

चरित्र पहचान

अलग-अलग वर्ण निकाले जाने के बाद, संबंधित कंप्यूटर वर्ण की पहचान करने के लिए एक समरूपता यन्त्र का उपयोग किया जाता है। वर्तमान में कई अलग-अलग समरूपता तकनीकें उपलब्ध हैं।

सुविधा निष्कर्षण

रूपक निष्कर्षण तंत्रिका नेटवर्क पहचानकर्ताओं के समान ही काम करता है। चूंकि, प्रोग्रामर को उन गुणों को स्वतः रूप से निर्धारित करना होगा जो उन्हें महत्वपूर्ण लगते हैं। यह दृष्टिकोण पहचानकर्ता को समरूपता में प्रयुक्त गुणों पर अधिक नियंत्रण देता है। फिर भी इस दृष्टिकोण का उपयोग करने वाली किसी भी प्रणाली को तंत्रिका नेटवर्क की तुलना में काफी अधिक विकास समय की आवश्यकता होती है चूंकि गुण स्वचालित रूप से नहीं सीखे जाते हैं।

आधुनिक तकनीक

जहां पारंपरिक तकनीकें समरूपता के लिए अलग-अलग स्वरूपों को खंडित करने पर ध्यान केंद्रित करती हैं, वहीं आधुनिक तकनीकें विषय की खंडित पंक्ति में सभी स्वरूपों को पहचानने पर ध्यान केंद्रित करती हैं। विशेष रूप से वे मशीन लर्निंग तकनीकों पर ध्यान केंद्रित करते हैं जो पहले उपयोग की गई सीमित रूपलेख अभियांत्रिकी से बचते हुए दृश्य सुविधाओं को सीखने में सक्षम हैं। अत्याधुनिक विधियां पाठ्य प्रणाली छवि की कई ओवरलैपिंग विंडो पर दृश्य सुविधाओं को निकालने के लिए कन्वेन्शनल नेटवर्क का उपयोग करती हैं, जिसका उपयोग आवर्ती तंत्रिका नेटवर्क चरित्र संभावनाओं का उत्पादन करने के लिए करता है।[4]


ऑनलाइन मान्यता

ऑनलाइन हस्तलिपि समरूपता में विषय का स्वचालित रूपांतरण सम्मलित होता है चूंकि यह एक विशेष डिजिटीज़ेर या PDA पर लिखा जाता है, जहां एक सेंसर पेन-टिप मूवमेंट के साथ-साथ पेन-अप/पेन-डाउन स्विचिंग को भी पकड़ लेता है। इस प्रकार के डेटा को डिजिटल स्याही के रूप में जाना जाता है और इसे हस्तलिपि का डिजिटल प्रतिनिधित्व माना जा सकता है। प्राप्त सिग्नल को अक्षर कोड में परिवर्तित किया जाता है जो कंप्यूटर और टेक्स्ट-प्रोसेसिंग अनुप्रयोगों में प्रयोग करने योग्य होते हैं।

ऑनलाइन हस्तलिपि समरूपता अंतरापृष्ठ के तत्वों में सामान्यतः सम्मलित हैं:

  • उपयोगकर्ता के लिखने के लिए एक कलम या लेखनी सम्मलित है।
  • एक स्पर्श संवेदनशील सतह, जिसे आउटपुट डिस्प्ले के साथ एकीकृत या उसके निकट किया जा सकता है।
  • एक सॉफ्टवेयर एप्लिकेशन जो लेखन सतह पर स्टाइलस की गतिविधियों की व्याख्या करता है, परिणामी रेखा को डिजिटल विषय में अनुवादित करता है।

ऑनलाइन हस्तलिपि समरूपता की प्रक्रिया को कुछ सामान्य चरणों में विभाजित किया जा सकता है:

  • प्रीप्रोसेसिंग,
  • सुविधा निष्कर्षण और
  • वर्गीकरण

प्रीप्रोसेसिंग का उद्देश्य इनपुट डेटा में अप्रासंगिक जानकारी को त्यागना है, जो मान्यता को नकारात्मक रूप से प्रभावित कर सकता है।[5] यह गति और सटीकता से संबंधित है। प्रीप्रोसेसिंग में सामान्यतः बाइनराइज़ेशन, सामान्यीकरण, सैंपलिंग, स्मूथिंग और डीनोइज़िंग सम्मलित होते हैं।[6] दूसरा चरण फीचर निष्कर्षण है। प्रीप्रोसेसिंग एल्गोरिदम से प्राप्त दो- या उच्च-आयामी वेक्टर फ़ील्ड में से, उच्च-आयामी डेटा निकाला जाता है। इस कदम का उद्देश्य मान्यता मॉडल के लिए महत्वपूर्ण जानकारी को उजागर करना है। इस डेटा में पेन का दबाव, वेग या लिखने की दिशा में बदलाव जैसी जानकारी सम्मलित हो सकती है। अंतिम बड़ा कदम वर्गीकरण है. इस चरण में, निकाले गए फीचर्स को अलग-अलग वर्गों में मैप करने के लिए विभिन्न मॉडलों का उपयोग किया जाता है और इस प्रकार उन वर्णों या शब्दों की पहचान की जाती है जो फीचर्स का प्रतिनिधित्व करते हैं।

हार्डवेयर

कीबोर्ड इनपुट के प्रतिस्थापन के रूप में हस्तलिपि समरूपता को सम्लित करने वाले वाणिज्यिक उत्पाद 1980 के दशक की आरंभ में पेश किए गए थे। उदाहरणों में पेंसेप्ट पेनपैड[7] और इन्फोराइट पॉइंट-ऑफ-सेल टर्मिनल जैसे हस्तलेखन टर्मिनल सम्मलित हैं।[8] पर्सनल कंप्यूटर के लिए बड़े उपभोक्ता बाजार के आगमन के साथ, पर्सनल कंप्यूटर पर कीबोर्ड और माउस को सिंगल पॉइंटिंग/हैंडराइटिंग सिस्टम से बदलने के लिए कई वाणिज्यिक उत्पाद पेश किए गए, जैसे कि पेंसेप्ट,[9] CIC[10] और अन्य . पहला व्यावसायिक रूप से उपलब्ध टैबलेट-प्रकार का पोर्टेबल कंप्यूटर GRID सिस्टम्स का GIRD पैड था, जिसे सितंबर 1989 में जारी किया गया था। इसका ऑपरेटिंग सिस्टम MS-डॉस पर आधारित था।

1990 के दशक की आरंभ में,NCR, IBM और EO सहित हार्डवेयर निर्माताओं ने GO कॉर्प द्वारा विकसित पेनप्वाइंट ऑपरेटिंग सिस्टम पर चलने वाले टैबलेट कंप्यूटर जारी किए है। पेनपॉइंट ने हस्तलिपि समरूपता और इशारों का उपयोग किया और तीसरे पक्ष के सॉफ़्टवेयर को सुविधाएं प्रदान कीं है। IBM का टैबलेट कंप्यूटर थिंकपैड नाम का उपयोग करने वाला पहला कंप्यूटर था और IBM की हस्तलिपि समरूपता का उपयोग करता था। इस पहचान प्रणाली को बाद में पेन कंप्यूटिंग के लिए माइक्रोसॉफ्ट विंडोज़ और OS/2 के लिए IBM के पेन में पोर्ट किया गया था। इनमें से कोई भी व्यावसायिक रूप से सफल नहीं था।

इलेक्ट्रॉनिक्स में प्रगति ने हस्तलिपि समरूपता के लिए आवश्यक कंप्यूटिंग शक्ति को टैबलेट कंप्यूटर की तुलना में छोटे फॉर्म फैक्टर में फिट करने की अनुमति दी, और हस्तलिपि समरूपता को अधिकांशतः हाथ से पकड़े गए PDA के लिए इनपुट विधि के रूप में उपयोग किया जाता है। लिखित इनपुट प्रदान करने वाला पहला PDA एप्पल न्यूटन था, जिसने जनता को एक सुव्यवस्थित उपयोगकर्ता इंटरफ़ेस के लाभ से अवगत कराया था। चूंकि, सॉफ्टवेयर की अविश्वसनीयता के कारण यह उपकरण व्यावसायिक रूप से सफल नहीं रहा, जो उपयोगकर्ता के लेखन पैटर्न को सीखने की कोशिश करता था। न्यूटन OS 2.0 के जारी होने तक, जिसमें हस्तलिपि की समरूपता में काफी सुधार हुआ था, जिसमें मॉडललेस त्रुटि सुधार जैसी वर्तमान पहचान प्रणालियों में अभी भी नहीं पाई जाने वाली अनूठी विशेषताएं सम्मलित थीं, बड़े पैमाने पर नकारात्मक पहली छाप बनी थी। ऐप्पल न्यूटन के बंद होने के बाद, इस सुविधा को मैक OS X 10.2 और बाद में इंकवेल के रूप में सम्मलित किया गया था।

पाम ने बाद में ग्रैफ़िटी समरूपता प्रणाली पर आधारित PDA की एक सफल श्रृंखला प्रारंभ की थी। ग्रैफ़िटी ने प्रत्येक वर्ण के लिए "यूनिस्ट्रोक्स", या एक-स्ट्रोक रूपों के एक सेट को परिभाषित करके प्रयोज्य में सुधार किया था। इससे गलत इनपुट की संभावना कम हो गई, चूंकि स्ट्रोक पैटर्न को याद रखने से उपयोगकर्ता के लिए सीखने की अवस्था में वृद्धि हुई थी। ग्रैफ़िटी लिखावट मान्यता को ज़ेरॉक्स द्वारा रखे गए पेटेंट का उल्लंघन करते हुए पाया गया, और पाम ने ग्रैफ़िटी को CIC हस्तलिपि समरूपता के लाइसेंस प्राप्त संस्करण के साथ बदल दिया, जो यूनिस्ट्रोक रूपों का समर्थन करते हुए, ज़ेरॉक्स पेटेंट से पहले का था। उल्लंघन में अदालती निष्कर्ष की अपीलों पर परिवर्तन कर दिया गया, और फिर बाद की अपील पर फिर से परिवर्तन किया गया था। बाद में इसमें सम्मलित पक्षों ने इस और अन्य पेटेंट से संबंधित समझौते पर बातचीत की थी।

टैबलेट PC एक नोटबुक कंप्यूटर है जिसमें एक डिजिटाइज़र टैबलेट और एक स्टाइलस होता है, जो उपयोगकर्ता को यूनिट की स्क्रीन पर हाथ से टेक्स्ट लिखने की अनुमति देता है। ऑपरेटिंग सिस्टम लिखावट को पहचानता है और उसे टेक्स्ट में परिवर्तित करता है। विंडोज विस्टा और विंडोज 7 में वैयक्तिकरण सुविधाएँ सम्मलित हैं जो उपयोगकर्ता के अंग्रेजी, जापानी, चीनी पारंपरिक, चीनी सरलीकृत और कोरियाई के लिए लेखन पैटर्न या शब्दावली सीखती हैं। सुविधाओं में एक "वैयक्तिकरण विज़ार्ड" सम्मलित है जो उपयोगकर्ता की हस्तलिपि के प्रतिरूपों के लिए संकेत देता है और उच्च सटीकता पहचान के लिए सिस्टम को फिर से प्रशिक्षित करने के लिए उनका उपयोग करता है। यह प्रणाली PDA के लिएविंडोज़ मोबाइल OS में नियोजित कम उन्नत हस्तलिपि समरूपता प्रणाली से अलग है।

चूंकि हस्तलिपि समरूपता एक इनपुट फॉर्म है जिसकी जनता आदी हो गई है, परंतु इसने डेस्कटॉप कंप्यूटर या लैपटॉप में व्यापक उपयोग हासिल नहीं किया है। यह अभी भी सामान्यतः स्वीकार किया जाता है कि अल्फ़ान्यूमेरिक कीबोर्ड इनपुट तेज़ और अधिक विश्वसनीय दोनों है। 2006 तक, कई PDA हस्तलिपि इनपुट की प्रस्तुत करते हैं, कभी-कभी प्राकृतिक कर्षण लिखावट को भी स्वीकार करते हैं, परंतु सटीकता अभी भी एक समस्या है, और कुछ लोगों को अभी भी एक साधारण ऑन-स्क्रीन कीबोर्ड भी अधिक कुशल लगता है।

सॉफ़्टवेयर

प्रारंभिक सॉफ़्टवेयर प्रिंट लिखावट को समझ सकता था जहाँ अक्षर अलग किए गए थे; हालाँकि, जुड़े हुए पात्रों के साथ सरसरी लिखावट ने सायरे के विरोधाभास को प्रस्तुत किया, जो कि चरित्र विभाजन से जुड़ी एक कठिनाई है। 1962 में शेलिया गुबरमैन ने, जो उस समय मॉस्को में थीं, पहला एप्लाइड पैटर्न रिकग्निशन प्रोग्राम लिखा था।[11] वाणिज्यिक उदाहरण कम्युनिकेशंस इंटेलिजेंस कॉर्पोरेशन और आईबीएम जैसी कंपनियों से आए थी।

1990 के दशक की शुरुआत में, दो कंपनियां - पैराग्राफ इंटरनेशनल और लेक्सिकस - ऐसी प्रणालियाँ लेकर आईं जो कर्सिव लिखावट पहचान को समझ सकती थीं। पैराग्राफ रूस में स्थित था और इसकी स्थापना कंप्यूटर वैज्ञानिक स्टीफन पचिकोव ने की थी, जबकि लेक्सिकस की स्थापना रोंजोन नाग और क्रिस कॉर्टगे ने की थी, जो स्टैनफोर्ड विश्वविद्यालय के छात्र थे। पैराग्राफ कैलीग्राफर सिस्टम को ऐप्पल न्यूटन सिस्टम में तैनात किया गया था, और लेक्सिकस लॉन्गहैंड सिस्टम को पेनपॉइंट और विंडोज ऑपरेटिंग सिस्टम के लिए व्यावसायिक रूप से उपलब्ध कराया गया था। लेक्सिकस को 1993 में मोटोरोला द्वारा अधिग्रहित किया गया था और उसने मोटोरोला के लिए चीनी लिखावट पहचान और पूर्वानुमानित पाठ प्रणाली विकसित की। पैराग्राफ को 1997 में एसजीआई द्वारा अधिग्रहित किया गया था और इसकी लिखावट पहचान टीम ने एक पी एंड आई डिवीजन का गठन किया था, जिसे बाद में वाडेम द्वारा एसजीआई से अधिग्रहित किया गया था। Microsoft ने 1999 में Vadem से P&I द्वारा विकसित CalliGrapher हस्तलेखन पहचान और अन्य डिजिटल स्याही प्रौद्योगिकियों का अधिग्रहण कर लिया है।

वोल्फ्राम मैथमेटिका (8.0 या बाद का संस्करण) एक लिखावट या पाठ पहचान फ़ंक्शन Text Recognize भी प्रदान करता है।

अनुसंधान

सरगुर श्रीहरि और जोनाथन हल द्वारा विकसित पहली हस्तलिखित पता व्याख्या प्रणाली में प्रासंगिक जानकारी का दोहन करने के लिए उपयोग की जाने वाली विधि[12]

हस्तलेखन पहचान का अध्ययन करने वाले शिक्षाविदों का एक सक्रिय समुदाय है। हस्तलेखन पहचान के लिए सबसे बड़े सम्मेलन सम-संख्या वाले वर्षों में आयोजित हस्तलेखन पहचान में सीमाओं पर अंतर्राष्ट्रीय सम्मेलन (आईसीएफएचआर) और विषम संख्या वाले वर्षों में आयोजित दस्तावेज़ विश्लेषण और मान्यता पर अंतर्राष्ट्रीय सम्मेलन (आईसीडीएआर) हैं। इन दोनों सम्मेलनों को आईईईई और आईएपीआर द्वारा समर्थन प्राप्त है।

2021 में, ICDAR कार्यवाही कंप्यूटर साइंस, स्प्रिंगर में लेक्चर नोट्स द्वारा प्रकाशित की जाएगी।

अनुसंधान के सक्रिय क्षेत्रों में शामिल हैं:

2009 से परिणाम

2009 के बाद से, स्विस एआई लैब IDSIA में जुर्गन श्मिडहुबर के अनुसंधान समूह में विकसित आवर्ती तंत्रिका नेटवर्क और गहरे फीडफॉरवर्ड न्यूरल नेटवर्क ने कई अंतरराष्ट्रीय हस्तलेखन प्रतियोगिताएं जीती हैं।[13] विशेष रूप से, द्वि-दिशात्मक और बहु-आयामी दीर्घकालिक अल्पकालिक मेमोरी (LSTM)[14][15] एलेक्स ग्रेव्स एट अल की। सीखी जाने वाली तीन अलग-अलग भाषाओं (फ़्रेंच, अरबी, फ़ारसी भाषा) के बारे में किसी भी पूर्व ज्ञान के बिना, 2009 में दस्तावेज़ विश्लेषण और मान्यता (ICDAR) पर अंतर्राष्ट्रीय सम्मेलन में कनेक्टेड हैंडराइटिंग रिकग्निशन में तीन प्रतियोगिताएं जीतीं। आईडीएसआईए में डैन सिरेसन और सहकर्मियों द्वारा हाल ही में फीडफॉरवर्ड नेटवर्क के लिए जीपीयू-आधारित गहन शिक्षण विधियों ने आईसीडीएआर 2011 ऑफ़लाइन चीनी लिखावट पहचान प्रतियोगिता जीती; उनके तंत्रिका नेटवर्क यान लेकुन और एनवाईयू के सहयोगियों की प्रसिद्ध एमएनआईएसटी हस्तलिखित अंक समस्या [16] पर मानव-प्रतिस्पर्धी प्रदर्शन[17] प्राप्त करने वाले पहले कृत्रिम पैटर्न पहचानकर्ता भी थे।

वारविक विश्वविद्यालय के बेंजामिन ग्राहम ने कन्वेन्शनल न्यूरल नेटवर्क के लिए एक दृष्टिकोण का उपयोग करके, केवल 2.61% त्रुटि दर के साथ 2013 की चीनी लिखावट पहचान प्रतियोगिता जीती, जो (2017 तक) विरल कन्वेन्शनल न्यूरल नेटवर्क" में विकसित हुआ है।[18][19]


यह भी देखें

सूचियाँ

संदर्भ

  1. Förstner, Wolfgang (1999). Mustererkennung 1999 : 21. DAGM-Symposium Bonn, 15.-17. September 1999. Joachim M. Buhmann, Annett Faber, Petko Faber. Berlin, Heidelberg. ISBN 978-3-642-60243-6. OCLC 913706869.{{cite book}}: CS1 maint: location missing publisher (link)
  2. Schenk, Joachim (2010). Mensch-maschine-kommunikation : grundlagen von sprach- und bildbasierten benutzerschnittstellen. Gerhard Rigoll. Heidelberg: Springer. ISBN 978-3-642-05457-0. OCLC 609418875.
  3. Java OCR, 5 June 2010. Retrieved 5 June 2010
  4. Puigcerver, Joan. "Are Multidimensional Recurrent Layers Really Necessary for Handwritten Text Recognition?." Document Analysis and Recognition (ICDAR), 2017 14th IAPR International Conference on. Vol. 1. IEEE, 2017.
  5. Huang, B.; Zhang, Y. and Kechadi, M.; Preprocessing Techniques for Online Handwriting Recognition. Intelligent Text Categorization and Clustering, Springer Berlin Heidelberg, 2009, Vol. 164, "Studies in Computational Intelligence" pp. 25–45.
  6. Holzinger, A.; Stocker, C.; Peischl, B. and Simonic, K.-M.; On Using Entropy for Enhancing Handwriting Preprocessing, Entropy 2012, 14, pp. 2324–2350.
  7. Pencept Penpad (TM) 200 Product Literature, Pencept, Inc., 15 August 1982
  8. Inforite Hand Character Recognition Terminal, Cadre Systems Limited, England, 15 August 1982
  9. Users Manual for Penpad 320, Pencept, Inc., 15 June 1984
  10. Handwriter (R) GrafText (TM) System Model GT-5000, Communication Intelligence Corporation, 15 January 1985
  11. Guberman is the inventor of the handwriting recognition technology used today by Microsoft in Windows CE. Source: In-Q-Tel communication, June 3, 2003
  12. S. N. Srihari and E. J. Keubert, "Integration of handwritten address interpretation technology into the United States Postal Service Remote Computer Reader System" Proc. Int. Conf. Document Analysis and Recognition (ICDAR) 1997, IEEE-CS Press, pp. 892–896
  13. 2012 Kurzweil AI Interview Archived 31 August 2018 at the Wayback Machine with Jürgen Schmidhuber on the eight competitions won by his Deep Learning team 2009-2012
  14. Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552
  15. A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, 2009.
  16. D. C. Ciresan, U. Meier, J. Schmidhuber. Multi-column Deep Neural Networks for Image Classification. IEEE Conf. on Computer Vision and Pattern Recognition CVPR 2012.
  17. LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proc. IEEE, 86, pp. 2278–2324.
  18. "विरल नेटवर्क बड़े भौतिकी की सहायता के लिए आते हैं". Quanta Magazine. June 2023. Retrieved 17 June 2023.
  19. Graham, Benjamin. "Spatially-sparse convolutional neural networks." arXiv preprint arXiv:1409.6070 (2014).


बाहरी संबंध