हस्तलिपि अभिज्ञान: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 40: Line 40:


=== हार्डवेयर ===
=== हार्डवेयर ===
कीबोर्ड इनपुट के प्रतिस्थापन के रूप में लिखावट पहचान को शामिल करने वाले वाणिज्यिक उत्पाद 1980 के दशक की शुरुआत में पेश किए गए थे। उदाहरणों में [[पेंसेप्ट]] पेनपैड जैसे हस्तलेखन टर्मिनल शामिल हैं<ref>{{Citation
कीबोर्ड इनपुट के प्रतिस्थापन के रूप में लिखावट पहचान को शामिल करने वाले वाणिज्यिक उत्पाद 1980 के दशक की शुरुआत में पेश किए गए थे। उदाहरणों में [[पेंसेप्ट]] पेनपैड<ref>{{Citation
   | title = Pencept Penpad (TM) 200 Product Literature
   | title = Pencept Penpad (TM) 200 Product Literature
   | publisher= Pencept, Inc.
   | publisher= Pencept, Inc.
   | date=1982-08-15
   | date=1982-08-15
   | url=http://users.erols.com/rwservices/pens/biblio83.html#Pencept83
   | url=http://users.erols.com/rwservices/pens/biblio83.html#Pencept83
   }}</ref> और इन्फोराइट पॉइंट-ऑफ-सेल टर्मिनल।<ref>{{Citation
   }}</ref> और इन्फोराइट पॉइंट-ऑफ-सेल टर्मिनल जैसे हस्तलेखन टर्मिनल शामिल हैं।<ref>{{Citation
   | title = Inforite Hand Character Recognition Terminal
   | title = Inforite Hand Character Recognition Terminal
   | publisher= Cadre Systems Limited, England
   | publisher= Cadre Systems Limited, England
   | date=1982-08-15
   | date=1982-08-15
   | url=http://users.erols.com/rwservices/pens/biblio83.html#Inforite82
   | url=http://users.erols.com/rwservices/pens/biblio83.html#Inforite82
   }}</ref>
   }}</ref> पर्सनल कंप्यूटर के लिए बड़े उपभोक्ता बाजार के आगमन के साथ, पर्सनल कंप्यूटर पर कीबोर्ड और माउस को सिंगल पॉइंटिंग/हैंडराइटिंग सिस्टम से बदलने के लिए कई वाणिज्यिक उत्पाद पेश किए गए, जैसे कि पेंसेप्ट,<ref name="users.erols.com">{{Citation
पर्सनल कंप्यूटर के लिए बड़े उपभोक्ता बाजार के आगमन के साथ, पर्सनल कंप्यूटर पर कीबोर्ड और माउस को सिंगल पॉइंटिंग/हैंडराइटिंग सिस्टम से बदलने के लिए कई वाणिज्यिक उत्पाद पेश किए गए, जैसे कि पेंसेप्ट,<ref name="users.erols.com">{{Citation
   | title = Users Manual for Penpad 320
   | title = Users Manual for Penpad 320
   | publisher= Pencept, Inc.
   | publisher= Pencept, Inc.
   | date=1984-06-15
   | date=1984-06-15
   | url=http://users.erols.com/rwservices/pens/biblio85.html#Pencept84d
   | url=http://users.erols.com/rwservices/pens/biblio85.html#Pencept84d
   }}</ref> सीआईसी<ref name="rwservices.no-ip.info">{{Citation
   }}</ref> CIC<ref name="rwservices.no-ip.info">{{Citation
   | title = Handwriter (R) GrafText (TM) System Model GT-5000
   | title = Handwriter (R) GrafText (TM) System Model GT-5000
   | publisher= Communication Intelligence Corporation
   | publisher= Communication Intelligence Corporation
   | date=1985-01-15
   | date=1985-01-15
   | url=http://users.erols.com/rwservices/pens/biblio85.html#CIC85
   | url=http://users.erols.com/rwservices/pens/biblio85.html#CIC85
   }}</ref> और दूसरे।
   }}</ref> और अन्य . पहला व्यावसायिक रूप से उपलब्ध टैबलेट-प्रकार का पोर्टेबल कंप्यूटर [[Index.php?title=GRID सिस्टम्स|GRID सिस्टम्स]] का GIRD पैड था, जिसे सितंबर 1989 में जारी किया गया था। इसका ऑपरेटिंग सिस्टम [[Index.php?title=MS-डॉस|MS-डॉस]] पर आधारित था।
पहला व्यावसायिक रूप से उपलब्ध टैबलेट-प्रकार का पोर्टेबल कंप्यूटर [[जीआरआईडी सिस्टम]]्स का जीआरआईडीपैड था, जिसे सितंबर 1989 में जारी किया गया था। इसका ऑपरेटिंग सिस्टम [[एमएस-डॉस]] पर आधारित था।


1990 के दशक की शुरुआत में, [[ एनसीआर निगम ]], [[आईबीएम]] और [[ईओ पर्सनल कम्युनिकेटर]] सहित हार्डवेयर निर्माताओं ने जीओ कॉर्प द्वारा विकसित [[ पेनप्वाइंट ओएस ]] ऑपरेटिंग सिस्टम पर चलने वाले [[टैबलेट कंप्यूटर]] जारी किए। पेनपॉइंट ने लिखावट पहचान और इशारों का उपयोग किया और तीसरे पक्ष के सॉफ़्टवेयर को सुविधाएं प्रदान कीं। आईबीएम का टैबलेट कंप्यूटर [[ Thinkpad ]] नाम का उपयोग करने वाला पहला कंप्यूटर था और आईबीएम की लिखावट पहचान का उपयोग करता था। इस पहचान प्रणाली को बाद में पेन कंप्यूटिंग के लिए माइक्रोसॉफ्ट विंडोज़ और ओएस/2 के लिए आईबीएम के पेन में पोर्ट किया गया। इनमें से कोई भी व्यावसायिक रूप से सफल नहीं था।
1990 के दशक की शुरुआत में,[[Index.php?title=NCR|NCR]], [[Index.php?title=IBM|IBM]] और [[Index.php?title=EO|EO]] सहित हार्डवेयर निर्माताओं ने जीओ कॉर्प द्वारा विकसित [[Index.php?title=पेनप्वाइंट|पेनप्वाइंट]] ऑपरेटिंग सिस्टम पर चलने वाले [[टैबलेट कंप्यूटर]] जारी किए है। पेनपॉइंट ने लिखावट पहचान और इशारों का उपयोग किया और तीसरे पक्ष के सॉफ़्टवेयर को सुविधाएं प्रदान कीं। आईबीएम का टैबलेट कंप्यूटर [[Index.php?title= थिंकपैड|थिंकपैड]] नाम का उपयोग करने वाला पहला कंप्यूटर था और आईबीएम की लिखावट पहचान का उपयोग करता था। इस पहचान प्रणाली को बाद में पेन कंप्यूटिंग के लिए माइक्रोसॉफ्ट विंडोज़ और ओएस/2 के लिए आईबीएम के पेन में पोर्ट किया गया। इनमें से कोई भी व्यावसायिक रूप से सफल नहीं था।


इलेक्ट्रॉनिक्स में प्रगति ने लिखावट पहचान के लिए आवश्यक कंप्यूटिंग शक्ति को टैबलेट कंप्यूटर की तुलना में छोटे फॉर्म फैक्टर में फिट करने की अनुमति दी, और लिखावट पहचान को अक्सर हाथ से पकड़े गए व्यक्तिगत डिजिटल सहायकों के लिए एक इनपुट विधि के रूप में उपयोग किया जाता है। लिखित इनपुट प्रदान करने वाला पहला पीडीए [[एप्पल न्यूटन]] था, जिसने जनता को एक सुव्यवस्थित उपयोगकर्ता इंटरफ़ेस के लाभ से अवगत कराया। हालाँकि, सॉफ्टवेयर की अविश्वसनीयता के कारण यह उपकरण व्यावसायिक रूप से सफल नहीं रहा, जो उपयोगकर्ता के लेखन पैटर्न को सीखने की कोशिश करता था। [[न्यूटन ओएस]] 2.0 के जारी होने तक, जिसमें लिखावट की पहचान में काफी सुधार हुआ था, जिसमें मॉडललेस त्रुटि सुधार जैसी वर्तमान पहचान प्रणालियों में अभी भी नहीं पाई जाने वाली अनूठी विशेषताएं शामिल थीं, बड़े पैमाने पर नकारात्मक पहली छाप बनी थी। Apple न्यूटन के बंद होने के बाद, इस सुविधा को Mac OS
इलेक्ट्रॉनिक्स में प्रगति ने लिखावट पहचान के लिए आवश्यक कंप्यूटिंग शक्ति को टैबलेट कंप्यूटर की तुलना में छोटे फॉर्म फैक्टर में फिट करने की अनुमति दी, और लिखावट पहचान को अक्सर हाथ से पकड़े गए पीडीए के लिए इनपुट विधि के रूप में उपयोग किया जाता है। लिखित इनपुट प्रदान करने वाला पहला पीडीए [[एप्पल न्यूटन]] था, जिसने जनता को एक सुव्यवस्थित उपयोगकर्ता इंटरफ़ेस के लाभ से अवगत कराया। हालाँकि, सॉफ्टवेयर की अविश्वसनीयता के कारण यह उपकरण व्यावसायिक रूप से सफल नहीं रहा, जो उपयोगकर्ता के लेखन पैटर्न को सीखने की कोशिश करता था। [[न्यूटन ओएस]] 2.0 के जारी होने तक, जिसमें लिखावट की पहचान में काफी सुधार हुआ था, जिसमें मॉडललेस त्रुटि सुधार जैसी वर्तमान पहचान प्रणालियों में अभी भी नहीं पाई जाने वाली अनूठी विशेषताएं शामिल थीं, बड़े पैमाने पर नकारात्मक पहली छाप बनी थी। ऐप्पल न्यूटन के बंद होने के बाद, इस सुविधा को मैक ओएस एक्स 10.2 और बाद में इंकवेल के रूप में शामिल किया गया था।


पाम, इंक. ने बाद में ग्रैफिटी (पाम ओएस) पहचान प्रणाली पर आधारित व्यक्तिगत डिजिटल सहायकों की एक सफल श्रृंखला शुरू की। ग्रैफ़िटी ने प्रत्येक वर्ण के लिए यूनिस्ट्रोक्स, या एक-स्ट्रोक रूपों के एक सेट को परिभाषित करके प्रयोज्य में सुधार किया। इससे गलत इनपुट की संभावना कम हो गई, हालांकि स्ट्रोक पैटर्न को याद रखने से उपयोगकर्ता के लिए सीखने की अवस्था में वृद्धि हुई। ग्रैफ़िटी लिखावट मान्यता को ज़ेरॉक्स द्वारा रखे गए पेटेंट का उल्लंघन करते हुए पाया गया, और पाम ने ग्रैफ़िटी को सीआईसी लिखावट मान्यता के लाइसेंस प्राप्त संस्करण के साथ बदल दिया, जो यूनिस्ट्रोक रूपों का समर्थन करते हुए, ज़ेरॉक्स पेटेंट से पहले का था। उल्लंघन के अदालती निष्कर्ष को अपील पर उलट दिया गया, और फिर बाद की अपील पर फिर से उलट दिया गया। बाद में इसमें शामिल पक्षों ने इस और अन्य पेटेंट से संबंधित समझौते पर बातचीत की।
पाम ने बाद में ग्रैफ़िटी पहचान प्रणाली पर आधारित पीडीए की एक सफल श्रृंखला शुरू की। ग्रैफ़िटी ने प्रत्येक वर्ण के लिए "यूनिस्ट्रोक्स", या एक-स्ट्रोक रूपों के एक सेट को परिभाषित करके प्रयोज्य में सुधार किया। इससे गलत इनपुट की संभावना कम हो गई, हालांकि स्ट्रोक पैटर्न को याद रखने से उपयोगकर्ता के लिए सीखने की अवस्था में वृद्धि हुई। ग्रैफ़िटी लिखावट मान्यता को ज़ेरॉक्स द्वारा रखे गए पेटेंट का उल्लंघन करते हुए पाया गया, और पाम ने ग्रैफ़िटी को सीआईसी लिखावट मान्यता के लाइसेंस प्राप्त संस्करण के साथ बदल दिया, जो यूनिस्ट्रोक रूपों का समर्थन करते हुए, ज़ेरॉक्स पेटेंट से पहले का था। उल्लंघन के अदालती निष्कर्ष को अपील पर उलट दिया गया, और फिर बाद की अपील पर फिर से उलट दिया गया। बाद में इसमें शामिल पक्षों ने इस और अन्य पेटेंट से संबंधित समझौते पर बातचीत की।


टैबलेट कंप्यूटर एक [[ ग्राफिक्स टैब्लेट ]] और एक स्टाइलस वाला एक नोटबुक कंप्यूटर है, जो उपयोगकर्ता को यूनिट की स्क्रीन पर हाथ से टेक्स्ट लिखने की अनुमति देता है। ऑपरेटिंग सिस्टम लिखावट को पहचानता है और उसे टेक्स्ट में परिवर्तित करता है। [[विंडोज विस्टा]] और [[विंडोज 7]] में वैयक्तिकरण सुविधाएँ शामिल हैं जो उपयोगकर्ता के अंग्रेजी, जापानी, चीनी पारंपरिक, चीनी सरलीकृत और कोरियाई के लिए लेखन पैटर्न या शब्दावली सीखती हैं। सुविधाओं में एक वैयक्तिकरण विज़ार्ड शामिल है जो उपयोगकर्ता की लिखावट के नमूनों के लिए संकेत देता है और उच्च सटीकता पहचान के लिए सिस्टम को फिर से प्रशिक्षित करने के लिए उनका उपयोग करता है। यह प्रणाली पीडीए के लिए [[ विंडोज़ मोबाइल ]] ओएस में नियोजित कम उन्नत लिखावट पहचान प्रणाली से अलग है।
टैबलेट पीसी एक नोटबुक कंप्यूटर है जिसमें एक [[Index.php?title=डिजिटाइज़र टैबलेट|डिजिटाइज़र टैबलेट]] और एक स्टाइलस होता है, जो उपयोगकर्ता को यूनिट की स्क्रीन पर हाथ से टेक्स्ट लिखने की अनुमति देता है। ऑपरेटिंग सिस्टम लिखावट को पहचानता है और उसे टेक्स्ट में परिवर्तित करता है। [[विंडोज विस्टा]] और [[विंडोज 7]] में वैयक्तिकरण सुविधाएँ शामिल हैं जो उपयोगकर्ता के अंग्रेजी, जापानी, चीनी पारंपरिक, चीनी सरलीकृत और कोरियाई के लिए लेखन पैटर्न या शब्दावली सीखती हैं। सुविधाओं में एक "वैयक्तिकरण विज़ार्ड" शामिल है जो उपयोगकर्ता की लिखावट के नमूनों के लिए संकेत देता है और उच्च सटीकता पहचान के लिए सिस्टम को फिर से प्रशिक्षित करने के लिए उनका उपयोग करता है। यह प्रणाली पीडीए के लिए [[ विंडोज़ मोबाइल ]] ओएस में नियोजित कम उन्नत लिखावट पहचान प्रणाली से अलग है।


हालाँकि लिखावट पहचान एक इनपुट फॉर्म है जिसकी जनता आदी हो गई है, लेकिन इसने डेस्कटॉप कंप्यूटर या लैपटॉप में व्यापक उपयोग हासिल नहीं किया है। यह अभी भी आम तौर पर स्वीकार किया जाता है कि [[अल्फ़ान्यूमेरिक कीबोर्ड]] इनपुट तेज़ और अधिक विश्वसनीय दोनों है। {{As of|2006}}, कई पीडीए लिखावट इनपुट की पेशकश करते हैं, कभी-कभी प्राकृतिक घसीट लिखावट को भी स्वीकार करते हैं, लेकिन सटीकता अभी भी एक समस्या है, और कुछ लोगों को अभी भी एक साधारण [[वर्चुअल कीबोर्ड]]|ऑन-स्क्रीन कीबोर्ड अधिक कुशल लगता है।
हालाँकि लिखावट पहचान एक इनपुट फॉर्म है जिसकी जनता आदी हो गई है, लेकिन इसने डेस्कटॉप कंप्यूटर या लैपटॉप में व्यापक उपयोग हासिल नहीं किया है। यह अभी भी आम तौर पर स्वीकार किया जाता है कि [[अल्फ़ान्यूमेरिक कीबोर्ड]] इनपुट तेज़ और अधिक विश्वसनीय दोनों है। 2006 तक, कई पीडीए लिखावट इनपुट की पेशकश करते हैं, कभी-कभी प्राकृतिक घसीट लिखावट को भी स्वीकार करते हैं, लेकिन सटीकता अभी भी एक समस्या है, और कुछ लोगों को अभी भी एक साधारण [[Index.php?title=ऑन-स्क्रीन कीबोर्ड|ऑन-स्क्रीन कीबोर्ड]] भी अधिक कुशल लगता है।


===सॉफ़्टवेयर===
===सॉफ़्टवेयर===

Revision as of 21:57, 10 July 2023

देश के स्टार टेक्स विलियम्स के हस्ताक्षर

हस्तलिपि अभिज्ञान (HWR), जिसे हस्तलिखित पाठ पहचान (HTR) के रूप में भी जाना जाता है, कागजी दस्तावेजों, तस्वीरों,टच स्क्रीन और अन्य उपकरणों जैसे स्रोतों से सुगम हस्तलिखित इनपुट प्राप्त करने और व्याख्या करने की कंप्यूटर की क्षमता है।[1][2] लिखित पाठ की छवि को ऑप्टिकल स्कैनिंग (ऑप्टिकल कैरेक्टर रिकग्निशन) या बुद्धिमान शब्द पहचान द्वारा कागज के एक टुकड़े से "ऑफ लाइन" महसूस किया जा सकता है। वैकल्पिक रूप से, पेन टिप की गतिविधियों को "ऑन लाइन" महसूस किया जा सकता है, उदाहरण के लिए पेन-आधारित कंप्यूटर स्क्रीन सतह द्वारा, आमतौर पर एक आसान काम क्योंकि अधिक सुराग उपलब्ध हैं। एक लिखावट पहचान प्रणाली स्वरूपण को संभालती है, वर्णों में सही विभाजन करती है, और सबसे प्रशंसनीय शब्द ढूंढती है।

ऑफ़लाइन मान्यता

ऑफ़लाइन लिखावट पहचान में एक छवि में पाठ का स्वचालित रूप से अक्षर कोड में रूपांतरण शामिल होता है जो कंप्यूटर और पाठ-प्रसंस्करण अनुप्रयोगों में उपयोग करने योग्य होता है। इस फॉर्म द्वारा प्राप्त डेटा को लिखावट का स्थिर प्रतिनिधित्व माना जाता है। ऑफ़लाइन लिखावट पहचानना तुलनात्मक रूप से कठिन है, क्योंकि अलग-अलग लोगों की लिखावट शैली अलग-अलग होती है। और, आज की स्थिति के अनुसार, ओसीआर इंजन मुख्य रूप से मशीन मुद्रित पाठ और ICR हाथ से "मुद्रित" (बड़े अक्षरों में लिखे गए) पाठ पर केंद्रित हैं।

पारंपरिक तकनीक

चरित्र निष्कर्षण

ऑफ़लाइन चरित्र पहचान में अक्सर किसी प्रपत्र या दस्तावेज़ को स्कैन करना शामिल होता है। इसका मतलब है कि स्कैन की गई छवि में मौजूद अलग-अलग पात्रों को निकालने की आवश्यकता होगी। ऐसे उपकरण मौजूद हैं जो इस चरण को निष्पादित करने में सक्षम हैं।[3] हालाँकि, इस चरण में कई सामान्य खामियाँ हैं। सबसे आम तब होता है जब जुड़े हुए वर्ण दोनों वर्णों वाली एकल उप-छवि के रूप में लौटाए जाते हैं। यह पहचान चरण में एक बड़ी समस्या का कारण बनता है। फिर भी कई एल्गोरिदम उपलब्ध हैं जो जुड़े हुए पात्रों के जोखिम को कम करते हैं।

चरित्र पहचान

अलग-अलग वर्ण निकाले जाने के बाद, संबंधित कंप्यूटर वर्ण की पहचान करने के लिए एक पहचान इंजन का उपयोग किया जाता है। वर्तमान में कई अलग-अलग पहचान तकनीकें उपलब्ध हैं।

सुविधा निष्कर्षण

फ़ीचर निष्कर्षण तंत्रिका नेटवर्क पहचानकर्ताओं के समान ही काम करता है। हालाँकि, प्रोग्रामर को उन गुणों को मैन्युअल रूप से निर्धारित करना होगा जो उन्हें महत्वपूर्ण लगते हैं। यह दृष्टिकोण पहचानकर्ता को पहचान में प्रयुक्त गुणों पर अधिक नियंत्रण देता है। फिर भी इस दृष्टिकोण का उपयोग करने वाली किसी भी प्रणाली को तंत्रिका नेटवर्क की तुलना में काफी अधिक विकास समय की आवश्यकता होती है क्योंकि गुण स्वचालित रूप से नहीं सीखे जाते हैं।

आधुनिक तकनीक

जहां पारंपरिक तकनीकें पहचान के लिए अलग-अलग पात्रों को खंडित करने पर ध्यान केंद्रित करती हैं, वहीं आधुनिक तकनीकें पाठ की खंडित पंक्ति में सभी पात्रों को पहचानने पर ध्यान केंद्रित करती हैं। विशेष रूप से वे मशीन लर्निंग तकनीकों पर ध्यान केंद्रित करते हैं जो पहले इस्तेमाल की गई सीमित फीचर इंजीनियरिंग से बचते हुए दृश्य सुविधाओं को सीखने में सक्षम हैं। अत्याधुनिक विधियां टेक्स्ट लाइन छवि की कई ओवरलैपिंग विंडो पर दृश्य सुविधाओं को निकालने के लिए कन्वेन्शनल नेटवर्क का उपयोग करती हैं, जिसका उपयोग आवर्ती तंत्रिका नेटवर्क चरित्र संभावनाओं का उत्पादन करने के लिए करता है।[4]


ऑनलाइन मान्यता

ऑनलाइन लिखावट पहचान में पाठ का स्वचालित रूपांतरण शामिल होता है क्योंकि यह एक विशेष digitizer या पीडीए पर लिखा जाता है, जहां एक सेंसर पेन-टिप मूवमेंट के साथ-साथ पेन-अप/पेन-डाउन स्विचिंग को भी पकड़ लेता है। इस प्रकार के डेटा को डिजिटल स्याही के रूप में जाना जाता है और इसे लिखावट का डिजिटल प्रतिनिधित्व माना जा सकता है। प्राप्त सिग्नल को अक्षर कोड में परिवर्तित किया जाता है जो कंप्यूटर और टेक्स्ट-प्रोसेसिंग अनुप्रयोगों में प्रयोग करने योग्य होते हैं।

ऑनलाइन लिखावट पहचान इंटरफ़ेस के तत्वों में आम तौर पर शामिल हैं:

  • उपयोगकर्ता के लिखने के लिए एक कलम या लेखनी सम्मलित है।
  • एक स्पर्श संवेदनशील सतह, जिसे आउटपुट डिस्प्ले के साथ एकीकृत या उसके निकट किया जा सकता है।
  • एक सॉफ्टवेयर एप्लिकेशन जो लेखन सतह पर स्टाइलस की गतिविधियों की व्याख्या करता है, परिणामी स्ट्रोक्स को डिजिटल टेक्स्ट में अनुवादित करता है।

ऑनलाइन लिखावट पहचानने की प्रक्रिया को कुछ सामान्य चरणों में विभाजित किया जा सकता है:

  • प्रीप्रोसेसिंग,
  • सुविधा निष्कर्षण और
  • वर्गीकरण

प्रीप्रोसेसिंग का उद्देश्य इनपुट डेटा में अप्रासंगिक जानकारी को त्यागना है, जो मान्यता को नकारात्मक रूप से प्रभावित कर सकता है।[5] यह गति और सटीकता से संबंधित है। प्रीप्रोसेसिंग में आमतौर पर बाइनराइज़ेशन, सामान्यीकरण, सैंपलिंग, स्मूथिंग और डीनोइज़िंग शामिल होते हैं।[6] दूसरा चरण फीचर निष्कर्षण है। प्रीप्रोसेसिंग एल्गोरिदम से प्राप्त दो- या उच्च-आयामी वेक्टर फ़ील्ड में से, उच्च-आयामी डेटा निकाला जाता है। इस कदम का उद्देश्य मान्यता मॉडल के लिए महत्वपूर्ण जानकारी को उजागर करना है। इस डेटा में पेन का दबाव, वेग या लिखने की दिशा में बदलाव जैसी जानकारी शामिल हो सकती है। अंतिम बड़ा कदम वर्गीकरण है. इस चरण में, निकाले गए फीचर्स को अलग-अलग वर्गों में मैप करने के लिए विभिन्न मॉडलों का उपयोग किया जाता है और इस प्रकार उन वर्णों या शब्दों की पहचान की जाती है जो फीचर्स का प्रतिनिधित्व करते हैं।

हार्डवेयर

कीबोर्ड इनपुट के प्रतिस्थापन के रूप में लिखावट पहचान को शामिल करने वाले वाणिज्यिक उत्पाद 1980 के दशक की शुरुआत में पेश किए गए थे। उदाहरणों में पेंसेप्ट पेनपैड[7] और इन्फोराइट पॉइंट-ऑफ-सेल टर्मिनल जैसे हस्तलेखन टर्मिनल शामिल हैं।[8] पर्सनल कंप्यूटर के लिए बड़े उपभोक्ता बाजार के आगमन के साथ, पर्सनल कंप्यूटर पर कीबोर्ड और माउस को सिंगल पॉइंटिंग/हैंडराइटिंग सिस्टम से बदलने के लिए कई वाणिज्यिक उत्पाद पेश किए गए, जैसे कि पेंसेप्ट,[9] CIC[10] और अन्य . पहला व्यावसायिक रूप से उपलब्ध टैबलेट-प्रकार का पोर्टेबल कंप्यूटर GRID सिस्टम्स का GIRD पैड था, जिसे सितंबर 1989 में जारी किया गया था। इसका ऑपरेटिंग सिस्टम MS-डॉस पर आधारित था।

1990 के दशक की शुरुआत में,NCR, IBM और EO सहित हार्डवेयर निर्माताओं ने जीओ कॉर्प द्वारा विकसित पेनप्वाइंट ऑपरेटिंग सिस्टम पर चलने वाले टैबलेट कंप्यूटर जारी किए है। पेनपॉइंट ने लिखावट पहचान और इशारों का उपयोग किया और तीसरे पक्ष के सॉफ़्टवेयर को सुविधाएं प्रदान कीं। आईबीएम का टैबलेट कंप्यूटर थिंकपैड नाम का उपयोग करने वाला पहला कंप्यूटर था और आईबीएम की लिखावट पहचान का उपयोग करता था। इस पहचान प्रणाली को बाद में पेन कंप्यूटिंग के लिए माइक्रोसॉफ्ट विंडोज़ और ओएस/2 के लिए आईबीएम के पेन में पोर्ट किया गया। इनमें से कोई भी व्यावसायिक रूप से सफल नहीं था।

इलेक्ट्रॉनिक्स में प्रगति ने लिखावट पहचान के लिए आवश्यक कंप्यूटिंग शक्ति को टैबलेट कंप्यूटर की तुलना में छोटे फॉर्म फैक्टर में फिट करने की अनुमति दी, और लिखावट पहचान को अक्सर हाथ से पकड़े गए पीडीए के लिए इनपुट विधि के रूप में उपयोग किया जाता है। लिखित इनपुट प्रदान करने वाला पहला पीडीए एप्पल न्यूटन था, जिसने जनता को एक सुव्यवस्थित उपयोगकर्ता इंटरफ़ेस के लाभ से अवगत कराया। हालाँकि, सॉफ्टवेयर की अविश्वसनीयता के कारण यह उपकरण व्यावसायिक रूप से सफल नहीं रहा, जो उपयोगकर्ता के लेखन पैटर्न को सीखने की कोशिश करता था। न्यूटन ओएस 2.0 के जारी होने तक, जिसमें लिखावट की पहचान में काफी सुधार हुआ था, जिसमें मॉडललेस त्रुटि सुधार जैसी वर्तमान पहचान प्रणालियों में अभी भी नहीं पाई जाने वाली अनूठी विशेषताएं शामिल थीं, बड़े पैमाने पर नकारात्मक पहली छाप बनी थी। ऐप्पल न्यूटन के बंद होने के बाद, इस सुविधा को मैक ओएस एक्स 10.2 और बाद में इंकवेल के रूप में शामिल किया गया था।

पाम ने बाद में ग्रैफ़िटी पहचान प्रणाली पर आधारित पीडीए की एक सफल श्रृंखला शुरू की। ग्रैफ़िटी ने प्रत्येक वर्ण के लिए "यूनिस्ट्रोक्स", या एक-स्ट्रोक रूपों के एक सेट को परिभाषित करके प्रयोज्य में सुधार किया। इससे गलत इनपुट की संभावना कम हो गई, हालांकि स्ट्रोक पैटर्न को याद रखने से उपयोगकर्ता के लिए सीखने की अवस्था में वृद्धि हुई। ग्रैफ़िटी लिखावट मान्यता को ज़ेरॉक्स द्वारा रखे गए पेटेंट का उल्लंघन करते हुए पाया गया, और पाम ने ग्रैफ़िटी को सीआईसी लिखावट मान्यता के लाइसेंस प्राप्त संस्करण के साथ बदल दिया, जो यूनिस्ट्रोक रूपों का समर्थन करते हुए, ज़ेरॉक्स पेटेंट से पहले का था। उल्लंघन के अदालती निष्कर्ष को अपील पर उलट दिया गया, और फिर बाद की अपील पर फिर से उलट दिया गया। बाद में इसमें शामिल पक्षों ने इस और अन्य पेटेंट से संबंधित समझौते पर बातचीत की।

टैबलेट पीसी एक नोटबुक कंप्यूटर है जिसमें एक डिजिटाइज़र टैबलेट और एक स्टाइलस होता है, जो उपयोगकर्ता को यूनिट की स्क्रीन पर हाथ से टेक्स्ट लिखने की अनुमति देता है। ऑपरेटिंग सिस्टम लिखावट को पहचानता है और उसे टेक्स्ट में परिवर्तित करता है। विंडोज विस्टा और विंडोज 7 में वैयक्तिकरण सुविधाएँ शामिल हैं जो उपयोगकर्ता के अंग्रेजी, जापानी, चीनी पारंपरिक, चीनी सरलीकृत और कोरियाई के लिए लेखन पैटर्न या शब्दावली सीखती हैं। सुविधाओं में एक "वैयक्तिकरण विज़ार्ड" शामिल है जो उपयोगकर्ता की लिखावट के नमूनों के लिए संकेत देता है और उच्च सटीकता पहचान के लिए सिस्टम को फिर से प्रशिक्षित करने के लिए उनका उपयोग करता है। यह प्रणाली पीडीए के लिए विंडोज़ मोबाइल ओएस में नियोजित कम उन्नत लिखावट पहचान प्रणाली से अलग है।

हालाँकि लिखावट पहचान एक इनपुट फॉर्म है जिसकी जनता आदी हो गई है, लेकिन इसने डेस्कटॉप कंप्यूटर या लैपटॉप में व्यापक उपयोग हासिल नहीं किया है। यह अभी भी आम तौर पर स्वीकार किया जाता है कि अल्फ़ान्यूमेरिक कीबोर्ड इनपुट तेज़ और अधिक विश्वसनीय दोनों है। 2006 तक, कई पीडीए लिखावट इनपुट की पेशकश करते हैं, कभी-कभी प्राकृतिक घसीट लिखावट को भी स्वीकार करते हैं, लेकिन सटीकता अभी भी एक समस्या है, और कुछ लोगों को अभी भी एक साधारण ऑन-स्क्रीन कीबोर्ड भी अधिक कुशल लगता है।

सॉफ़्टवेयर

प्रारंभिक सॉफ़्टवेयर प्रिंट लिखावट को समझ सकता था जहाँ अक्षर अलग किए गए थे; हालाँकि, जुड़े हुए पात्रों के साथ सरसरी लिखावट ने सायरे के विरोधाभास को प्रस्तुत किया|सायरे के विरोधाभास, चरित्र विभाजन से जुड़ी एक कठिनाई। 1962 में गुबर्मन शेलिया (शेलिजा), जो उस समय मॉस्को में थे, ने पहला एप्लाइड पैटर्न रिकग्निशन प्रोग्राम लिखा।[11] वाणिज्यिक उदाहरण कम्युनिकेशंस इंटेलिजेंस कॉर्पोरेशन और आईबीएम जैसी कंपनियों से आए।

1990 के दशक की शुरुआत में, दो कंपनियाँ - पैराग्राफ़ इंटरनेशनल और लेक्सिकस - ऐसी प्रणालियाँ लेकर आईं जो कर्सिव लिखावट पहचान को समझ सकती थीं। पैराग्राफ रूस में स्थित था और इसकी स्थापना कंप्यूटर वैज्ञानिक स्टीफन पचिकोव ने की थी, जबकि लेक्सिकस की स्थापना रंजन नं और क्रिस कॉर्टगे ने की थी, जो स्टैनफोर्ड विश्वविद्यालय के छात्र थे। पैराग्राफ कैलीग्राफर सिस्टम को ऐप्पल न्यूटन सिस्टम में तैनात किया गया था, और लेक्सिकस लॉन्गहैंड सिस्टम को पेनपॉइंट और विंडोज ऑपरेटिंग सिस्टम के लिए व्यावसायिक रूप से उपलब्ध कराया गया था। लेक्सिकस को 1993 में मोटोरोला द्वारा अधिग्रहित किया गया था और उसने मोटोरोला के लिए चीनी लिखावट पहचान और पूर्वानुमानित पाठ प्रणाली विकसित की। पैराग्राफ को 1997 में एसजीआई द्वारा अधिग्रहित किया गया था और इसकी लिखावट पहचान टीम ने एक पी एंड आई डिवीजन का गठन किया था, जिसे बाद में वाडेम द्वारा एसजीआई से अधिग्रहित किया गया था। Microsoft ने 1999 में Vadem से P&I द्वारा विकसित CalliGrapher हस्तलेखन पहचान और अन्य डिजिटल स्याही प्रौद्योगिकियों का अधिग्रहण कर लिया है।

वोल्फ्राम मैथमेटिका (8.0 या बाद का संस्करण) एक लिखावट या पाठ पहचान फ़ंक्शन TextRecognize भी प्रदान करता है।

अनुसंधान

सरगुर श्रीहरि और जोनाथन हल द्वारा विकसित पहली हस्तलिखित पता व्याख्या प्रणाली में प्रासंगिक जानकारी का दोहन करने के लिए उपयोग की जाने वाली विधि[12]

हस्तलेखन पहचान का अध्ययन करने वाले शिक्षाविदों का एक सक्रिय समुदाय है। हस्तलेखन पहचान के लिए सबसे बड़े सम्मेलन सम-संख्या वाले वर्षों में आयोजित हस्तलेखन पहचान में सीमाओं पर अंतर्राष्ट्रीय सम्मेलन (आईसीएफएचआर) और विषम संख्या वाले वर्षों में आयोजित दस्तावेज़ विश्लेषण और मान्यता पर अंतर्राष्ट्रीय सम्मेलन (आईसीडीएआर) हैं। इन दोनों सम्मेलनों को आईईईई और आईएपीआर द्वारा समर्थन प्राप्त है।

2021 में, ICDAR कार्यवाही कंप्यूटर साइंस, स्प्रिंगर में लेक्चर नोट्स द्वारा प्रकाशित की जाएगी।

अनुसंधान के सक्रिय क्षेत्रों में शामिल हैं:

2009 से परिणाम

2009 के बाद से, IDSIA में जुर्गन श्मिधुबर के अनुसंधान समूह में विकसित आवर्तक तंत्रिका नेटवर्क और गहरे फीडफॉरवर्ड न्यूरल नेटवर्क तंत्रिका नेटवर्क ने कई अंतरराष्ट्रीय हस्तलेखन प्रतियोगिताएं जीती हैं।[13] विशेष रूप से, द्वि-दिशात्मक और बहु-आयामी दीर्घकालिक अल्पकालिक मेमोरी (LSTM)[14][15] एलेक्स ग्रेव्स एट अल की। सीखी जाने वाली तीन अलग-अलग भाषाओं (फ़्रेंच, अरबी, फ़ारसी भाषा) के बारे में किसी भी पूर्व ज्ञान के बिना, 2009 में दस्तावेज़ विश्लेषण और मान्यता (ICDAR) पर अंतर्राष्ट्रीय सम्मेलन में कनेक्टेड हैंडराइटिंग रिकग्निशन में तीन प्रतियोगिताएं जीतीं। आईडीएसआईए में डैन सिरेसन और सहकर्मियों द्वारा हाल ही में फीडफॉरवर्ड नेटवर्क के लिए जीपीयू-आधारित गहन शिक्षण विधियों ने आईसीडीएआर 2011 ऑफ़लाइन चीनी लिखावट पहचान प्रतियोगिता जीती; उनके तंत्रिका नेटवर्क मानव-प्रतिस्पर्धी प्रदर्शन प्राप्त करने वाले पहले कृत्रिम पैटर्न पहचानकर्ता भी थे[16] प्रसिद्ध एमएनआईएसटी डेटाबेस हस्तलिखित अंक समस्या पर[17] वाई एन एल ईसीयू के अंदर और NYU के सहकर्मी।

वारविक विश्वविद्यालय के बेंजामिन ग्राहम ने दृढ़ तंत्रिका नेटवर्क के दृष्टिकोण का उपयोग करके, जो (2017 तक) विरल कन्वेन्शनल एनवाईयू रल नेटवर्क में विकसित हुआ, केवल 2.61% त्रुटि दर के साथ 2013 की चीनी लिखावट पहचान प्रतियोगिता जीती।[18][19]


यह भी देखें

सूचियाँ

संदर्भ

  1. Förstner, Wolfgang (1999). Mustererkennung 1999 : 21. DAGM-Symposium Bonn, 15.-17. September 1999. Joachim M. Buhmann, Annett Faber, Petko Faber. Berlin, Heidelberg. ISBN 978-3-642-60243-6. OCLC 913706869.{{cite book}}: CS1 maint: location missing publisher (link)
  2. Schenk, Joachim (2010). Mensch-maschine-kommunikation : grundlagen von sprach- und bildbasierten benutzerschnittstellen. Gerhard Rigoll. Heidelberg: Springer. ISBN 978-3-642-05457-0. OCLC 609418875.
  3. Java OCR, 5 June 2010. Retrieved 5 June 2010
  4. Puigcerver, Joan. "Are Multidimensional Recurrent Layers Really Necessary for Handwritten Text Recognition?." Document Analysis and Recognition (ICDAR), 2017 14th IAPR International Conference on. Vol. 1. IEEE, 2017.
  5. Huang, B.; Zhang, Y. and Kechadi, M.; Preprocessing Techniques for Online Handwriting Recognition. Intelligent Text Categorization and Clustering, Springer Berlin Heidelberg, 2009, Vol. 164, "Studies in Computational Intelligence" pp. 25–45.
  6. Holzinger, A.; Stocker, C.; Peischl, B. and Simonic, K.-M.; On Using Entropy for Enhancing Handwriting Preprocessing, Entropy 2012, 14, pp. 2324–2350.
  7. Pencept Penpad (TM) 200 Product Literature, Pencept, Inc., 15 August 1982
  8. Inforite Hand Character Recognition Terminal, Cadre Systems Limited, England, 15 August 1982
  9. Users Manual for Penpad 320, Pencept, Inc., 15 June 1984
  10. Handwriter (R) GrafText (TM) System Model GT-5000, Communication Intelligence Corporation, 15 January 1985
  11. Guberman is the inventor of the handwriting recognition technology used today by Microsoft in Windows CE. Source: In-Q-Tel communication, June 3, 2003
  12. S. N. Srihari and E. J. Keubert, "Integration of handwritten address interpretation technology into the United States Postal Service Remote Computer Reader System" Proc. Int. Conf. Document Analysis and Recognition (ICDAR) 1997, IEEE-CS Press, pp. 892–896
  13. 2012 Kurzweil AI Interview Archived 31 August 2018 at the Wayback Machine with Jürgen Schmidhuber on the eight competitions won by his Deep Learning team 2009-2012
  14. Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552
  15. A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, 2009.
  16. D. C. Ciresan, U. Meier, J. Schmidhuber. Multi-column Deep Neural Networks for Image Classification. IEEE Conf. on Computer Vision and Pattern Recognition CVPR 2012.
  17. LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proc. IEEE, 86, pp. 2278–2324.
  18. "विरल नेटवर्क बड़े भौतिकी की सहायता के लिए आते हैं". Quanta Magazine. June 2023. Retrieved 17 June 2023.
  19. Graham, Benjamin. "Spatially-sparse convolutional neural networks." arXiv preprint arXiv:1409.6070 (2014).


बाहरी संबंध