दस्तावेज़ प्रसंस्करण: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 1: Line 1:
{{Short description|Digitalisation of analog documents}}
{{Short description|Digitalisation of analog documents}}
[[दस्तावेज़]] प्रसंस्करण अनुसंधान का क्षेत्र है और [[उत्पादन प्रक्रिया]]ओं का समूह है जिसका उद्देश्य एनालॉग दस्तावेज़ को डिजिटल बनाना है। दस्तावेज़ प्रसंस्करण का उद्देश्य केवल [[डिजिटल छवि]] प्राप्त करने के लिए दस्तावेज़ की तस्वीर लेना या छवि स्कैन करना नहीं है, किंतु इसे डिजिटल रूप से समझने योग्य बनाना भी है। इसमें दस्तावेज़ की संरचना निकालना या [[दस्तावेज़ लेआउट विश्लेषण]] और फिर सामग्री सम्मिलित है, जो पाठ या छवियों का रूप ले सकती है। इस प्रक्रिया में पारंपरिक [[कंप्यूटर दृष्टि]] एल्गोरिदम, कन्वेन्शनल न्यूरल नेटवर्क या मैन्युअल श्रम सम्मिलित हो सकता है। संबोधित समस्याएं [[शब्दार्थ विभाजन]], [[ वस्तु का पता लगाना |वस्तु का पता लगाना]], [[ऑप्टिकल कैरेक्टर मान्यता]]|ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), हस्तलिखित टेक्स्ट रिकग्निशन|हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर) और अधिक मोटे तौर पर ट्रांसक्रिप्शन (भाषाविज्ञान), चाहे [[ स्वचालन |स्वचालन]] हो या नहीं, से संबंधित हैं।<ref>{{Cite book
'''[[दस्तावेज़]] प्रसंस्करण''' अनुसंधान का क्षेत्र है और [[उत्पादन प्रक्रिया]]ओं का समूह है जिसका उद्देश्य एनालॉग दस्तावेज़ को डिजिटल बनाना है। दस्तावेज़ प्रसंस्करण का उद्देश्य केवल [[डिजिटल छवि]] प्राप्त करने के लिए दस्तावेज़ की तस्वीर लेना या छवि स्कैन करना नहीं है, किंतु इसे डिजिटल रूप से समझने योग्य बनाना भी है। इसमें दस्तावेज़ की संरचना निकालना या [[दस्तावेज़ लेआउट विश्लेषण]] और फिर सामग्री सम्मिलित है, जो पाठ या छवियों का रूप ले सकती है। इस प्रक्रिया में पारंपरिक [[कंप्यूटर दृष्टि]] एल्गोरिदम, कन्वेन्शनल न्यूरल नेटवर्क या मैन्युअल श्रम सम्मिलित हो सकता है। संबोधित समस्याएं [[शब्दार्थ विभाजन]], [[ वस्तु का पता लगाना |वस्तु का पता लगाना]], [[ऑप्टिकल कैरेक्टर मान्यता]]|ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), हस्तलिखित टेक्स्ट रिकग्निशन|हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर) और अधिक मोटे तौर पर ट्रांसक्रिप्शन (भाषाविज्ञान), चाहे [[ स्वचालन |स्वचालन]] हो या नहीं, से संबंधित हैं।<ref>{{Cite book
   |url=https://books.google.com/books?id=gYOpFlMXcs0C&q=%22document+processing%22+ocr&pg=PA368
   |url=https://books.google.com/books?id=gYOpFlMXcs0C&q=%22document+processing%22+ocr&pg=PA368
   |title=Integrative Document & Content Management: Strategies for Exploiting Enterprise Knowledge
   |title=Integrative Document & Content Management: Strategies for Exploiting Enterprise Knowledge
   |author1=Len Asprey |author2=Michael Middleton
   |author1=Len Asprey |author2=Michael Middleton
   |date=2003  |publisher=Idea Group Inc (IGI)  |isbn=9781591400554}}</ref> इस शब्द में स्कैनर का उपयोग करके दस्तावेज़ को डिजिटाइज़ करने का चरण और दस्तावेज़ की व्याख्या करने का चरण भी सम्मिलित हो सकता है, उदाहरण के लिए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) या [[छवि वर्गीकरण]] प्रौद्योगिकियों का उपयोग करना। इसे प्रशासनिक प्रक्रियाओं, मेल प्रसंस्करण और एनालॉग [[संग्रह]] और ऐतिहासिक दस्तावेजों के डिजिटलीकरण के अनुकूलन के लिए कई औद्योगिक और वैज्ञानिक क्षेत्रों में प्रयुक्त किया जाता है।
   |date=2003  |publisher=Idea Group Inc (IGI)  |isbn=9781591400554}}</ref> इस शब्द में स्कैनर का उपयोग करके दस्तावेज़ को डिजिटाइज़ करने का चरण और दस्तावेज़ की व्याख्या करने का चरण भी सम्मिलित हो सकता है, उदाहरण के लिए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) या [[छवि वर्गीकरण]] प्रौद्योगिकियों का उपयोग करना। इसे प्रशासनिक प्रक्रियाओं, मेल प्रसंस्करण और एनालॉग [[संग्रह]] और ऐतिहासिक दस्तावेजों के डिजिटलीकरण के अनुकूलन के लिए अनेक औद्योगिक और वैज्ञानिक क्षेत्रों में प्रयुक्त किया जाता है।


=='''पृष्ठभूमि'''==
=='''पृष्ठभूमि'''==
दस्तावेज़ प्रसंस्करण प्रारंभ में था, जैसा कि अभी भी कुछ हद तक प्रकार का उत्पादन लाइन कार्य है जो डेटा को सॉर्ट करने, निकालने या बड़े पैमाने पर निकालने के उद्देश्य से पत्रों और पार्सल जैसे दस्तावेज़ों के उपचार से संबंधित है। यह कार्य इन-हाउस या [[ व्यापार प्रक्रिया बाहरी स्रोत से सेवाएँ प्राप्त करना |व्यापार प्रक्रिया बाहरी स्रोत से सेवाएँ प्राप्त करना]] के माध्यम से किया जा सकता है।<ref>{{Cite book
दस्तावेज़ प्रसंस्करण प्रारंभ में था, जैसा कि अभी भी कुछ सीमा तक प्रकार का उत्पादन लाइन कार्य है जो डेटा को सॉर्ट करने, निकालने या बड़े पैमाने पर निकालने के उद्देश्य से पत्रों और पार्सल जैसे दस्तावेज़ों के उपचार से संबंधित है। यह कार्य इन-हाउस या [[ व्यापार प्रक्रिया बाहरी स्रोत से सेवाएँ प्राप्त करना |व्यापार प्रक्रिया बाहरी स्रोत से सेवाएँ प्राप्त करना]] के माध्यम से किया जा सकता है।<ref>{{Cite book
     |url=https://books.google.com/books?id=g4dxNB05dgoC&q=document+processing+bpo&pg=PA47
     |url=https://books.google.com/books?id=g4dxNB05dgoC&q=document+processing+bpo&pg=PA47
     |title=Business Process Outsourcing: A Supply Chain of Expertises
     |title=Business Process Outsourcing: A Supply Chain of Expertises
Line 31: Line 31:
   |date=February 1996  |page=51 |title=Unknown Title
   |date=February 1996  |page=51 |title=Unknown Title
   |author1=Al Young  |author2=Dayle Woolstein  |author3=Jay Johnson}}</ref>
   |author1=Al Young  |author2=Dayle Woolstein  |author3=Jay Johnson}}</ref>
स्वचालित दस्तावेज़ प्रसंस्करण या कभी-कभी बुद्धिमान दस्तावेज़ प्रसंस्करण (आईडी) नामक विधि [[प्रक्रिया स्वचालन]] (आईपीए) के विशिष्ट रूप के रूप में उभरी, जिसमें [[ यंत्र अधिगम |यंत्र अधिगम]] (एमएल), [[प्राकृतिक भाषा प्रसंस्करण]] (एनएलपी) या [[बुद्धिमान चरित्र पहचान]] (आईसीई) जैसी कृत्रिम बुद्धिमत्ता का संयोजन किया गया। कई प्रकार के दस्तावेज़ों से डेटा निकालने के लिए।<ref>{{Cite web|url=http://www.di.uniba.it/~ndm/pubs/esposito05icdar.pdf|title=फ़्लोरिआना एस्पोसिटो, स्टेफ़ानो फ़ेरीली, टेरेसा एम. ए. बेसिल, निकोला डि माउरो द्वारा बुद्धिमान दस्तावेज़ प्रसंस्करण|date=2005-04-07|website=Department of Computer Science – University of Bari|access-date=2018-09-08}}</ref><ref>{{Cite book
स्वचालित दस्तावेज़ प्रसंस्करण या कभी-कभी बुद्धिमान दस्तावेज़ प्रसंस्करण (आईडी) नामक विधि [[प्रक्रिया स्वचालन]] (आईपीए) के विशिष्ट रूप के रूप में उभरी, जिसमें [[ यंत्र अधिगम |यंत्र अधिगम]] (एमएल), [[प्राकृतिक भाषा प्रसंस्करण]] (एनएलपी) या [[बुद्धिमान चरित्र पहचान]] (आईसीई) जैसी कृत्रिम बुद्धिमत्ता का संयोजन किया गया। अनेक प्रकार के दस्तावेज़ों से डेटा निकालने के लिए।<ref>{{Cite web|url=http://www.di.uniba.it/~ndm/pubs/esposito05icdar.pdf|title=फ़्लोरिआना एस्पोसिटो, स्टेफ़ानो फ़ेरीली, टेरेसा एम. ए. बेसिल, निकोला डि माउरो द्वारा बुद्धिमान दस्तावेज़ प्रसंस्करण|date=2005-04-07|website=Department of Computer Science – University of Bari|access-date=2018-09-08}}</ref><ref>{{Cite book
     |url=https://www.computer.org/csdl/proceedings-article/icdar/2005/24201100/12OmNqIQS59
     |url=https://www.computer.org/csdl/proceedings-article/icdar/2005/24201100/12OmNqIQS59
     |title="Intelligent Document Processing" in Proceedings. Eighth International Conference on Document Analysis and Recognition, Seoul, South Korea, 2005 pp. 1100-1104. doi: 10.1109/ICDAR.2005.144
     |title="Intelligent Document Processing" in Proceedings. Eighth International Conference on Document Analysis and Recognition, Seoul, South Korea, 2005 pp. 1100-1104. doi: 10.1109/ICDAR.2005.144
Line 39: Line 39:
  }}</ref>
  }}</ref>
=== '''अनुप्रयोग''' ===
=== '''अनुप्रयोग''' ===
स्वचालित दस्तावेज़ प्रसंस्करण दस्तावेज़ों की पूरी श्रृंखला पर प्रयुक्त होता है, चाहे वह संरचित हो या नहीं। उदाहरण के लिए, व्यवसाय और वित्त की विश्व में, प्रौद्योगिकियों का उपयोग कागज-आधारित चालान, फॉर्म, खरीद आदेश, अनुबंध और मुद्रा बिल को संसाधित करने के लिए किया जा सकता है।<ref>{{cite patent |country=US|number=US7873576B2|status=active|title= वित्तीय दस्तावेज़ प्रसंस्करण प्रणाली|pubdate=2011-01-18|gdate=2011-01-18|invent1=John E. Jones|invent2=William J. Jones|invent3=Frank M. Csultis|url=https://patents.google.com/patent/US7873576B2/en}}</ref> वित्तीय संस्थान विनियामक प्रपत्रों या ऋण दस्तावेजों जैसे बड़ी मात्रा में प्रपत्रों को संसाधित करने के लिए बुद्धिमान दस्तावेज़ प्रसंस्करण का उपयोग करते हैं। आईडी दस्तावेजों से डेटा निकालने और वर्गीकृत करने के लिए मैन्युअल डेटा प्रविष्टि की जगह एआई का उपयोग करता है।<ref>{{Cite web|last=Bridgwater|first=Adrian|title=एपियन ने लो-कोड ऑटोमेशन मिक्स में Google क्लाउड इंटेलिजेंस जोड़ा है|url=https://www.forbes.com/sites/adrianbridgwater/2020/03/09/appian-adds-google-cloud-intelligence-to-low-code-automation-mix/|access-date=2021-04-21|website=Forbes|language=en}}</ref>
स्वचालित दस्तावेज़ प्रसंस्करण दस्तावेज़ों की पूरी श्रृंखला पर प्रयुक्त होता है, चाहे वह संरचित हो या नहीं। उदाहरण के लिए, व्यवसाय और वित्त की विश्व में, प्रौद्योगिकियों का उपयोग कागज-आधारित चालान, फॉर्म, खरीद आदेश, अनुबंध और मुद्रा बिल को संसाधित करने के लिए किया जा सकता है।<ref>{{cite patent |country=US|number=US7873576B2|status=active|title= वित्तीय दस्तावेज़ प्रसंस्करण प्रणाली|pubdate=2011-01-18|gdate=2011-01-18|invent1=John E. Jones|invent2=William J. Jones|invent3=Frank M. Csultis|url=https://patents.google.com/patent/US7873576B2/en}}</ref> वित्तीय संस्थान विनियामक प्रपत्रों या ऋण दस्तावेजों जैसे बड़ी मात्रा में प्रपत्रों को संसाधित करने के लिए बुद्धिमान दस्तावेज़ प्रसंस्करण का उपयोग करते हैं। आईडी दस्तावेजों से डेटा निकालने और वर्गीकृत करने के लिए मैन्युअल डेटा प्रविष्टि की स्थान एआई का उपयोग करता है।<ref>{{Cite web|last=Bridgwater|first=Adrian|title=एपियन ने लो-कोड ऑटोमेशन मिक्स में Google क्लाउड इंटेलिजेंस जोड़ा है|url=https://www.forbes.com/sites/adrianbridgwater/2020/03/09/appian-adds-google-cloud-intelligence-to-low-code-automation-mix/|access-date=2021-04-21|website=Forbes|language=en}}</ref>


चिकित्सा में, विशेष रूप से चिकित्सा या प्रयोगशाला विश्लेषण रिपोर्टों को डिजिटाइज़ करके, रोगी अनुवर्ती कार्रवाई को सुविधाजनक बनाने और प्रशासनिक प्रक्रियाओं को सुव्यवस्थित करने के लिए दस्तावेज़ प्रसंस्करण विधियों को विकसित किया गया है। लक्ष्य मेडिकल डेटाबेस को मानकीकृत करना भी है।<ref>{{cite journal |last1=Adamo|first1=Francesco|last2=Attivissimo|first2=Filippo|first3=Attilio|last3=Di Nisio|first4=Maurizio|last4=Spadavecchia|date=February 2015|title=चिकित्सा डेटा निष्कर्षण के लिए एक स्वचालित दस्तावेज़ प्रसंस्करण प्रणाली|url=https://www.sciencedirect.com/science/article/pii/S0263224114005016|journal=Measurement|volume=61|pages=88–99 |doi=10.1016/j.measurement.2014.10.032|bibcode=2015Meas...61...88A |access-date=31 January 2021}}</ref> चिकित्सा निदान में चिकित्सकों की सहायता के लिए एल्गोरिदम का भी सीधे उपयोग किया जाता है, उदाहरण के लिए चुंबकीय अनुनाद इमेजिंग का विश्लेषण करके,<ref>{{cite journal |last1=Changwan|first1=Kim|last2=Seong-Il|first2=Lee|last3=Won Joon|first3=Cho|date=September 2020|title=Volumetric assessment of extrusion in medial meniscus posterior root tears through semi-automatic segmentation on 3-tesla magnetic resonance images|url=https://www.sciencedirect.com/science/article/abs/pii/S1877051720301994|journal=Orthopaedics & Traumatology: Surgery & Research|volume=101|issue=5|pages=963–968|doi=10.1016/j.rcot.2020.06.003|s2cid=225215597 |access-date=31 January 2021}}</ref><ref>{{cite journal |last1=Despotović|first1=Ivana|last2=Bart|first2=Goossens|last3=Wilfried|first3=Philips|date=1 March 2015|title=MRI Segmentation of the Human Brain: Challenges, Methods, and Applications|journal=Computational Intelligence Techniques in Medicine|volume=2015|pages=963–968|doi=10.1155/2015/450341|pmid=25945121|pmc=4402572|doi-access=free}}</ref> या [[माइक्रोस्कोप]] छवियाँ।<ref>{{cite journal |last1=Putzua|first1=Lorenzo|last2=Caocci|first2=Giovanni|last3=Di Rubertoa|first3=Cecilia|title=छवि प्रसंस्करण तकनीकों का उपयोग करके ल्यूकेमिया का पता लगाने के लिए ल्यूकोसाइट वर्गीकरण|journal=Artificial Intelligence in Medicine|date=November 2014|url=https://www.sciencedirect.com/science/article/pii/S0933365714001031|volume=63|issue=3|pages=179–191|doi=10.1016/j.artmed.2014.09.002|pmid=25241903|hdl=11584/94592|hdl-access=free}}</ref>
चिकित्सा में, विशेष रूप से चिकित्सा या प्रयोगशाला विश्लेषण सूचीों को डिजिटाइज़ करके, रोगी अनुवर्ती कार्रवाई को सुविधाजनक बनाने और प्रशासनिक प्रक्रियाओं को सुव्यवस्थित करने के लिए दस्तावेज़ प्रसंस्करण विधियों को विकसित किया गया है। लक्ष्य मेडिकल डेटाबेस को मानकीकृत करना भी है।<ref>{{cite journal |last1=Adamo|first1=Francesco|last2=Attivissimo|first2=Filippo|first3=Attilio|last3=Di Nisio|first4=Maurizio|last4=Spadavecchia|date=February 2015|title=चिकित्सा डेटा निष्कर्षण के लिए एक स्वचालित दस्तावेज़ प्रसंस्करण प्रणाली|url=https://www.sciencedirect.com/science/article/pii/S0263224114005016|journal=Measurement|volume=61|pages=88–99 |doi=10.1016/j.measurement.2014.10.032|bibcode=2015Meas...61...88A |access-date=31 January 2021}}</ref> चिकित्सा निदान में चिकित्सकों की सहायता के लिए एल्गोरिदम का भी सीधे उपयोग किया जाता है, उदाहरण के लिए चुंबकीय अनुनाद इमेजिंग का विश्लेषण करके,<ref>{{cite journal |last1=Changwan|first1=Kim|last2=Seong-Il|first2=Lee|last3=Won Joon|first3=Cho|date=September 2020|title=Volumetric assessment of extrusion in medial meniscus posterior root tears through semi-automatic segmentation on 3-tesla magnetic resonance images|url=https://www.sciencedirect.com/science/article/abs/pii/S1877051720301994|journal=Orthopaedics & Traumatology: Surgery & Research|volume=101|issue=5|pages=963–968|doi=10.1016/j.rcot.2020.06.003|s2cid=225215597 |access-date=31 January 2021}}</ref><ref>{{cite journal |last1=Despotović|first1=Ivana|last2=Bart|first2=Goossens|last3=Wilfried|first3=Philips|date=1 March 2015|title=MRI Segmentation of the Human Brain: Challenges, Methods, and Applications|journal=Computational Intelligence Techniques in Medicine|volume=2015|pages=963–968|doi=10.1155/2015/450341|pmid=25945121|pmc=4402572|doi-access=free}}</ref> या [[माइक्रोस्कोप]] छवियाँ।<ref>{{cite journal |last1=Putzua|first1=Lorenzo|last2=Caocci|first2=Giovanni|last3=Di Rubertoa|first3=Cecilia|title=छवि प्रसंस्करण तकनीकों का उपयोग करके ल्यूकेमिया का पता लगाने के लिए ल्यूकोसाइट वर्गीकरण|journal=Artificial Intelligence in Medicine|date=November 2014|url=https://www.sciencedirect.com/science/article/pii/S0933365714001031|volume=63|issue=3|pages=179–191|doi=10.1016/j.artmed.2014.09.002|pmid=25241903|hdl=11584/94592|hdl-access=free}}</ref>


अभिलेखागार या विरासत संग्रह से ऐतिहासिक बड़े डेटा को निकालने के लिए दस्तावेज़ प्रसंस्करण का व्यापक रूप से [[मानविकी]] और [[डिजिटल मानविकी]] में भी उपयोग किया जाता है। विभिन्न स्रोतों के लिए विशिष्ट दृष्टिकोण विकसित किए गए, जिनमें पाठ्य दस्तावेज़, जैसे समाचार पत्र अभिलेखागार,<ref>{{cite conference |url=https://www.zora.uzh.ch/id/eprint/191270/|title=Language Resources for Historical Newspapers: the Impresso Collection|last1=Ehrmann|first1=Maud|last2=Romanello|first2=Matteo|last3=Clematide|first3=Simon|last4=Ströbel|first4=Phillip|last5=Barman|first5=Raphaël|date=2020|book-title=Proceedings of the 12th Language Resources and Evaluation Conference|pages=958–968|location=Marseille, France}}</ref> किन्तु छवियाँ भी,<ref name="cini_archive_digitization">{{cite conference |url=https://www.ingentaconnect.com/content/ist/ac/2018/00002018/00000001/art00001|title=कला ऐतिहासिक फोटोग्राफिक अभिलेखागार के डिजिटलीकरण के लिए नई तकनीकें - वेनिस में सिनी फाउंडेशन का मामला|last1=Seguin|first1=Benoit|last2=Costiner|first2=Lisandra|last3=di Lenardo|first3=Isabella|last4=Kaplan|first4=Frédéric|date=April 1, 2018 |book-title=Archiving 2018 Final Program and Proceedings|publisher=Society for Imaging Science and Technology|pages=1–5|doi=10.2352/issn.2168-3204.2018.1.0.2}}</ref> या मानचित्र। रेफरी>{{cite conference |url=https://infoscience.epfl.ch/record/268282|title=कैडस्ट्रल कंप्यूटिंग के लिए एक गहन शिक्षण दृष्टिकोण|last1=एरेस ओलिविरा|first1=सोफिया|last3=टूरेंक|first3=बैस्टियन|last2=डि लेनार्डो|first2=इसाबेल्ला|last4=कापलान|first4=फ़्रेडरिक|date=11 जुलाई 2019|conference=डिजिटल मानविकी सम्मेलन|location=यूट्रेक्ट, नीदरलैंड}}<nowiki></ref></nowiki><ref>{{cite thesis|type=MSc|last=Petitpierre|first=Rémi|date=July 2020|title=Neural networks for semantic segmentation of historical city maps: Cross-cultural performance and the impact of figurative diversity|doi=10.13140/RG.2.2.10973.64484|arxiv=2101.12478
अभिलेखागार या विरासत संग्रह से ऐतिहासिक बड़े डेटा को निकालने के लिए दस्तावेज़ प्रसंस्करण का व्यापक रूप से [[मानविकी]] और [[डिजिटल मानविकी]] में भी उपयोग किया जाता है। विभिन्न स्रोतों के लिए विशिष्ट दृष्टिकोण विकसित किए गए, जिनमें पाठ्य दस्तावेज़, जैसे समाचार पत्र अभिलेखागार,<ref>{{cite conference |url=https://www.zora.uzh.ch/id/eprint/191270/|title=Language Resources for Historical Newspapers: the Impresso Collection|last1=Ehrmann|first1=Maud|last2=Romanello|first2=Matteo|last3=Clematide|first3=Simon|last4=Ströbel|first4=Phillip|last5=Barman|first5=Raphaël|date=2020|book-title=Proceedings of the 12th Language Resources and Evaluation Conference|pages=958–968|location=Marseille, France}}</ref> किन्तु छवियाँ भी,<ref name="cini_archive_digitization">{{cite conference |url=https://www.ingentaconnect.com/content/ist/ac/2018/00002018/00000001/art00001|title=कला ऐतिहासिक फोटोग्राफिक अभिलेखागार के डिजिटलीकरण के लिए नई तकनीकें - वेनिस में सिनी फाउंडेशन का मामला|last1=Seguin|first1=Benoit|last2=Costiner|first2=Lisandra|last3=di Lenardo|first3=Isabella|last4=Kaplan|first4=Frédéric|date=April 1, 2018 |book-title=Archiving 2018 Final Program and Proceedings|publisher=Society for Imaging Science and Technology|pages=1–5|doi=10.2352/issn.2168-3204.2018.1.0.2}}</ref> या मानचित्र। रेफरी>{{cite conference |url=https://infoscience.epfl.ch/record/268282|title=कैडस्ट्रल कंप्यूटिंग के लिए एक गहन शिक्षण दृष्टिकोण|last1=एरेस ओलिविरा|first1=सोफिया|last3=टूरेंक|first3=बैस्टियन|last2=डि लेनार्डो|first2=इसाबेल्ला|last4=कापलान|first4=फ़्रेडरिक|date=11 जुलाई 2019|conference=डिजिटल मानविकी सम्मेलन|location=यूट्रेक्ट, नीदरलैंड}}<nowiki></ref></nowiki><ref>{{cite thesis|type=MSc|last=Petitpierre|first=Rémi|date=July 2020|title=Neural networks for semantic segmentation of historical city maps: Cross-cultural performance and the impact of figurative diversity|doi=10.13140/RG.2.2.10973.64484|arxiv=2101.12478
Line 47: Line 47:
==='''प्रौद्योगिकी'''===
==='''प्रौद्योगिकी'''===


यदि, 1980 के दशक के बाद से, दस्तावेज़ प्रसंस्करण समस्याओं को हल करने के लिए पारंपरिक कंप्यूटर विज़न एल्गोरिदम का व्यापक रूप से उपयोग किया जाने लगा,<ref>{{cite journal |last1=Fujisawa|first1=H.|last2=Nakano|first2=Y.|last3=Kurino|first3=K.|date= July 1992
यदि, 1980 के दशक के पश्चात् से, दस्तावेज़ प्रसंस्करण समस्याओं को हल करने के लिए पारंपरिक कंप्यूटर विज़न एल्गोरिदम का व्यापक रूप से उपयोग किया जाने लगा,<ref>{{cite journal |last1=Fujisawa|first1=H.|last2=Nakano|first2=Y.|last3=Kurino|first3=K.|date= July 1992
|title=Segmentation methods for character recognition: from segmentation to document structure analysis
|title=Segmentation methods for character recognition: from segmentation to document structure analysis
|url= https://ieeexplore.ieee.org/document/156471|journal= Proceedings of the IEEE
|url= https://ieeexplore.ieee.org/document/156471|journal= Proceedings of the IEEE
Line 59: Line 59:
|arxiv=1804.10371}}</ref> चूँकि, पारंपरिक कंप्यूटर विज़न विधि ों का उपयोग अभी भी कुछ क्षेत्रों में, कभी-कभी तंत्रिका नेटवर्क के संयोजन में किया जाता है।
|arxiv=1804.10371}}</ref> चूँकि, पारंपरिक कंप्यूटर विज़न विधि ों का उपयोग अभी भी कुछ क्षेत्रों में, कभी-कभी तंत्रिका नेटवर्क के संयोजन में किया जाता है।


कई प्रौद्योगिकियां दस्तावेज़ प्रसंस्करण के विकास का समर्थन करती हैं, विशेष रूप से ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), और हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर), जो टेक्स्ट को स्वचालित रूप से ट्रांसक्रिप्ट करने की अनुमति देती हैं। टेक्स्ट सेगमेंट को उदाहरण या ऑब्जेक्ट डिटेक्शन एल्गोरिदम का उपयोग करके पहचाना जाता है, जिसका उपयोग कभी-कभी दस्तावेज़ की संरचना का पता लगाने के लिए भी किया जा सकता है। बाद की समस्या का समाधान कभी-कभी सिमेंटिक विभाजन एल्गोरिदम का भी उपयोग करता है।
अनेक प्रौद्योगिकियां दस्तावेज़ प्रसंस्करण के विकास का समर्थन करती हैं, विशेष रूप से ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), और हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर), जो टेक्स्ट को स्वचालित रूप से ट्रांसक्रिप्ट करने की अनुमति देती हैं। टेक्स्ट सेगमेंट को उदाहरण या ऑब्जेक्ट डिटेक्शन एल्गोरिदम का उपयोग करके पहचाना जाता है, जिसका उपयोग कभी-कभी दस्तावेज़ की संरचना का पता लगाने के लिए भी किया जा सकता है। पश्चात् की समस्या का समाधान कभी-कभी सिमेंटिक विभाजन एल्गोरिदम का भी उपयोग करता है।


ये प्रौद्योगिकियाँ अधिकांशतः दस्तावेज़ प्रसंस्करण का मूल बनती हैं। चूँकि, अन्य एल्गोरिदम इन प्रक्रियाओं से पहले या बाद में हस्तक्षेप कर सकते हैं। मुख्य रूप से, दस्तावेज़ डिजिटलीकरण प्रौद्योगिकियां भी सम्मिलित हैं, चाहे वह मौलिक या त्रि-आयामी स्कैनिंग के रूप में हो।<ref>{{cite web |url=https://artmyn.com/|title= Revolutionary Scanning Technology for Art
यह प्रौद्योगिकियाँ अधिकांशतः दस्तावेज़ प्रसंस्करण का मूल बनती हैं। चूँकि, अन्य एल्गोरिदम इन प्रक्रियाओं से पहले या पश्चात् में हस्तक्षेप कर सकते हैं। मुख्य रूप से, दस्तावेज़ डिजिटलीकरण प्रौद्योगिकियां भी सम्मिलित हैं, चाहे वह मौलिक या त्रि-आयामी स्कैनिंग के रूप में हो।<ref>{{cite web |url=https://artmyn.com/|title= Revolutionary Scanning Technology for Art
|website=Artmyn|access-date=3 February 2021}}</ref> 3डी दस्तावेजों का डिजिटलीकरण विशेष रूप से [[ photogrammetry |photogrammetry]] के डेरिवेटिव का सहारा ले सकता है। कभी-कभी, दस्तावेज़ों के आकार के अनुकूल या स्कैनिंग एर्गोनॉमिक्स के कारणों से विशिष्ट 2डी स्कैनर भी विकसित किए जाने चाहिए।<ref name="cini_archive_digitization"/> दस्तावेज़ प्रसंस्करण उपयुक्त फ़ाइल प्रारूप में दस्तावेज़ों की डिजिटल एन्कोडिंग पर भी निर्भर करता है। इसके अतिरिक्त, विषम डेटाबेस का प्रसंस्करण छवि वर्गीकरण प्रौद्योगिकियों पर भरोसा कर सकता है।
|website=Artmyn|access-date=3 February 2021}}</ref> 3डी दस्तावेजों का डिजिटलीकरण विशेष रूप से [[ photogrammetry |photogrammetry]] के डेरिवेटिव का सहारा ले सकता है। कभी-कभी, दस्तावेज़ों के आकार के अनुकूल या स्कैनिंग एर्गोनॉमिक्स के कारणों से विशिष्ट 2डी स्कैनर भी विकसित किए जाने चाहिए।<ref name="cini_archive_digitization"/> दस्तावेज़ प्रसंस्करण उपयुक्त फ़ाइल प्रारूप में दस्तावेज़ों की डिजिटल एन्कोडिंग पर भी निर्भर करता है। इसके अतिरिक्त, विषम डेटाबेस का प्रसंस्करण छवि वर्गीकरण प्रौद्योगिकियों पर भरोसा कर सकता है।



Revision as of 01:00, 26 July 2023

दस्तावेज़ प्रसंस्करण अनुसंधान का क्षेत्र है और उत्पादन प्रक्रियाओं का समूह है जिसका उद्देश्य एनालॉग दस्तावेज़ को डिजिटल बनाना है। दस्तावेज़ प्रसंस्करण का उद्देश्य केवल डिजिटल छवि प्राप्त करने के लिए दस्तावेज़ की तस्वीर लेना या छवि स्कैन करना नहीं है, किंतु इसे डिजिटल रूप से समझने योग्य बनाना भी है। इसमें दस्तावेज़ की संरचना निकालना या दस्तावेज़ लेआउट विश्लेषण और फिर सामग्री सम्मिलित है, जो पाठ या छवियों का रूप ले सकती है। इस प्रक्रिया में पारंपरिक कंप्यूटर दृष्टि एल्गोरिदम, कन्वेन्शनल न्यूरल नेटवर्क या मैन्युअल श्रम सम्मिलित हो सकता है। संबोधित समस्याएं शब्दार्थ विभाजन, वस्तु का पता लगाना, ऑप्टिकल कैरेक्टर मान्यता|ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), हस्तलिखित टेक्स्ट रिकग्निशन|हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर) और अधिक मोटे तौर पर ट्रांसक्रिप्शन (भाषाविज्ञान), चाहे स्वचालन हो या नहीं, से संबंधित हैं।[1] इस शब्द में स्कैनर का उपयोग करके दस्तावेज़ को डिजिटाइज़ करने का चरण और दस्तावेज़ की व्याख्या करने का चरण भी सम्मिलित हो सकता है, उदाहरण के लिए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) या छवि वर्गीकरण प्रौद्योगिकियों का उपयोग करना। इसे प्रशासनिक प्रक्रियाओं, मेल प्रसंस्करण और एनालॉग संग्रह और ऐतिहासिक दस्तावेजों के डिजिटलीकरण के अनुकूलन के लिए अनेक औद्योगिक और वैज्ञानिक क्षेत्रों में प्रयुक्त किया जाता है।

पृष्ठभूमि

दस्तावेज़ प्रसंस्करण प्रारंभ में था, जैसा कि अभी भी कुछ सीमा तक प्रकार का उत्पादन लाइन कार्य है जो डेटा को सॉर्ट करने, निकालने या बड़े पैमाने पर निकालने के उद्देश्य से पत्रों और पार्सल जैसे दस्तावेज़ों के उपचार से संबंधित है। यह कार्य इन-हाउस या व्यापार प्रक्रिया बाहरी स्रोत से सेवाएँ प्राप्त करना के माध्यम से किया जा सकता है।[2][3] दस्तावेज़ प्रसंस्करण में वास्तव में कुछ प्रकार के बाहरी मैनुअल श्रम सम्मिलित हो सकते हैं, जैसे अमेज़ॅन मैकेनिकल तुर्क

मैन्युअल दस्तावेज़ प्रसंस्करण के उदाहरण के रूप में, अपेक्षाकृत हाल ही में 2007 में,[4] लाखों वीज़ा और नागरिकता आवेदनों के लिए दस्तावेज़ प्रसंस्करण में मेल रूम और डेटा प्रविष्टि लिपिक के प्रबंधन के लिए काम करने वाले लगभग 1,000 अनुबंध श्रमिकों का उपयोग सम्मिलित था।

जबकि दस्तावेज़ प्रसंस्करण में कम्प्यूटर का माउस या छवि स्कैनर के उपयोग से पहले कीबोर्ड के माध्यम से डेटा प्रविष्टि सम्मिलित थी, 1990 दी न्यू यौर्क टाइम्स के लेख में इसे पेपरलेस कार्यालय कहा जाता था, जिसमें कहा गया था कि दस्तावेज़ प्रसंस्करण स्कैनर से प्रारंभ होता है।[5] इस संदर्भ में, ज़ीरक्सा के पूर्व उपाध्यक्ष, पॉल स्ट्रैसमैन ने आलोचनात्मक राय व्यक्त करते हुए कहा कि कंप्यूटर किसी कार्यालय में कागज की मात्रा को कम करने के अतिरिक्त बढ़ाता है।[5] ऐसा कहा जाता था कि हवाई जहाज के इंजीनियरिंग और रखरखाव दस्तावेजों का वजन हवाई जहाज से भी अधिक होता है.

स्वचालित दस्तावेज़ प्रसंस्करण

जैसे-जैसे कला की स्थिति उन्नत हुई, दस्तावेज़ प्रसंस्करण दस्तावेज़ घटकों को संभालने के लिए परिवर्तित हो गया... डेटाबेस संस्थाओं के रूप में।[6] स्वचालित दस्तावेज़ प्रसंस्करण या कभी-कभी बुद्धिमान दस्तावेज़ प्रसंस्करण (आईडी) नामक विधि प्रक्रिया स्वचालन (आईपीए) के विशिष्ट रूप के रूप में उभरी, जिसमें यंत्र अधिगम (एमएल), प्राकृतिक भाषा प्रसंस्करण (एनएलपी) या बुद्धिमान चरित्र पहचान (आईसीई) जैसी कृत्रिम बुद्धिमत्ता का संयोजन किया गया। अनेक प्रकार के दस्तावेज़ों से डेटा निकालने के लिए।[7][8]

अनुप्रयोग

स्वचालित दस्तावेज़ प्रसंस्करण दस्तावेज़ों की पूरी श्रृंखला पर प्रयुक्त होता है, चाहे वह संरचित हो या नहीं। उदाहरण के लिए, व्यवसाय और वित्त की विश्व में, प्रौद्योगिकियों का उपयोग कागज-आधारित चालान, फॉर्म, खरीद आदेश, अनुबंध और मुद्रा बिल को संसाधित करने के लिए किया जा सकता है।[9] वित्तीय संस्थान विनियामक प्रपत्रों या ऋण दस्तावेजों जैसे बड़ी मात्रा में प्रपत्रों को संसाधित करने के लिए बुद्धिमान दस्तावेज़ प्रसंस्करण का उपयोग करते हैं। आईडी दस्तावेजों से डेटा निकालने और वर्गीकृत करने के लिए मैन्युअल डेटा प्रविष्टि की स्थान एआई का उपयोग करता है।[10]

चिकित्सा में, विशेष रूप से चिकित्सा या प्रयोगशाला विश्लेषण सूचीों को डिजिटाइज़ करके, रोगी अनुवर्ती कार्रवाई को सुविधाजनक बनाने और प्रशासनिक प्रक्रियाओं को सुव्यवस्थित करने के लिए दस्तावेज़ प्रसंस्करण विधियों को विकसित किया गया है। लक्ष्य मेडिकल डेटाबेस को मानकीकृत करना भी है।[11] चिकित्सा निदान में चिकित्सकों की सहायता के लिए एल्गोरिदम का भी सीधे उपयोग किया जाता है, उदाहरण के लिए चुंबकीय अनुनाद इमेजिंग का विश्लेषण करके,[12][13] या माइक्रोस्कोप छवियाँ।[14]

अभिलेखागार या विरासत संग्रह से ऐतिहासिक बड़े डेटा को निकालने के लिए दस्तावेज़ प्रसंस्करण का व्यापक रूप से मानविकी और डिजिटल मानविकी में भी उपयोग किया जाता है। विभिन्न स्रोतों के लिए विशिष्ट दृष्टिकोण विकसित किए गए, जिनमें पाठ्य दस्तावेज़, जैसे समाचार पत्र अभिलेखागार,[15] किन्तु छवियाँ भी,[16] या मानचित्र। रेफरी>एरेस ओलिविरा, सोफिया; डि लेनार्डो, इसाबेल्ला; टूरेंक, बैस्टियन; कापलान, फ़्रेडरिक (11 जुलाई 2019). कैडस्ट्रल कंप्यूटिंग के लिए एक गहन शिक्षण दृष्टिकोण. डिजिटल मानविकी सम्मेलन. यूट्रेक्ट, नीदरलैंड. {{cite conference}}: Check date values in: |date= (help)</ref>[17]

प्रौद्योगिकी

यदि, 1980 के दशक के पश्चात् से, दस्तावेज़ प्रसंस्करण समस्याओं को हल करने के लिए पारंपरिक कंप्यूटर विज़न एल्गोरिदम का व्यापक रूप से उपयोग किया जाने लगा,[18][19] इन्हें 2010 के दशक में धीरे-धीरे तंत्रिका नेटवर्क प्रौद्योगिकियों द्वारा प्रतिस्थापित किया गया है।[20] चूँकि, पारंपरिक कंप्यूटर विज़न विधि ों का उपयोग अभी भी कुछ क्षेत्रों में, कभी-कभी तंत्रिका नेटवर्क के संयोजन में किया जाता है।

अनेक प्रौद्योगिकियां दस्तावेज़ प्रसंस्करण के विकास का समर्थन करती हैं, विशेष रूप से ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), और हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर), जो टेक्स्ट को स्वचालित रूप से ट्रांसक्रिप्ट करने की अनुमति देती हैं। टेक्स्ट सेगमेंट को उदाहरण या ऑब्जेक्ट डिटेक्शन एल्गोरिदम का उपयोग करके पहचाना जाता है, जिसका उपयोग कभी-कभी दस्तावेज़ की संरचना का पता लगाने के लिए भी किया जा सकता है। पश्चात् की समस्या का समाधान कभी-कभी सिमेंटिक विभाजन एल्गोरिदम का भी उपयोग करता है।

यह प्रौद्योगिकियाँ अधिकांशतः दस्तावेज़ प्रसंस्करण का मूल बनती हैं। चूँकि, अन्य एल्गोरिदम इन प्रक्रियाओं से पहले या पश्चात् में हस्तक्षेप कर सकते हैं। मुख्य रूप से, दस्तावेज़ डिजिटलीकरण प्रौद्योगिकियां भी सम्मिलित हैं, चाहे वह मौलिक या त्रि-आयामी स्कैनिंग के रूप में हो।[21] 3डी दस्तावेजों का डिजिटलीकरण विशेष रूप से photogrammetry के डेरिवेटिव का सहारा ले सकता है। कभी-कभी, दस्तावेज़ों के आकार के अनुकूल या स्कैनिंग एर्गोनॉमिक्स के कारणों से विशिष्ट 2डी स्कैनर भी विकसित किए जाने चाहिए।[16] दस्तावेज़ प्रसंस्करण उपयुक्त फ़ाइल प्रारूप में दस्तावेज़ों की डिजिटल एन्कोडिंग पर भी निर्भर करता है। इसके अतिरिक्त, विषम डेटाबेस का प्रसंस्करण छवि वर्गीकरण प्रौद्योगिकियों पर भरोसा कर सकता है।

श्रृंखला के दूसरे छोर पर विभिन्न छवि पूर्णता, एक्सट्रपलेशन या डेटा क्लीनअप एल्गोरिदम हैं। पाठ्य दस्तावेजों के लिए, व्याख्या प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रौद्योगिकियों का उपयोग कर सकती है।

यह भी देखें

संदर्भ

  1. Len Asprey; Michael Middleton (2003). Integrative Document & Content Management: Strategies for Exploiting Enterprise Knowledge. Idea Group Inc (IGI). ISBN 9781591400554.
  2. Vinod V. Sople (2009-05-25). Business Process Outsourcing: A Supply Chain of Expertises. PHI Learning Pvt. Ltd. ISBN 978-8120338159.
  3. Mark Kobayashi-Hillary (2005-12-05). Outsourcing to India: The Offshore Advantage. Springer Science & Business Media. ISBN 9783540247944.
  4. Julia Preston (December 2, 2007). "Immigration Contractor Trims Wages". The New York Times.
  5. 5.0 5.1 Lawrence M. Fisher (July 7, 1990). "Paper, Once Written Off, Keeps a Place in the Office". The New York Times.
  6. Al Young; Dayle Woolstein; Jay Johnson (February 1996). "Unknown Title". Object Magazine. p. 51.
  7. "फ़्लोरिआना एस्पोसिटो, स्टेफ़ानो फ़ेरीली, टेरेसा एम. ए. बेसिल, निकोला डि माउरो द्वारा बुद्धिमान दस्तावेज़ प्रसंस्करण" (PDF). Department of Computer Science – University of Bari. 2005-04-07. Retrieved 2018-09-08.
  8. Floriana Esposito , Stefano Ferilli , Teresa M. A. Basile , Nicola Di Mauro (2005-04-01). "Intelligent Document Processing" in Proceedings. Eighth International Conference on Document Analysis and Recognition, Seoul, South Korea, 2005 pp. 1100-1104. doi: 10.1109/ICDAR.2005.144. doi:10.1109/ICDAR.2005.144. S2CID 17302169.{{cite book}}: CS1 maint: multiple names: authors list (link)
  9. US active US7873576B2, John E. Jones; William J. Jones & Frank M. Csultis, "वित्तीय दस्तावेज़ प्रसंस्करण प्रणाली", published 2011-01-18, issued 2011-01-18 
  10. Bridgwater, Adrian. "एपियन ने लो-कोड ऑटोमेशन मिक्स में Google क्लाउड इंटेलिजेंस जोड़ा है". Forbes (in English). Retrieved 2021-04-21.
  11. Adamo, Francesco; Attivissimo, Filippo; Di Nisio, Attilio; Spadavecchia, Maurizio (February 2015). "चिकित्सा डेटा निष्कर्षण के लिए एक स्वचालित दस्तावेज़ प्रसंस्करण प्रणाली". Measurement. 61: 88–99. Bibcode:2015Meas...61...88A. doi:10.1016/j.measurement.2014.10.032. Retrieved 31 January 2021.
  12. Changwan, Kim; Seong-Il, Lee; Won Joon, Cho (September 2020). "Volumetric assessment of extrusion in medial meniscus posterior root tears through semi-automatic segmentation on 3-tesla magnetic resonance images". Orthopaedics & Traumatology: Surgery & Research. 101 (5): 963–968. doi:10.1016/j.rcot.2020.06.003. S2CID 225215597. Retrieved 31 January 2021.
  13. Despotović, Ivana; Bart, Goossens; Wilfried, Philips (1 March 2015). "MRI Segmentation of the Human Brain: Challenges, Methods, and Applications". Computational Intelligence Techniques in Medicine. 2015: 963–968. doi:10.1155/2015/450341. PMC 4402572. PMID 25945121.
  14. Putzua, Lorenzo; Caocci, Giovanni; Di Rubertoa, Cecilia (November 2014). "छवि प्रसंस्करण तकनीकों का उपयोग करके ल्यूकेमिया का पता लगाने के लिए ल्यूकोसाइट वर्गीकरण". Artificial Intelligence in Medicine. 63 (3): 179–191. doi:10.1016/j.artmed.2014.09.002. hdl:11584/94592. PMID 25241903.
  15. Ehrmann, Maud; Romanello, Matteo; Clematide, Simon; Ströbel, Phillip; Barman, Raphaël (2020). "Language Resources for Historical Newspapers: the Impresso Collection". Proceedings of the 12th Language Resources and Evaluation Conference. Marseille, France. pp. 958–968.
  16. 16.0 16.1 Seguin, Benoit; Costiner, Lisandra; di Lenardo, Isabella; Kaplan, Frédéric (April 1, 2018). "कला ऐतिहासिक फोटोग्राफिक अभिलेखागार के डिजिटलीकरण के लिए नई तकनीकें - वेनिस में सिनी फाउंडेशन का मामला". Archiving 2018 Final Program and Proceedings. Society for Imaging Science and Technology. pp. 1–5. doi:10.2352/issn.2168-3204.2018.1.0.2.
  17. Petitpierre, Rémi (July 2020). Neural networks for semantic segmentation of historical city maps: Cross-cultural performance and the impact of figurative diversity (MSc). arXiv:2101.12478. doi:10.13140/RG.2.2.10973.64484.
  18. Fujisawa, H.; Nakano, Y.; Kurino, K. (July 1992). "Segmentation methods for character recognition: from segmentation to document structure analysis". Proceedings of the IEEE. 80 (7): 1079–1092. doi:10.1109/5.156471. Retrieved 3 February 2021.
  19. Tang, Yuan Y.; Lee, Seong-Whan; Suen, Ching Y. (1996). "Automatic document processing: a survey". Pattern Recognition. 29 (12): 1931–1952. Bibcode:1996PatRe..29.1931T. doi:10.1016/S0031-3203(96)00044-1. Retrieved 3 February 2021.
  20. Ares Oliveira, Sofia; Seguin, Benoit; Kaplan, Frederic (5–8 August 2018). dhSegment: A Generic Deep-Learning Approach for Document Segmentation. 2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR). Niagara Falls, NY, USA: IEEE. arXiv:1804.10371. doi:10.1109/ICFHR-2018.2018.00011.{{cite conference}}: CS1 maint: date format (link)
  21. "Revolutionary Scanning Technology for Art". Artmyn. Retrieved 3 February 2021.