दस्तावेज़ प्रसंस्करण: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(6 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Digitalisation of analog documents}}
{{Short description|Digitalisation of analog documents}}
[[दस्तावेज़]] प्रसंस्करण अनुसंधान का क्षेत्र है और [[उत्पादन प्रक्रिया]]ओं का समूह है जिसका उद्देश्य एनालॉग दस्तावेज़ को डिजिटल बनाना है। दस्तावेज़ प्रसंस्करण का उद्देश्य केवल [[डिजिटल छवि]] प्राप्त करने के लिए दस्तावेज़ की तस्वीर लेना या छवि स्कैन करना नहीं है, बल्कि इसे डिजिटल रूप से समझने योग्य बनाना भी है। इसमें दस्तावेज़ की संरचना निकालना या [[दस्तावेज़ लेआउट विश्लेषण]] और फिर सामग्री शामिल है, जो पाठ या छवियों का रूप ले सकती है। इस प्रक्रिया में पारंपरिक [[कंप्यूटर दृष्टि]] एल्गोरिदम, कन्वेन्शनल न्यूरल नेटवर्क या मैन्युअल श्रम शामिल हो सकता है। संबोधित समस्याएं [[शब्दार्थ विभाजन]], [[ वस्तु का पता लगाना |वस्तु का पता लगाना]], [[ऑप्टिकल कैरेक्टर मान्यता]]|ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), हस्तलिखित टेक्स्ट रिकग्निशन|हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर) और अधिक मोटे तौर पर ट्रांसक्रिप्शन (भाषाविज्ञान), चाहे [[ स्वचालन |स्वचालन]] हो या नहीं, से संबंधित हैं।<ref>{{Cite book
'''[[दस्तावेज़]] प्रसंस्करण''' अनुसंधान का क्षेत्र है और [[उत्पादन प्रक्रिया]]ओं का समूह है जिसका उद्देश्य एनालॉग दस्तावेज़ को डिजिटल बनाना है। दस्तावेज़ प्रसंस्करण का उद्देश्य केवल [[डिजिटल छवि]] प्राप्त करने के लिए दस्तावेज़ की तस्वीर लेना या छवि स्कैन करना नहीं है, किंतु इसे डिजिटल रूप से समझने योग्य बनाना भी है। इस प्रकार इसमें दस्तावेज़ की संरचना निकालना या [[दस्तावेज़ लेआउट विश्लेषण]] और फिर सामग्री को निकालना सम्मिलित है, जो पाठ या छवियों का रूप ले सकता है। इस प्रक्रिया में पारंपरिक [[कंप्यूटर दृष्टि]] एल्गोरिदम, कन्वेन्शनल न्यूरल नेटवर्क या मैन्युअल श्रम सम्मिलित हो सकता है। इस प्रकार संबोधित की गई समस्याएं सिमेंटिक सेगमेंटेशन, [[ वस्तु का पता लगाना |ऑब्जेक्ट डिटेक्शन]], [[ऑप्टिकल कैरेक्टर मान्यता|ऑप्टिकल कैरेक्टर रिकग्निशन]] (ओसीआर), हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर) और, अधिक व्यापक रूप से, ट्रांसक्रिप्शन, चाहे [[ स्वचालन |स्वचालित]] हो या नहीं, से संबंधित हैं।<ref>{{Cite book
   |url=https://books.google.com/books?id=gYOpFlMXcs0C&q=%22document+processing%22+ocr&pg=PA368
   |url=https://books.google.com/books?id=gYOpFlMXcs0C&q=%22document+processing%22+ocr&pg=PA368
   |title=Integrative Document & Content Management: Strategies for Exploiting Enterprise Knowledge
   |title=Integrative Document & Content Management: Strategies for Exploiting Enterprise Knowledge
   |author1=Len Asprey |author2=Michael Middleton
   |author1=Len Asprey |author2=Michael Middleton
   |date=2003  |publisher=Idea Group Inc (IGI)  |isbn=9781591400554}}</ref> इस शब्द में स्कैनर का उपयोग करके दस्तावेज़ को डिजिटाइज़ करने का चरण और दस्तावेज़ की व्याख्या करने का चरण भी शामिल हो सकता है, उदाहरण के लिए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) या [[छवि वर्गीकरण]] प्रौद्योगिकियों का उपयोग करना। इसे प्रशासनिक प्रक्रियाओं, मेल प्रसंस्करण और एनालॉग [[संग्रह]] और ऐतिहासिक दस्तावेजों के डिजिटलीकरण के अनुकूलन के लिए कई औद्योगिक और वैज्ञानिक क्षेत्रों में लागू किया जाता है।
   |date=2003  |publisher=Idea Group Inc (IGI)  |isbn=9781591400554}}</ref> इस शब्द में स्कैनर का उपयोग करके दस्तावेज़ को डिजिटाइज़ करने का चरण और दस्तावेज़ की व्याख्या करने का चरण भी सम्मिलित हो सकता है, उदाहरण के लिए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) या [[छवि वर्गीकरण]] प्रौद्योगिकियों का उपयोग करना। इसे प्रशासनिक प्रक्रियाओं, मेल प्रसंस्करण और एनालॉग [[संग्रह]] और ऐतिहासिक दस्तावेजों के डिजिटलीकरण के अनुकूलन के लिए अनेक औद्योगिक और वैज्ञानिक क्षेत्रों में प्रयुक्त किया जाता है।


=='''पृष्ठभूमि'''==
=='''पृष्ठभूमि'''==
दस्तावेज़ प्रसंस्करण प्रारंभ में था, जैसा कि अभी भी कुछ हद तक प्रकार का उत्पादन लाइन कार्य है जो डेटा को सॉर्ट करने, निकालने या बड़े पैमाने पर निकालने के उद्देश्य से पत्रों और पार्सल जैसे दस्तावेज़ों के उपचार से संबंधित है। यह कार्य इन-हाउस या [[ व्यापार प्रक्रिया बाहरी स्रोत से सेवाएँ प्राप्त करना |व्यापार प्रक्रिया बाहरी स्रोत से सेवाएँ प्राप्त करना]] के माध्यम से किया जा सकता है।<ref>{{Cite book
दस्तावेज़ प्रसंस्करण प्रारंभ में था, जैसा कि अभी भी कुछ सीमा तक प्रकार का उत्पादन लाइन कार्य है जो डेटा को सॉर्ट करने, निकालने या बड़े पैमाने पर निकालने के उद्देश्य से पत्रों और पार्सल जैसे दस्तावेज़ों के उपचार से संबंधित है। यह कार्य इन-हाउस या [[ व्यापार प्रक्रिया बाहरी स्रोत से सेवाएँ प्राप्त करना |व्यापार प्रक्रिया बाहरी स्रोत से सेवाएँ प्राप्त करना]] के माध्यम से किया जा सकता है।<ref>{{Cite book
     |url=https://books.google.com/books?id=g4dxNB05dgoC&q=document+processing+bpo&pg=PA47
     |url=https://books.google.com/books?id=g4dxNB05dgoC&q=document+processing+bpo&pg=PA47
     |title=Business Process Outsourcing: A Supply Chain of Expertises
     |title=Business Process Outsourcing: A Supply Chain of Expertises
Line 15: Line 15:
|title=Outsourcing to India: The Offshore Advantage  
|title=Outsourcing to India: The Offshore Advantage  
|author=Mark Kobayashi-Hillary
|author=Mark Kobayashi-Hillary
|date=2005-12-05 |publisher=Springer Science & Business Media |isbn=9783540247944}}</ref> दस्तावेज़ प्रसंस्करण में वास्तव में कुछ प्रकार के बाहरी मैनुअल श्रम शामिल हो सकते हैं, जैसे [[अमेज़ॅन मैकेनिकल तुर्क]]।
|date=2005-12-05 |publisher=Springer Science & Business Media |isbn=9783540247944}}</ref> इस प्रकार दस्तावेज़ प्रसंस्करण में वास्तव में कुछ प्रकार के बाहरी मैनुअल श्रम सम्मिलित हो सकते हैं, जैसे [[अमेज़ॅन मैकेनिकल तुर्क]]।


मैन्युअल दस्तावेज़ प्रसंस्करण के उदाहरण के रूप में, अपेक्षाकृत हाल ही में 2007 में,<ref name="VisaDox">{{cite news |newspaper=[[The New York Times]]
मैन्युअल दस्तावेज़ प्रसंस्करण के उदाहरण के रूप में, अपेक्षाकृत हाल ही में सत्र 2007 में,<ref name="VisaDox">{{cite news |newspaper=[[The New York Times]]
   |url=https://www.nytimes.com/2007/12/02/us/02immig.html
   |url=https://www.nytimes.com/2007/12/02/us/02immig.html
   |title=Immigration Contractor Trims Wages
   |title=Immigration Contractor Trims Wages
   |author=Julia Preston  |date=December 2, 2007}}</ref> लाखों वीज़ा और नागरिकता आवेदनों के लिए दस्तावेज़ प्रसंस्करण में मेल रूम और [[डेटा प्रविष्टि लिपिक]] के प्रबंधन के लिए काम करने वाले लगभग 1,000 अनुबंध श्रमिकों का उपयोग शामिल था।
   |author=Julia Preston  |date=December 2, 2007}}</ref> '''"लाखों वीज़ा और नागरिकता आवेदनों"''' के लिए दस्तावेज़ प्रसंस्करण में '''"मेल रूम और [[डेटा प्रविष्टि लिपिक]] के प्रबंधन"''' के लिए काम करने वाले '''"लगभग 1,000 अनुबंध श्रमिकों"''' के उपयोग के बारे में सम्मिलित था।


जबकि दस्तावेज़ प्रसंस्करण में [[ कम्प्यूटर का माउस |कम्प्यूटर का माउस]] या [[छवि स्कैनर]] के उपयोग से पहले कीबोर्ड के माध्यम से डेटा प्रविष्टि शामिल थी, 1990 [[दी न्यू यौर्क टाइम्स]] के लेख में इसे पेपरलेस कार्यालय कहा जाता था, जिसमें कहा गया था कि दस्तावेज़ प्रसंस्करण स्कैनर से शुरू होता है।<ref name="Paper.NYT">{{cite news|newspaper=[[The New York Times]]
जबकि दस्तावेज़ प्रसंस्करण में [[ कम्प्यूटर का माउस |कम्प्यूटर माउस]] या [[छवि स्कैनर]] के उपयोग से पहले कीबोर्ड के माध्यम से डेटा प्रविष्टि सम्मिलित थी, 1990 [[दी न्यू यौर्क टाइम्स]] के लेख में इसे '''"पेपरलेस कार्यालय"''' कहा गया था कि '''"दस्तावेज़ प्रसंस्करण स्कैनर से शुरू होता है"'''।<ref name="Paper.NYT">{{cite news|newspaper=[[The New York Times]]
   |url=https://www.nytimes.com/1990/07/07/business/paper-once-written-off-keeps-a-place-in-the-office.html
   |url=https://www.nytimes.com/1990/07/07/business/paper-once-written-off-keeps-a-place-in-the-office.html
   |title=Paper, Once Written Off, Keeps a Place in the Office
   |title=Paper, Once Written Off, Keeps a Place in the Office
   |author=Lawrence M. Fisher  |date=July 7, 1990}}</ref> इस संदर्भ में, [[ज़ीरक्सा]] के पूर्व उपाध्यक्ष, पॉल स्ट्रैसमैन ने आलोचनात्मक राय व्यक्त करते हुए कहा कि कंप्यूटर किसी कार्यालय में कागज की मात्रा को कम करने के बजाय बढ़ाता है।<ref name="Paper.NYT"/> ऐसा कहा जाता था कि हवाई जहाज के इंजीनियरिंग और रखरखाव दस्तावेजों का वजन हवाई जहाज से भी अधिक होता है.
   |author=Lawrence M. Fisher  |date=July 7, 1990}}</ref> इस संदर्भ में, [[ज़ीरक्सा|ज़ेरॉक्स]] के पूर्व उपाध्यक्ष, पॉल स्ट्रैसमैन ने आलोचनात्मक राय व्यक्त करते हुए कहा कि कंप्यूटर किसी कार्यालय में कागज की मात्रा को कम करने के अतिरिक्त बढ़ाता है।<ref name="Paper.NYT"/> ऐसा कहा जाता था कि हवाई जहाज के इंजीनियरिंग और रखरखाव दस्तावेजों का वजन '''"हवाई जहाज से भी अधिक"''' होता है.


=='''स्वचालित दस्तावेज़ प्रसंस्करण'''==
=='''स्वचालित दस्तावेज़ प्रसंस्करण'''==
जैसे-जैसे कला की स्थिति उन्नत हुई, दस्तावेज़ प्रसंस्करण दस्तावेज़ घटकों को संभालने के लिए परिवर्तित हो गया... डेटाबेस संस्थाओं के रूप में।<ref>{{cite magazine  |magazine=Object Magazine
जैसे-जैसे कला की स्थिति उन्नत हुई, दस्तावेज़ प्रसंस्करण '''"दस्तावेज़ घटकों... डेटाबेस संस्थाओं के रूप में"''' को संभालने के लिए परिवर्तित हो गया<ref>{{cite magazine  |magazine=Object Magazine
   |date=February 1996  |page=51 |title=Unknown Title
   |date=February 1996  |page=51 |title=Unknown Title
   |author1=Al Young  |author2=Dayle Woolstein  |author3=Jay Johnson}}</ref>
   |author1=Al Young  |author2=Dayle Woolstein  |author3=Jay Johnson}}</ref>
स्वचालित दस्तावेज़ प्रसंस्करण या कभी-कभी बुद्धिमान दस्तावेज़ प्रसंस्करण (आईडी) नामक तकनीक [[प्रक्रिया स्वचालन]] (आईपीए) के विशिष्ट रूप के रूप में उभरी, जिसमें [[ यंत्र अधिगम |यंत्र अधिगम]] (एमएल), [[प्राकृतिक भाषा प्रसंस्करण]] (एनएलपी) या [[बुद्धिमान चरित्र पहचान]] (आईसीई) जैसी कृत्रिम बुद्धिमत्ता का संयोजन किया गया। कई प्रकार के दस्तावेज़ों से डेटा निकालने के लिए।<ref>{{Cite web|url=http://www.di.uniba.it/~ndm/pubs/esposito05icdar.pdf|title=फ़्लोरिआना एस्पोसिटो, स्टेफ़ानो फ़ेरीली, टेरेसा एम. ए. बेसिल, निकोला डि माउरो द्वारा बुद्धिमान दस्तावेज़ प्रसंस्करण|date=2005-04-07|website=Department of Computer Science – University of Bari|access-date=2018-09-08}}</ref><ref>{{Cite book
 
स्वचालित दस्तावेज़ प्रसंस्करण या कभी-कभी बुद्धिमान दस्तावेज़ प्रसंस्करण (आईडी) नामक विधि [[प्रक्रिया स्वचालन]] (आईपीए) के विशिष्ट रूप के रूप में उभरी है, जो अनेक प्रकार के दस्तावेज़ों से डेटा निकालने के लिए [[ यंत्र अधिगम |मशीन लर्निंग]] (एमएल), [[प्राकृतिक भाषा प्रसंस्करण]] (एनएलपी) या [[बुद्धिमान चरित्र पहचान|इंटेलिजेंट कैरेक्टर रिकग्निशन]] (आईसीई) जैसी कृत्रिम बुद्धिमत्ता का संयोजन करती है। <ref>{{Cite web|url=http://www.di.uniba.it/~ndm/pubs/esposito05icdar.pdf|title=फ़्लोरिआना एस्पोसिटो, स्टेफ़ानो फ़ेरीली, टेरेसा एम. ए. बेसिल, निकोला डि माउरो द्वारा बुद्धिमान दस्तावेज़ प्रसंस्करण|date=2005-04-07|website=Department of Computer Science – University of Bari|access-date=2018-09-08}}</ref><ref>{{Cite book
     |url=https://www.computer.org/csdl/proceedings-article/icdar/2005/24201100/12OmNqIQS59
     |url=https://www.computer.org/csdl/proceedings-article/icdar/2005/24201100/12OmNqIQS59
     |title="Intelligent Document Processing" in Proceedings. Eighth International Conference on Document Analysis and Recognition, Seoul, South Korea, 2005 pp. 1100-1104. doi: 10.1109/ICDAR.2005.144
     |title="Intelligent Document Processing" in Proceedings. Eighth International Conference on Document Analysis and Recognition, Seoul, South Korea, 2005 pp. 1100-1104. doi: 10.1109/ICDAR.2005.144
Line 39: Line 40:
  }}</ref>
  }}</ref>
=== '''अनुप्रयोग''' ===
=== '''अनुप्रयोग''' ===
स्वचालित दस्तावेज़ प्रसंस्करण दस्तावेज़ों की पूरी श्रृंखला पर लागू होता है, चाहे वह संरचित हो या नहीं। उदाहरण के लिए, व्यवसाय और वित्त की दुनिया में, प्रौद्योगिकियों का उपयोग कागज-आधारित चालान, फॉर्म, खरीद आदेश, अनुबंध और मुद्रा बिल को संसाधित करने के लिए किया जा सकता है।<ref>{{cite patent |country=US|number=US7873576B2|status=active|title= वित्तीय दस्तावेज़ प्रसंस्करण प्रणाली|pubdate=2011-01-18|gdate=2011-01-18|invent1=John E. Jones|invent2=William J. Jones|invent3=Frank M. Csultis|url=https://patents.google.com/patent/US7873576B2/en}}</ref> वित्तीय संस्थान विनियामक प्रपत्रों या ऋण दस्तावेजों जैसे बड़ी मात्रा में प्रपत्रों को संसाधित करने के लिए बुद्धिमान दस्तावेज़ प्रसंस्करण का उपयोग करते हैं। आईडी दस्तावेजों से डेटा निकालने और वर्गीकृत करने के लिए मैन्युअल डेटा प्रविष्टि की जगह एआई का उपयोग करता है।<ref>{{Cite web|last=Bridgwater|first=Adrian|title=एपियन ने लो-कोड ऑटोमेशन मिक्स में Google क्लाउड इंटेलिजेंस जोड़ा है|url=https://www.forbes.com/sites/adrianbridgwater/2020/03/09/appian-adds-google-cloud-intelligence-to-low-code-automation-mix/|access-date=2021-04-21|website=Forbes|language=en}}</ref>
स्वचालित दस्तावेज़ प्रसंस्करण दस्तावेज़ों की पूरी श्रृंखला पर प्रयुक्त होता है, चाहे वह संरचित हो या नहीं। उदाहरण के लिए, व्यवसाय और वित्त की विश्व में, प्रौद्योगिकियों का उपयोग कागज-आधारित चालान, फॉर्म, खरीद आदेश, अनुबंध और मुद्रा बिल को संसाधित करने के लिए किया जा सकता है।<ref>{{cite patent |country=US|number=US7873576B2|status=active|title= वित्तीय दस्तावेज़ प्रसंस्करण प्रणाली|pubdate=2011-01-18|gdate=2011-01-18|invent1=John E. Jones|invent2=William J. Jones|invent3=Frank M. Csultis|url=https://patents.google.com/patent/US7873576B2/en}}</ref> वित्तीय संस्थान विनियामक प्रपत्रों या ऋण दस्तावेजों जैसे बड़ी मात्रा में प्रपत्रों को संसाधित करने के लिए बुद्धिमान दस्तावेज़ प्रसंस्करण का उपयोग करते हैं। इस प्रकार आईडी दस्तावेजों से डेटा निकालने और वर्गीकृत करने के लिए मैन्युअल डेटा प्रविष्टि के स्थान एआई का उपयोग करता है।<ref>{{Cite web|last=Bridgwater|first=Adrian|title=एपियन ने लो-कोड ऑटोमेशन मिक्स में Google क्लाउड इंटेलिजेंस जोड़ा है|url=https://www.forbes.com/sites/adrianbridgwater/2020/03/09/appian-adds-google-cloud-intelligence-to-low-code-automation-mix/|access-date=2021-04-21|website=Forbes|language=en}}</ref>


चिकित्सा में, विशेष रूप से चिकित्सा या प्रयोगशाला विश्लेषण रिपोर्टों को डिजिटाइज़ करके, रोगी अनुवर्ती कार्रवाई को सुविधाजनक बनाने और प्रशासनिक प्रक्रियाओं को सुव्यवस्थित करने के लिए दस्तावेज़ प्रसंस्करण विधियों को विकसित किया गया है। लक्ष्य मेडिकल डेटाबेस को मानकीकृत करना भी है।<ref>{{cite journal |last1=Adamo|first1=Francesco|last2=Attivissimo|first2=Filippo|first3=Attilio|last3=Di Nisio|first4=Maurizio|last4=Spadavecchia|date=February 2015|title=चिकित्सा डेटा निष्कर्षण के लिए एक स्वचालित दस्तावेज़ प्रसंस्करण प्रणाली|url=https://www.sciencedirect.com/science/article/pii/S0263224114005016|journal=Measurement|volume=61|pages=88–99 |doi=10.1016/j.measurement.2014.10.032|bibcode=2015Meas...61...88A |access-date=31 January 2021}}</ref> चिकित्सा निदान में चिकित्सकों की सहायता के लिए एल्गोरिदम का भी सीधे उपयोग किया जाता है, उदाहरण के लिए चुंबकीय अनुनाद इमेजिंग का विश्लेषण करके,<ref>{{cite journal |last1=Changwan|first1=Kim|last2=Seong-Il|first2=Lee|last3=Won Joon|first3=Cho|date=September 2020|title=Volumetric assessment of extrusion in medial meniscus posterior root tears through semi-automatic segmentation on 3-tesla magnetic resonance images|url=https://www.sciencedirect.com/science/article/abs/pii/S1877051720301994|journal=Orthopaedics & Traumatology: Surgery & Research|volume=101|issue=5|pages=963–968|doi=10.1016/j.rcot.2020.06.003|s2cid=225215597 |access-date=31 January 2021}}</ref><ref>{{cite journal |last1=Despotović|first1=Ivana|last2=Bart|first2=Goossens|last3=Wilfried|first3=Philips|date=1 March 2015|title=MRI Segmentation of the Human Brain: Challenges, Methods, and Applications|journal=Computational Intelligence Techniques in Medicine|volume=2015|pages=963–968|doi=10.1155/2015/450341|pmid=25945121|pmc=4402572|doi-access=free}}</ref> या [[माइक्रोस्कोप]] छवियाँ।<ref>{{cite journal |last1=Putzua|first1=Lorenzo|last2=Caocci|first2=Giovanni|last3=Di Rubertoa|first3=Cecilia|title=छवि प्रसंस्करण तकनीकों का उपयोग करके ल्यूकेमिया का पता लगाने के लिए ल्यूकोसाइट वर्गीकरण|journal=Artificial Intelligence in Medicine|date=November 2014|url=https://www.sciencedirect.com/science/article/pii/S0933365714001031|volume=63|issue=3|pages=179–191|doi=10.1016/j.artmed.2014.09.002|pmid=25241903|hdl=11584/94592|hdl-access=free}}</ref>
चिकित्सा में, विशेष रूप से चिकित्सा या प्रयोगशाला विश्लेषण सूचीयों को डिजिटाइज़ करके, रोगी अनुवर्ती कार्रवाई को सुविधाजनक बनाने और प्रशासनिक प्रक्रियाओं को सुव्यवस्थित करने के लिए दस्तावेज़ प्रसंस्करण विधियों को विकसित किया गया है। इस प्रकार लक्ष्य मेडिकल डेटाबेस को मानकीकृत करना भी है।<ref>{{cite journal |last1=Adamo|first1=Francesco|last2=Attivissimo|first2=Filippo|first3=Attilio|last3=Di Nisio|first4=Maurizio|last4=Spadavecchia|date=February 2015|title=चिकित्सा डेटा निष्कर्षण के लिए एक स्वचालित दस्तावेज़ प्रसंस्करण प्रणाली|url=https://www.sciencedirect.com/science/article/pii/S0263224114005016|journal=Measurement|volume=61|pages=88–99 |doi=10.1016/j.measurement.2014.10.032|bibcode=2015Meas...61...88A |access-date=31 January 2021}}</ref> चिकित्सा निदान में चिकित्सकों की सहायता के लिए एल्गोरिदम का भी सीधे उपयोग किया जाता है, उदाहरण के लिए चुंबकीय अनुनाद इमेजिंग का विश्लेषण करके,<ref>{{cite journal |last1=Changwan|first1=Kim|last2=Seong-Il|first2=Lee|last3=Won Joon|first3=Cho|date=September 2020|title=Volumetric assessment of extrusion in medial meniscus posterior root tears through semi-automatic segmentation on 3-tesla magnetic resonance images|url=https://www.sciencedirect.com/science/article/abs/pii/S1877051720301994|journal=Orthopaedics & Traumatology: Surgery & Research|volume=101|issue=5|pages=963–968|doi=10.1016/j.rcot.2020.06.003|s2cid=225215597 |access-date=31 January 2021}}</ref><ref>{{cite journal |last1=Despotović|first1=Ivana|last2=Bart|first2=Goossens|last3=Wilfried|first3=Philips|date=1 March 2015|title=MRI Segmentation of the Human Brain: Challenges, Methods, and Applications|journal=Computational Intelligence Techniques in Medicine|volume=2015|pages=963–968|doi=10.1155/2015/450341|pmid=25945121|pmc=4402572|doi-access=free}}</ref> या [[माइक्रोस्कोप]] छवियाँ हैं।<ref>{{cite journal |last1=Putzua|first1=Lorenzo|last2=Caocci|first2=Giovanni|last3=Di Rubertoa|first3=Cecilia|title=छवि प्रसंस्करण तकनीकों का उपयोग करके ल्यूकेमिया का पता लगाने के लिए ल्यूकोसाइट वर्गीकरण|journal=Artificial Intelligence in Medicine|date=November 2014|url=https://www.sciencedirect.com/science/article/pii/S0933365714001031|volume=63|issue=3|pages=179–191|doi=10.1016/j.artmed.2014.09.002|pmid=25241903|hdl=11584/94592|hdl-access=free}}</ref>


अभिलेखागार या विरासत संग्रह से ऐतिहासिक बड़े डेटा को निकालने के लिए दस्तावेज़ प्रसंस्करण का व्यापक रूप से [[मानविकी]] और [[डिजिटल मानविकी]] में भी उपयोग किया जाता है। विभिन्न स्रोतों के लिए विशिष्ट दृष्टिकोण विकसित किए गए, जिनमें पाठ्य दस्तावेज़, जैसे समाचार पत्र अभिलेखागार,<ref>{{cite conference |url=https://www.zora.uzh.ch/id/eprint/191270/|title=Language Resources for Historical Newspapers: the Impresso Collection|last1=Ehrmann|first1=Maud|last2=Romanello|first2=Matteo|last3=Clematide|first3=Simon|last4=Ströbel|first4=Phillip|last5=Barman|first5=Raphaël|date=2020|book-title=Proceedings of the 12th Language Resources and Evaluation Conference|pages=958–968|location=Marseille, France}}</ref> लेकिन छवियाँ भी,<ref name="cini_archive_digitization">{{cite conference |url=https://www.ingentaconnect.com/content/ist/ac/2018/00002018/00000001/art00001|title=कला ऐतिहासिक फोटोग्राफिक अभिलेखागार के डिजिटलीकरण के लिए नई तकनीकें - वेनिस में सिनी फाउंडेशन का मामला|last1=Seguin|first1=Benoit|last2=Costiner|first2=Lisandra|last3=di Lenardo|first3=Isabella|last4=Kaplan|first4=Frédéric|date=April 1, 2018 |book-title=Archiving 2018 Final Program and Proceedings|publisher=Society for Imaging Science and Technology|pages=1–5|doi=10.2352/issn.2168-3204.2018.1.0.2}}</ref> या मानचित्र। रेफरी>{{cite conference |url=https://infoscience.epfl.ch/record/268282|title=कैडस्ट्रल कंप्यूटिंग के लिए एक गहन शिक्षण दृष्टिकोण|last1=एरेस ओलिविरा|first1=सोफिया|last3=टूरेंक|first3=बैस्टियन|last2=डि लेनार्डो|first2=इसाबेल्ला|last4=कापलान|first4=फ़्रेडरिक|date=11 जुलाई 2019|conference=डिजिटल मानविकी सम्मेलन|location=यूट्रेक्ट, नीदरलैंड}}<nowiki></ref></nowiki><ref>{{cite thesis|type=MSc|last=Petitpierre|first=Rémi|date=July 2020|title=Neural networks for semantic segmentation of historical city maps: Cross-cultural performance and the impact of figurative diversity|doi=10.13140/RG.2.2.10973.64484|arxiv=2101.12478
अभिलेखागार या विरासत संग्रह से ऐतिहासिक बड़े डेटा को निकालने के लिए दस्तावेज़ प्रसंस्करण का व्यापक रूप से [[मानविकी]] और [[डिजिटल मानविकी]] में भी उपयोग किया जाता है। इस प्रकार विभिन्न स्रोतों के लिए विशिष्ट दृष्टिकोण विकसित किए गए, जिनमें पाठ्य दस्तावेज़, जैसे समाचार पत्र अभिलेखागार,<ref>{{cite conference |url=https://www.zora.uzh.ch/id/eprint/191270/|title=Language Resources for Historical Newspapers: the Impresso Collection|last1=Ehrmann|first1=Maud|last2=Romanello|first2=Matteo|last3=Clematide|first3=Simon|last4=Ströbel|first4=Phillip|last5=Barman|first5=Raphaël|date=2020|book-title=Proceedings of the 12th Language Resources and Evaluation Conference|pages=958–968|location=Marseille, France}}</ref> किन्तु छवियाँ भी,<ref name="cini_archive_digitization">{{cite conference |url=https://www.ingentaconnect.com/content/ist/ac/2018/00002018/00000001/art00001|title=कला ऐतिहासिक फोटोग्राफिक अभिलेखागार के डिजिटलीकरण के लिए नई तकनीकें - वेनिस में सिनी फाउंडेशन का मामला|last1=Seguin|first1=Benoit|last2=Costiner|first2=Lisandra|last3=di Lenardo|first3=Isabella|last4=Kaplan|first4=Frédéric|date=April 1, 2018 |book-title=Archiving 2018 Final Program and Proceedings|publisher=Society for Imaging Science and Technology|pages=1–5|doi=10.2352/issn.2168-3204.2018.1.0.2}}</ref> या मानचित्र भी सम्मिलित हैं।
|url=https://www.researchgate.net/publication/343017681}}</ref>
==='''प्रौद्योगिकियों'''===
==='''प्रौद्योगिकी'''===


यदि, 1980 के दशक के बाद से, दस्तावेज़ प्रसंस्करण समस्याओं को हल करने के लिए पारंपरिक कंप्यूटर विज़न एल्गोरिदम का व्यापक रूप से उपयोग किया जाने लगा,<ref>{{cite journal |last1=Fujisawa|first1=H.|last2=Nakano|first2=Y.|last3=Kurino|first3=K.|date= July 1992
यदि, सत्र 1980 के दशक के पश्चात् से, दस्तावेज़ प्रसंस्करण समस्याओं को हल करने के लिए पारंपरिक कंप्यूटर विज़न एल्गोरिदम का व्यापक रूप से उपयोग किया जाने लगा था,<ref>{{cite journal |last1=Fujisawa|first1=H.|last2=Nakano|first2=Y.|last3=Kurino|first3=K.|date= July 1992
|title=Segmentation methods for character recognition: from segmentation to document structure analysis
|title=Segmentation methods for character recognition: from segmentation to document structure analysis
|url= https://ieeexplore.ieee.org/document/156471|journal= Proceedings of the IEEE
|url= https://ieeexplore.ieee.org/document/156471|journal= Proceedings of the IEEE
Line 54: Line 54:
{{cite journal |last1=Tang|first1=Yuan Y.|last2=Lee|first2=Seong-Whan|last3=Suen|first3=Ching Y.|title=Automatic document processing: a survey
{{cite journal |last1=Tang|first1=Yuan Y.|last2=Lee|first2=Seong-Whan|last3=Suen|first3=Ching Y.|title=Automatic document processing: a survey
|url=https://www.sciencedirect.com/science/article/abs/pii/S0031320396000441|journal=Pattern Recognition|year=1996|volume=29|issue=12|pages=1931–1952|doi= 10.1016/S0031-3203(96)00044-1
|url=https://www.sciencedirect.com/science/article/abs/pii/S0031320396000441|journal=Pattern Recognition|year=1996|volume=29|issue=12|pages=1931–1952|doi= 10.1016/S0031-3203(96)00044-1
|bibcode=1996PatRe..29.1931T |access-date=3 February 2021}}</ref> इन्हें 2010 के दशक में धीरे-धीरे तंत्रिका नेटवर्क प्रौद्योगिकियों द्वारा प्रतिस्थापित किया गया है।<ref>{{cite conference |url=https://ieeexplore.ieee.org/document/8563218|title= dhSegment: A Generic Deep-Learning Approach for Document Segmentation|last1=Ares Oliveira|first1=Sofia|last2=Seguin|first2=Benoit|last3=Kaplan|first3=Frederic|date=5-8 August 2018  
|bibcode=1996PatRe..29.1931T |access-date=3 February 2021}}</ref> इस प्रकार इन्हें सत्र 2010 के दशक में धीरे-धीरे तंत्रिका नेटवर्क प्रौद्योगिकियों द्वारा प्रतिस्थापित किया गया है।<ref>{{cite conference |url=https://ieeexplore.ieee.org/document/8563218|title= dhSegment: A Generic Deep-Learning Approach for Document Segmentation|last1=Ares Oliveira|first1=Sofia|last2=Seguin|first2=Benoit|last3=Kaplan|first3=Frederic|date=5-8 August 2018  
|publisher=IEEE|location=Niagara Falls, NY, USA  
|publisher=IEEE|location=Niagara Falls, NY, USA  
|conference=2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR)|doi=10.1109/ICFHR-2018.2018.00011
|conference=2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR)|doi=10.1109/ICFHR-2018.2018.00011
|arxiv=1804.10371}}</ref> हालाँकि, पारंपरिक कंप्यूटर विज़न तकनीकों का उपयोग अभी भी कुछ क्षेत्रों में, कभी-कभी तंत्रिका नेटवर्क के संयोजन में किया जाता है।
|arxiv=1804.10371}}</ref> चूँकि, पारंपरिक कंप्यूटर विज़न विधियों का उपयोग अभी भी कुछ क्षेत्रों में, कभी-कभी तंत्रिका नेटवर्क के संयोजन में किया जाता है।


कई प्रौद्योगिकियां दस्तावेज़ प्रसंस्करण के विकास का समर्थन करती हैं, विशेष रूप से ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), और हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर), जो टेक्स्ट को स्वचालित रूप से ट्रांसक्रिप्ट करने की अनुमति देती हैं। टेक्स्ट सेगमेंट को उदाहरण या ऑब्जेक्ट डिटेक्शन एल्गोरिदम का उपयोग करके पहचाना जाता है, जिसका उपयोग कभी-कभी दस्तावेज़ की संरचना का पता लगाने के लिए भी किया जा सकता है। बाद की समस्या का समाधान कभी-कभी सिमेंटिक विभाजन एल्गोरिदम का भी उपयोग करता है।
अनेक प्रौद्योगिकियां दस्तावेज़ प्रसंस्करण के विकास का समर्थन करती हैं, विशेष रूप से ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), और हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर), जो टेक्स्ट को स्वचालित रूप से ट्रांसक्रिप्ट करने की अनुमति देती हैं। इस प्रकार टेक्स्ट सेगमेंट को उदाहरण या ऑब्जेक्ट डिटेक्शन एल्गोरिदम का उपयोग करके पहचाना जाता है, जिसका उपयोग कभी-कभी दस्तावेज़ की संरचना का पता लगाने के लिए भी किया जा सकता है। पश्चात् की समस्या का समाधान कभी-कभी सिमेंटिक विभाजन एल्गोरिदम का भी उपयोग करता है।


ये प्रौद्योगिकियाँ अक्सर दस्तावेज़ प्रसंस्करण का मूल बनती हैं। हालाँकि, अन्य एल्गोरिदम इन प्रक्रियाओं से पहले या बाद में हस्तक्षेप कर सकते हैं। दरअसल, दस्तावेज़ डिजिटलीकरण प्रौद्योगिकियां भी शामिल हैं, चाहे वह शास्त्रीय या त्रि-आयामी स्कैनिंग के रूप में हो।<ref>{{cite web |url=https://artmyn.com/|title= Revolutionary Scanning Technology for Art
यह प्रौद्योगिकियाँ अधिकांशतः दस्तावेज़ प्रसंस्करण का मूल बनती हैं। चूँकि, अन्य एल्गोरिदम इन प्रक्रियाओं से पहले या पश्चात् में हस्तक्षेप कर सकते हैं। मुख्य रूप से, दस्तावेज़ डिजिटलीकरण प्रौद्योगिकियां भी सम्मिलित हैं, चाहे वह मौलिक या त्रि-आयामी स्कैनिंग के रूप में हो।<ref>{{cite web |url=https://artmyn.com/|title= Revolutionary Scanning Technology for Art
|website=Artmyn|access-date=3 February 2021}}</ref> 3डी दस्तावेजों का डिजिटलीकरण विशेष रूप से [[ photogrammetry |photogrammetry]] के डेरिवेटिव का सहारा ले सकता है। कभी-कभी, दस्तावेज़ों के आकार के अनुकूल या स्कैनिंग एर्गोनॉमिक्स के कारणों से विशिष्ट 2डी स्कैनर भी विकसित किए जाने चाहिए।<ref name="cini_archive_digitization"/> दस्तावेज़ प्रसंस्करण उपयुक्त फ़ाइल प्रारूप में दस्तावेज़ों की डिजिटल एन्कोडिंग पर भी निर्भर करता है। इसके अलावा, विषम डेटाबेस का प्रसंस्करण छवि वर्गीकरण प्रौद्योगिकियों पर भरोसा कर सकता है।
|website=Artmyn|access-date=3 February 2021}}</ref> इस प्रकार 3डी दस्तावेजों का डिजिटलीकरण विशेष रूप से [[ photogrammetry |फोटोग्रामेट्री]] के डेरिवेटिव का सहारा ले सकता है। कभी-कभी, दस्तावेज़ों के आकार के अनुकूल या स्कैनिंग एर्गोनॉमिक्स के कारणों से विशिष्ट 2डी स्कैनर भी विकसित किए जाने चाहिए।<ref name="cini_archive_digitization"/> दस्तावेज़ प्रसंस्करण उपयुक्त फ़ाइल प्रारूप में दस्तावेज़ों की डिजिटल एन्कोडिंग पर भी निर्भर करता है। इसके अतिरिक्त, विषम डेटाबेस का प्रसंस्करण छवि वर्गीकरण प्रौद्योगिकियों पर भरोसा कर सकता है।


श्रृंखला के दूसरे छोर पर विभिन्न छवि पूर्णता, एक्सट्रपलेशन या डेटा क्लीनअप एल्गोरिदम हैं। पाठ्य दस्तावेजों के लिए, व्याख्या [[प्राकृतिक भाषा प्रसंस्करण]] (एनएलपी) प्रौद्योगिकियों का उपयोग कर सकती है।
श्रृंखला के दूसरे छोर पर विभिन्न छवि पूर्णता, एक्सट्रपलेशन या डेटा क्लीनअप एल्गोरिदम हैं। इस प्रकार पाठ्य दस्तावेजों के लिए, व्याख्या [[प्राकृतिक भाषा प्रसंस्करण]] (एनएलपी) प्रौद्योगिकियों का उपयोग कर सकती है।


== '''यह भी देखें''' ==
== '''यह भी देखें''' ==
Line 78: Line 78:
{{Reflist}}
{{Reflist}}


{{DEFAULTSORT:Document Processing}}[[Category: स्वचालित पहचान और डेटा कैप्चर]] [[Category: कृत्रिम बुद्धि के अनुप्रयोग]] [[Category: एप्लाइड डेटा माइनिंग]] [[Category: कंप्यूटर विज़न के अनुप्रयोग]]
{{DEFAULTSORT:Document Processing}}
 
 


[[Category: Machine Translated Page]]
[[Category:CS1 English-language sources (en)]]
[[Category:Created On 09/07/2023]]
[[Category:CS1 maint]]
[[Category:Citation Style 1 templates|M]]
[[Category:Collapse templates]]
[[Category:Created On 09/07/2023|Document Processing]]
[[Category:Lua-based templates|Document Processing]]
[[Category:Machine Translated Page|Document Processing]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with script errors|Document Processing]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready|Document Processing]]
[[Category:Templates based on the Citation/CS1 Lua module]]
[[Category:Templates generating COinS|Cite magazine]]
[[Category:Templates generating microformats]]
[[Category:Templates that add a tracking category|Document Processing]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates that generate short descriptions|Document Processing]]
[[Category:Templates using TemplateData|Document Processing]]
[[Category:Wikipedia fully protected templates|Cite magazine]]
[[Category:Wikipedia metatemplates]]
[[Category:एप्लाइड डेटा माइनिंग|Document Processing]]
[[Category:कंप्यूटर विज़न के अनुप्रयोग|Document Processing]]
[[Category:कृत्रिम बुद्धि के अनुप्रयोग|Document Processing]]
[[Category:स्वचालित पहचान और डेटा कैप्चर|Document Processing]]

Latest revision as of 12:11, 1 August 2023

दस्तावेज़ प्रसंस्करण अनुसंधान का क्षेत्र है और उत्पादन प्रक्रियाओं का समूह है जिसका उद्देश्य एनालॉग दस्तावेज़ को डिजिटल बनाना है। दस्तावेज़ प्रसंस्करण का उद्देश्य केवल डिजिटल छवि प्राप्त करने के लिए दस्तावेज़ की तस्वीर लेना या छवि स्कैन करना नहीं है, किंतु इसे डिजिटल रूप से समझने योग्य बनाना भी है। इस प्रकार इसमें दस्तावेज़ की संरचना निकालना या दस्तावेज़ लेआउट विश्लेषण और फिर सामग्री को निकालना सम्मिलित है, जो पाठ या छवियों का रूप ले सकता है। इस प्रक्रिया में पारंपरिक कंप्यूटर दृष्टि एल्गोरिदम, कन्वेन्शनल न्यूरल नेटवर्क या मैन्युअल श्रम सम्मिलित हो सकता है। इस प्रकार संबोधित की गई समस्याएं सिमेंटिक सेगमेंटेशन, ऑब्जेक्ट डिटेक्शन, ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर) और, अधिक व्यापक रूप से, ट्रांसक्रिप्शन, चाहे स्वचालित हो या नहीं, से संबंधित हैं।[1] इस शब्द में स्कैनर का उपयोग करके दस्तावेज़ को डिजिटाइज़ करने का चरण और दस्तावेज़ की व्याख्या करने का चरण भी सम्मिलित हो सकता है, उदाहरण के लिए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) या छवि वर्गीकरण प्रौद्योगिकियों का उपयोग करना। इसे प्रशासनिक प्रक्रियाओं, मेल प्रसंस्करण और एनालॉग संग्रह और ऐतिहासिक दस्तावेजों के डिजिटलीकरण के अनुकूलन के लिए अनेक औद्योगिक और वैज्ञानिक क्षेत्रों में प्रयुक्त किया जाता है।

पृष्ठभूमि

दस्तावेज़ प्रसंस्करण प्रारंभ में था, जैसा कि अभी भी कुछ सीमा तक प्रकार का उत्पादन लाइन कार्य है जो डेटा को सॉर्ट करने, निकालने या बड़े पैमाने पर निकालने के उद्देश्य से पत्रों और पार्सल जैसे दस्तावेज़ों के उपचार से संबंधित है। यह कार्य इन-हाउस या व्यापार प्रक्रिया बाहरी स्रोत से सेवाएँ प्राप्त करना के माध्यम से किया जा सकता है।[2][3] इस प्रकार दस्तावेज़ प्रसंस्करण में वास्तव में कुछ प्रकार के बाहरी मैनुअल श्रम सम्मिलित हो सकते हैं, जैसे अमेज़ॅन मैकेनिकल तुर्क

मैन्युअल दस्तावेज़ प्रसंस्करण के उदाहरण के रूप में, अपेक्षाकृत हाल ही में सत्र 2007 में,[4] "लाखों वीज़ा और नागरिकता आवेदनों" के लिए दस्तावेज़ प्रसंस्करण में "मेल रूम और डेटा प्रविष्टि लिपिक के प्रबंधन" के लिए काम करने वाले "लगभग 1,000 अनुबंध श्रमिकों" के उपयोग के बारे में सम्मिलित था।

जबकि दस्तावेज़ प्रसंस्करण में कम्प्यूटर माउस या छवि स्कैनर के उपयोग से पहले कीबोर्ड के माध्यम से डेटा प्रविष्टि सम्मिलित थी, 1990 दी न्यू यौर्क टाइम्स के लेख में इसे "पेपरलेस कार्यालय" कहा गया था कि "दस्तावेज़ प्रसंस्करण स्कैनर से शुरू होता है"[5] इस संदर्भ में, ज़ेरॉक्स के पूर्व उपाध्यक्ष, पॉल स्ट्रैसमैन ने आलोचनात्मक राय व्यक्त करते हुए कहा कि कंप्यूटर किसी कार्यालय में कागज की मात्रा को कम करने के अतिरिक्त बढ़ाता है।[5] ऐसा कहा जाता था कि हवाई जहाज के इंजीनियरिंग और रखरखाव दस्तावेजों का वजन "हवाई जहाज से भी अधिक" होता है.

स्वचालित दस्तावेज़ प्रसंस्करण

जैसे-जैसे कला की स्थिति उन्नत हुई, दस्तावेज़ प्रसंस्करण "दस्तावेज़ घटकों... डेटाबेस संस्थाओं के रूप में" को संभालने के लिए परिवर्तित हो गया[6]

स्वचालित दस्तावेज़ प्रसंस्करण या कभी-कभी बुद्धिमान दस्तावेज़ प्रसंस्करण (आईडी) नामक विधि प्रक्रिया स्वचालन (आईपीए) के विशिष्ट रूप के रूप में उभरी है, जो अनेक प्रकार के दस्तावेज़ों से डेटा निकालने के लिए मशीन लर्निंग (एमएल), प्राकृतिक भाषा प्रसंस्करण (एनएलपी) या इंटेलिजेंट कैरेक्टर रिकग्निशन (आईसीई) जैसी कृत्रिम बुद्धिमत्ता का संयोजन करती है। [7][8]

अनुप्रयोग

स्वचालित दस्तावेज़ प्रसंस्करण दस्तावेज़ों की पूरी श्रृंखला पर प्रयुक्त होता है, चाहे वह संरचित हो या नहीं। उदाहरण के लिए, व्यवसाय और वित्त की विश्व में, प्रौद्योगिकियों का उपयोग कागज-आधारित चालान, फॉर्म, खरीद आदेश, अनुबंध और मुद्रा बिल को संसाधित करने के लिए किया जा सकता है।[9] वित्तीय संस्थान विनियामक प्रपत्रों या ऋण दस्तावेजों जैसे बड़ी मात्रा में प्रपत्रों को संसाधित करने के लिए बुद्धिमान दस्तावेज़ प्रसंस्करण का उपयोग करते हैं। इस प्रकार आईडी दस्तावेजों से डेटा निकालने और वर्गीकृत करने के लिए मैन्युअल डेटा प्रविष्टि के स्थान एआई का उपयोग करता है।[10]

चिकित्सा में, विशेष रूप से चिकित्सा या प्रयोगशाला विश्लेषण सूचीयों को डिजिटाइज़ करके, रोगी अनुवर्ती कार्रवाई को सुविधाजनक बनाने और प्रशासनिक प्रक्रियाओं को सुव्यवस्थित करने के लिए दस्तावेज़ प्रसंस्करण विधियों को विकसित किया गया है। इस प्रकार लक्ष्य मेडिकल डेटाबेस को मानकीकृत करना भी है।[11] चिकित्सा निदान में चिकित्सकों की सहायता के लिए एल्गोरिदम का भी सीधे उपयोग किया जाता है, उदाहरण के लिए चुंबकीय अनुनाद इमेजिंग का विश्लेषण करके,[12][13] या माइक्रोस्कोप छवियाँ हैं।[14]

अभिलेखागार या विरासत संग्रह से ऐतिहासिक बड़े डेटा को निकालने के लिए दस्तावेज़ प्रसंस्करण का व्यापक रूप से मानविकी और डिजिटल मानविकी में भी उपयोग किया जाता है। इस प्रकार विभिन्न स्रोतों के लिए विशिष्ट दृष्टिकोण विकसित किए गए, जिनमें पाठ्य दस्तावेज़, जैसे समाचार पत्र अभिलेखागार,[15] किन्तु छवियाँ भी,[16] या मानचित्र भी सम्मिलित हैं।

प्रौद्योगिकियों

यदि, सत्र 1980 के दशक के पश्चात् से, दस्तावेज़ प्रसंस्करण समस्याओं को हल करने के लिए पारंपरिक कंप्यूटर विज़न एल्गोरिदम का व्यापक रूप से उपयोग किया जाने लगा था,[17][18] इस प्रकार इन्हें सत्र 2010 के दशक में धीरे-धीरे तंत्रिका नेटवर्क प्रौद्योगिकियों द्वारा प्रतिस्थापित किया गया है।[19] चूँकि, पारंपरिक कंप्यूटर विज़न विधियों का उपयोग अभी भी कुछ क्षेत्रों में, कभी-कभी तंत्रिका नेटवर्क के संयोजन में किया जाता है।

अनेक प्रौद्योगिकियां दस्तावेज़ प्रसंस्करण के विकास का समर्थन करती हैं, विशेष रूप से ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर), और हस्तलिखित टेक्स्ट रिकग्निशन (एचटीआर), जो टेक्स्ट को स्वचालित रूप से ट्रांसक्रिप्ट करने की अनुमति देती हैं। इस प्रकार टेक्स्ट सेगमेंट को उदाहरण या ऑब्जेक्ट डिटेक्शन एल्गोरिदम का उपयोग करके पहचाना जाता है, जिसका उपयोग कभी-कभी दस्तावेज़ की संरचना का पता लगाने के लिए भी किया जा सकता है। पश्चात् की समस्या का समाधान कभी-कभी सिमेंटिक विभाजन एल्गोरिदम का भी उपयोग करता है।

यह प्रौद्योगिकियाँ अधिकांशतः दस्तावेज़ प्रसंस्करण का मूल बनती हैं। चूँकि, अन्य एल्गोरिदम इन प्रक्रियाओं से पहले या पश्चात् में हस्तक्षेप कर सकते हैं। मुख्य रूप से, दस्तावेज़ डिजिटलीकरण प्रौद्योगिकियां भी सम्मिलित हैं, चाहे वह मौलिक या त्रि-आयामी स्कैनिंग के रूप में हो।[20] इस प्रकार 3डी दस्तावेजों का डिजिटलीकरण विशेष रूप से फोटोग्रामेट्री के डेरिवेटिव का सहारा ले सकता है। कभी-कभी, दस्तावेज़ों के आकार के अनुकूल या स्कैनिंग एर्गोनॉमिक्स के कारणों से विशिष्ट 2डी स्कैनर भी विकसित किए जाने चाहिए।[16] दस्तावेज़ प्रसंस्करण उपयुक्त फ़ाइल प्रारूप में दस्तावेज़ों की डिजिटल एन्कोडिंग पर भी निर्भर करता है। इसके अतिरिक्त, विषम डेटाबेस का प्रसंस्करण छवि वर्गीकरण प्रौद्योगिकियों पर भरोसा कर सकता है।

श्रृंखला के दूसरे छोर पर विभिन्न छवि पूर्णता, एक्सट्रपलेशन या डेटा क्लीनअप एल्गोरिदम हैं। इस प्रकार पाठ्य दस्तावेजों के लिए, व्याख्या प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्रौद्योगिकियों का उपयोग कर सकती है।

यह भी देखें

संदर्भ

  1. Len Asprey; Michael Middleton (2003). Integrative Document & Content Management: Strategies for Exploiting Enterprise Knowledge. Idea Group Inc (IGI). ISBN 9781591400554.
  2. Vinod V. Sople (2009-05-25). Business Process Outsourcing: A Supply Chain of Expertises. PHI Learning Pvt. Ltd. ISBN 978-8120338159.
  3. Mark Kobayashi-Hillary (2005-12-05). Outsourcing to India: The Offshore Advantage. Springer Science & Business Media. ISBN 9783540247944.
  4. Julia Preston (December 2, 2007). "Immigration Contractor Trims Wages". The New York Times.
  5. 5.0 5.1 Lawrence M. Fisher (July 7, 1990). "Paper, Once Written Off, Keeps a Place in the Office". The New York Times.
  6. Al Young; Dayle Woolstein; Jay Johnson (February 1996). "Unknown Title". Object Magazine. p. 51.
  7. "फ़्लोरिआना एस्पोसिटो, स्टेफ़ानो फ़ेरीली, टेरेसा एम. ए. बेसिल, निकोला डि माउरो द्वारा बुद्धिमान दस्तावेज़ प्रसंस्करण" (PDF). Department of Computer Science – University of Bari. 2005-04-07. Retrieved 2018-09-08.
  8. Floriana Esposito , Stefano Ferilli , Teresa M. A. Basile , Nicola Di Mauro (2005-04-01). "Intelligent Document Processing" in Proceedings. Eighth International Conference on Document Analysis and Recognition, Seoul, South Korea, 2005 pp. 1100-1104. doi: 10.1109/ICDAR.2005.144. doi:10.1109/ICDAR.2005.144. S2CID 17302169.{{cite book}}: CS1 maint: multiple names: authors list (link)
  9. US active US7873576B2, John E. Jones; William J. Jones & Frank M. Csultis, "वित्तीय दस्तावेज़ प्रसंस्करण प्रणाली", published 2011-01-18, issued 2011-01-18 
  10. Bridgwater, Adrian. "एपियन ने लो-कोड ऑटोमेशन मिक्स में Google क्लाउड इंटेलिजेंस जोड़ा है". Forbes (in English). Retrieved 2021-04-21.
  11. Adamo, Francesco; Attivissimo, Filippo; Di Nisio, Attilio; Spadavecchia, Maurizio (February 2015). "चिकित्सा डेटा निष्कर्षण के लिए एक स्वचालित दस्तावेज़ प्रसंस्करण प्रणाली". Measurement. 61: 88–99. Bibcode:2015Meas...61...88A. doi:10.1016/j.measurement.2014.10.032. Retrieved 31 January 2021.
  12. Changwan, Kim; Seong-Il, Lee; Won Joon, Cho (September 2020). "Volumetric assessment of extrusion in medial meniscus posterior root tears through semi-automatic segmentation on 3-tesla magnetic resonance images". Orthopaedics & Traumatology: Surgery & Research. 101 (5): 963–968. doi:10.1016/j.rcot.2020.06.003. S2CID 225215597. Retrieved 31 January 2021.
  13. Despotović, Ivana; Bart, Goossens; Wilfried, Philips (1 March 2015). "MRI Segmentation of the Human Brain: Challenges, Methods, and Applications". Computational Intelligence Techniques in Medicine. 2015: 963–968. doi:10.1155/2015/450341. PMC 4402572. PMID 25945121.
  14. Putzua, Lorenzo; Caocci, Giovanni; Di Rubertoa, Cecilia (November 2014). "छवि प्रसंस्करण तकनीकों का उपयोग करके ल्यूकेमिया का पता लगाने के लिए ल्यूकोसाइट वर्गीकरण". Artificial Intelligence in Medicine. 63 (3): 179–191. doi:10.1016/j.artmed.2014.09.002. hdl:11584/94592. PMID 25241903.
  15. Ehrmann, Maud; Romanello, Matteo; Clematide, Simon; Ströbel, Phillip; Barman, Raphaël (2020). "Language Resources for Historical Newspapers: the Impresso Collection". Proceedings of the 12th Language Resources and Evaluation Conference. Marseille, France. pp. 958–968.
  16. 16.0 16.1 Seguin, Benoit; Costiner, Lisandra; di Lenardo, Isabella; Kaplan, Frédéric (April 1, 2018). "कला ऐतिहासिक फोटोग्राफिक अभिलेखागार के डिजिटलीकरण के लिए नई तकनीकें - वेनिस में सिनी फाउंडेशन का मामला". Archiving 2018 Final Program and Proceedings. Society for Imaging Science and Technology. pp. 1–5. doi:10.2352/issn.2168-3204.2018.1.0.2.
  17. Fujisawa, H.; Nakano, Y.; Kurino, K. (July 1992). "Segmentation methods for character recognition: from segmentation to document structure analysis". Proceedings of the IEEE. 80 (7): 1079–1092. doi:10.1109/5.156471. Retrieved 3 February 2021.
  18. Tang, Yuan Y.; Lee, Seong-Whan; Suen, Ching Y. (1996). "Automatic document processing: a survey". Pattern Recognition. 29 (12): 1931–1952. Bibcode:1996PatRe..29.1931T. doi:10.1016/S0031-3203(96)00044-1. Retrieved 3 February 2021.
  19. Ares Oliveira, Sofia; Seguin, Benoit; Kaplan, Frederic (5–8 August 2018). dhSegment: A Generic Deep-Learning Approach for Document Segmentation. 2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR). Niagara Falls, NY, USA: IEEE. arXiv:1804.10371. doi:10.1109/ICFHR-2018.2018.00011.{{cite conference}}: CS1 maint: date format (link)
  20. "Revolutionary Scanning Technology for Art". Artmyn. Retrieved 3 February 2021.