असंरचित डेटा: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(4 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{short description|Information without a formal data model}}
{{short description|Information without a formal data model}}
असंरचित डेटा (या असंरचित जानकारी) वह जानकारी है जिसमें या तो पूर्व-परिभाषित [[डेटा मॉडल|डेटा प्रतिरूप]] नहीं होता है या पूर्व-निर्धारित तरीके से व्यवस्थित नहीं होता है। असंरचित जानकारी सामान्यतः विशिष्ट रूप से टेक्स्ट-हैवी होती है, लेकिन इसमें दिनांक, संख्या और तथ्य जैसे डेटा भी सम्मिलित हो सकते हैं। इसके परिणामस्वरूप अनियमितताएं और [[अस्पष्टता]]एं उत्पन्न होती हैं, जिससे डेटाबेस या डॉक्यूमेंट में[[ टिप्पणी | एनोटेट]] ([[टैग (मेटाडेटा)|शब्दार्थतः चिन्हित)]] में क्षेत्र किए गए डेटा की तुलना में पारंपरिक कार्यक्रमों का उपयोग करना समझना कठिन हो जाता है।
'''असंरचित डेटा''' (या असंरचित जानकारी) वह जानकारी है जिसमें या तो पूर्व-परिभाषित [[डेटा मॉडल|डेटा प्रतिरूप]] नहीं होता है या पूर्व-निर्धारित तरीके से व्यवस्थित नहीं होता है। असंरचित जानकारी सामान्यतः विशिष्ट रूप से टेक्स्ट-हैवी होती है, लेकिन इसमें दिनांक, संख्या और तथ्य जैसे डेटा भी सम्मिलित हो सकते हैं। इसके परिणामस्वरूप अनियमितताएं और [[अस्पष्टता]]एं उत्पन्न होती हैं, जिससे डेटाबेस या डॉक्यूमेंट में[[ टिप्पणी | एनोटेट]] ([[टैग (मेटाडेटा)|शब्दार्थतः चिन्हित)]] में क्षेत्र किए गए डेटा की तुलना में पारंपरिक कार्यक्रमों का उपयोग करना समझना कठिन हो जाता है।


1998 में, [[मेरिल लिंच]] ने कहा कि असंरचित डेटा में किसी संगठन में पाए जाने वाले अधिकांश डेटा सम्मिलित होते हैं, कुछ अनुमान 80% तक पहुँचते हैं। <ref>{{cite web |last1=Shilakes |first1=Christopher C. |last2=Tylman |first2=Julie |title=उद्यम सूचना पोर्टल|url=http://ikt.hia.no/perep/eip_ind.pdf |archive-url=https://web.archive.org/web/20110724175845/http://ikt.hia.no/perep/eip_ind.pdf |url-status=dead |archive-date=24 July 2011 |website=Merrill Lynch |date=16 Nov 1998}}</ref> यह स्पष्ट नहीं है कि इस संख्या का स्रोत क्या है, लेकिन फिर भी कुछ लोग इसे स्वीकार करते हैं। <ref name="Clarabridge">{{cite web |last1=Grimes |first1=Seth |title=Unstructured Data and the 80 Percent Rule |url=http://breakthroughanalysis.com/2008/08/01/unstructured-data-and-the-80-percent-rule |website=Breakthrough Analysis - Bridgepoints |publisher=Clarabridge |date=1 August 2008}}</ref> अन्य स्रोतों ने असंरचित डेटा के समान या उच्च प्रतिशत की सूचना दी है। <ref>{{Cite journal|last1=Gandomi|first1=Amir|last2=Haider|first2=Murtaza|date=April 2015|title=Beyond the hype: Big data concepts, methods, and analytics|journal=International Journal of Information Management|volume=35|issue=2|pages=137–144|doi=10.1016/j.ijinfomgt.2014.10.007|issn=0268-4012|doi-access=free}}</ref><ref>{{Cite news|url=https://www.ibm.com/blogs/watson/2016/05/biggest-data-challenges-might-not-even-know/|title=सबसे बड़ी डेटा चुनौतियाँ जिनके बारे में आपको शायद पता भी न हो - वॉटसन|date=2016-05-25|work=Watson|access-date=2018-10-02|language=en-US}}</ref><ref>{{Cite web|url=https://www.datamation.com/big-data/structured-vs-unstructured-data.html|title=संरचित बनाम असंरचित डेटा|website=www.datamation.com|language=en|access-date=2018-10-02}}</ref>
1998 में, [[मेरिल लिंच]] ने कहा कि असंरचित डेटा में किसी संगठन में पाए जाने वाले अधिकांश डेटा सम्मिलित होते हैं, कुछ अनुमान 80% तक पहुँचते हैं। <ref>{{cite web |last1=Shilakes |first1=Christopher C. |last2=Tylman |first2=Julie |title=उद्यम सूचना पोर्टल|url=http://ikt.hia.no/perep/eip_ind.pdf |archive-url=https://web.archive.org/web/20110724175845/http://ikt.hia.no/perep/eip_ind.pdf |url-status=dead |archive-date=24 July 2011 |website=Merrill Lynch |date=16 Nov 1998}}</ref> यह स्पष्ट नहीं है कि इस संख्या का स्रोत क्या है, लेकिन फिर भी कुछ लोग इसे स्वीकार करते हैं। <ref name="Clarabridge">{{cite web |last1=Grimes |first1=Seth |title=Unstructured Data and the 80 Percent Rule |url=http://breakthroughanalysis.com/2008/08/01/unstructured-data-and-the-80-percent-rule |website=Breakthrough Analysis - Bridgepoints |publisher=Clarabridge |date=1 August 2008}}</ref> अन्य स्रोतों ने असंरचित डेटा के समान या उच्च प्रतिशत की सूचना दी है। <ref>{{Cite journal|last1=Gandomi|first1=Amir|last2=Haider|first2=Murtaza|date=April 2015|title=Beyond the hype: Big data concepts, methods, and analytics|journal=International Journal of Information Management|volume=35|issue=2|pages=137–144|doi=10.1016/j.ijinfomgt.2014.10.007|issn=0268-4012|doi-access=free}}</ref><ref>{{Cite news|url=https://www.ibm.com/blogs/watson/2016/05/biggest-data-challenges-might-not-even-know/|title=सबसे बड़ी डेटा चुनौतियाँ जिनके बारे में आपको शायद पता भी न हो - वॉटसन|date=2016-05-25|work=Watson|access-date=2018-10-02|language=en-US}}</ref><ref>{{Cite web|url=https://www.datamation.com/big-data/structured-vs-unstructured-data.html|title=संरचित बनाम असंरचित डेटा|website=www.datamation.com|language=en|access-date=2018-10-02}}</ref>
Line 8: Line 8:
== पृष्ठभूमि ==
== पृष्ठभूमि ==


[[ व्यापारिक सूचना |व्यापारिक सूचना]] में प्रारम्भिक शोध संख्यात्मक डेटा के स्थान पर असंरचित पाठ्य डेटा पर केंद्रित था। <ref name="History">{{cite web|last1=Grimes|first1=Seth|title=टेक्स्ट एनालिटिक्स का संक्षिप्त इतिहास|url=http://www.b-eye-network.com/view/6311|website=B Eye Network|access-date=June 24, 2016}}</ref> 1958 के प्रारम्भ में, हंस पीटर लुहान जैसे [[कंप्यूटर विज्ञान]] शोधकर्ता विशेष रूप से असंरचित पाठ के निष्कर्षण और वर्गीकरण से चिंतित थे।<ref name="History" /> हालाँकि, सदी के प्रारम्भ के बाद से ही प्रौद्योगिकी ने अनुसंधान की रुचि को पकड़ लिया है। 2004 में, [[एसएएस संस्थान]] ने [[एसएएस (सॉफ्टवेयर)]] टेक्स्ट माइनर विकसित किया, जो कि अधिक कुशल मशीन-विश्लेषण के लिए [[ आयामी विश्लेषण |आयामी विश्लेषण]] हाइपर-'''डायमेंशनल टेक्स्टुअल स्पेस''' (गणित) को छोटे आयामों में कम करने के लिए [[विलक्षण मान अपघटन]] (एसवीडी) का उपयोग करता है।<ref name="SVD">{{cite web|last1=Albright|first1=Russ|title=एसवीडी के साथ पाठ को नियंत्रित करना|url=http://ftp.sas.com/techsup/download/EMiner/TamingTextwiththeSVD.pdf|archive-url=https://web.archive.org/web/20160930182157/http://ftp.sas.com/techsup/download/EMiner/TamingTextwiththeSVD.pdf|url-status=dead|archive-date=2016-09-30|website=SAS|access-date=June 24, 2016}}</ref> [[ यंत्र अधिगम ]] टेक्स्ट विश्लेषण से उत्पन्न गणितीय और तकनीकी प्रगति ने कई व्यवसायों को अनुप्रयोगों पर शोध करने के लिए प्रेरित किया, जिससे भावना विश्लेषण, [[ग्राहक की आवाज]] खनन और कॉल सेंटर अनुकूलन जैसे क्षेत्रों का विकास हुआ।<ref name="Applications">{{cite web|last1=Desai|first1=Manish|title=टेक्स्ट एनालिटिक्स के अनुप्रयोग|url=http://mybusinessanalytics.blogspot.com/2009/08/applications-of-text-analytics.html|website=My Business Analytics @ Blogspot|access-date=June 24, 2016|date=2009-08-09}}</ref> 2000 के दशक के उत्तरार्ध में [[बड़ा डेटा]] के उद्भव के कारण भविष्य कहनेवाला विश्लेषण और [[मूल कारण विश्लेषण]] जैसे समकालीन क्षेत्रों में असंरचित डेटा विश्लेषण के अनुप्रयोगों में रुचि बढ़ गई।<ref>{{cite web|last1=Chakraborty|first1=Goutam|title=Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining|url=https://support.sas.com/resources/papers/proceedings14/1288-2014.pdf|website=SAS|access-date=June 24, 2016}}</ref>
[[ व्यापारिक सूचना |व्यापारिक सूचना]] में प्रारम्भिक शोध संख्यात्मक डेटा के स्थान पर असंरचित पाठ्य डेटा पर केंद्रित था। <ref name="History">{{cite web|last1=Grimes|first1=Seth|title=टेक्स्ट एनालिटिक्स का संक्षिप्त इतिहास|url=http://www.b-eye-network.com/view/6311|website=B Eye Network|access-date=June 24, 2016}}</ref> 1958 के प्रारम्भ में, हंस पीटर लुहान जैसे [[कंप्यूटर विज्ञान]] शोधकर्ता विशेष रूप से असंरचित पाठ के निष्कर्षण और वर्गीकरण से चिंतित थे।<ref name="History" /> हालाँकि, सदी के प्रारम्भ के बाद से ही प्रौद्योगिकी ने अनुसंधान की रुचि को पकड़ लिया है। 2004 में, [[एसएएस संस्थान]] ने [[एसएएस (सॉफ्टवेयर)]] टेक्स्ट माइनर विकसित किया, जो कि अधिक कुशल मशीन-विश्लेषण के लिए [[ आयामी विश्लेषण |आयामी विश्लेषण]] हाइपर-डायमेंशनल टेक्स्टुअल स्पेस (गणित) को छोटे आयामों में कम करने के लिए [[विलक्षण मान अपघटन]] (एसवीडी) का उपयोग करता है। <ref name="SVD">{{cite web|last1=Albright|first1=Russ|title=एसवीडी के साथ पाठ को नियंत्रित करना|url=http://ftp.sas.com/techsup/download/EMiner/TamingTextwiththeSVD.pdf|archive-url=https://web.archive.org/web/20160930182157/http://ftp.sas.com/techsup/download/EMiner/TamingTextwiththeSVD.pdf|url-status=dead|archive-date=2016-09-30|website=SAS|access-date=June 24, 2016}}</ref> [[ यंत्र अधिगम |यंत्र अधिगम]] टेक्स्ट विश्लेषण से उत्पन्न गणितीय और तकनीकी प्रगति ने कई व्यवसायों को अनुप्रयोगों पर शोध करने के लिए प्रेरित किया, जिससे भावना विश्लेषण, [[ग्राहक की आवाज|VOC]] खनन और कॉल सेंटर अनुकूलन जैसे क्षेत्रों का विकास हुआ। <ref name="Applications">{{cite web|last1=Desai|first1=Manish|title=टेक्स्ट एनालिटिक्स के अनुप्रयोग|url=http://mybusinessanalytics.blogspot.com/2009/08/applications-of-text-analytics.html|website=My Business Analytics @ Blogspot|access-date=June 24, 2016|date=2009-08-09}}</ref> 2000 के दशक के उत्तरार्ध में [[बड़ा डेटा|बिग डाटा]] के उद्भव के कारण भविष्य कहने वाला विश्लेषण और [[मूल कारण विश्लेषण]] जैसे समकालीन क्षेत्रों में असंरचित डेटा विश्लेषण के अनुप्रयोगों में रुचि बढ़ गई। <ref>{{cite web|last1=Chakraborty|first1=Goutam|title=Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining|url=https://support.sas.com/resources/papers/proceedings14/1288-2014.pdf|website=SAS|access-date=June 24, 2016}}</ref>




== शब्दावली के मुद्दे ==
== शब्दावली के विषय ==
यह शब्द कई कारणों से सटीक नहीं है:
यह शब्द कई कारणों से सटीक नहीं है:
#[[संरचना]], हालांकि औपचारिक रूप से परिभाषित नहीं है, फिर भी निहित हो सकती है।
#[[संरचना]], हालांकि औपचारिक रूप से परिभाषित नहीं है, फिर भी निहित हो सकती है।
# किसी प्रकार की संरचना वाले डेटा को अभी भी असंरचित माना जा सकता है यदि इसकी संरचना मौजूदा प्रसंस्करण कार्य के लिए सहायक नहीं है।
# किसी प्रकार की संरचना वाले डेटा को अभी भी असंरचित माना जा सकता है यदि इसकी संरचना उपस्थिता प्रसंस्करण कार्य के लिए सहायक नहीं है।
# असंरचित जानकारी में कुछ संरचना ([[अर्ध-संरचित डेटा]]|अर्ध-संरचित) हो सकती है या अत्यधिक संरचित भी हो सकती है, लेकिन अप्रत्याशित या अघोषित तरीके से।
# असंरचित जानकारी में कुछ संरचना ([[अर्ध-संरचित डेटा]]) हो सकती है या अत्यधिक संरचित भी हो सकती है, लेकिन अप्रत्याशित या अघोषित तरीके से हो सकती है।


== असंरचित डेटा से निपटना ==
== असंरचित डेटा से निपटना ==
[[डेटा खनन]], [[प्राकृतिक भाषा प्रसंस्करण]] (एनएलपी), और [[ पाठ विश्लेषण ]] जैसी तकनीकें इस जानकारी में पैटर्न पहचानने या अन्यथा व्याख्या करने के लिए अलग-अलग तरीके प्रदान करती हैं। टेक्स्ट को संरचित करने की सामान्य तकनीकों में आमतौर पर आगे के [[ टेक्स्ट खनन ]]-आधारित संरचना के लिए मैन्युअल टैग (मेटाडेटा) या [[भाषण का भाग टैगिंग]] सम्मिलित होती है। यूआईएमए (यूआईएमए) मानक ने अर्थ निकालने और जानकारी के बारे में संरचित डेटा बनाने के लिए इस जानकारी को संसाधित करने के लिए एक सामान्य ढांचा प्रदान किया है।<ref name = "IBMContentAnalytics">{{cite book |first1=Andreas |last1=Holzinger |first2=Christof |last2=Stocker |first3=Bernhard |last3=Ofner |first4=Gottfried |last4=Prohaska |first5=Alberto |last5=Brabenetz |first6=Rainer |last6=Hofmann-Wellenhof |year=2013 |chapter=Combining HCI, Natural Language Processing, and Knowledge Discovery – Potential of IBM Content Analytics as an Assistive Technology in the Biomedical Field |doi=10.1007/978-3-642-39146-0_2 |pages=13–24 |editor1-first=Andreas |editor1-last=Holzinger |editor2-first=Gabriella |editor2-last=Pasi |title=जटिल, असंरचित, बड़े डेटा में मानव-कंप्यूटर इंटरैक्शन और ज्ञान की खोज|series=Lecture Notes in Computer Science |publisher=Springer |isbn=978-3-642-39146-0|s2cid=39461100 |chapter-url=https://semanticscholar.org/paper/6a81bb782a68c72ec26e79463cd2aec1d0cd917c }}</ref>
[[डेटा खनन]], [[प्राकृतिक भाषा प्रसंस्करण]] (एनएलपी), और [[ पाठ विश्लेषण |पाठ विश्लेषण]] जैसी तकनीकें इस जानकारी में प्रतिरूप पहचानने या अन्यथा व्याख्या करने के लिए अलग-अलग तरीके प्रदान करती हैं। टेक्स्ट को संरचित करने की सामान्य तकनीकों में सामान्यतः आगे के [[ टेक्स्ट खनन |टेक्स्ट माइनिंग]]-आधारित संरचना के लिए मैन्युअल टैग (मेटाडेटा) या [[भाषण का भाग टैगिंग|पार्ट-ऑफ़-स्पीच टैगिंग]] सम्मिलित होती है। यूआईएमए (यूआईएमए) मानक ने अर्थ निकालने और जानकारी के बारे में संरचित डेटा बनाने के लिए इस जानकारी को संसाधित करने के लिए एक सामान्य ढांचा प्रदान किया है। <ref name = "IBMContentAnalytics">{{cite book |first1=Andreas |last1=Holzinger |first2=Christof |last2=Stocker |first3=Bernhard |last3=Ofner |first4=Gottfried |last4=Prohaska |first5=Alberto |last5=Brabenetz |first6=Rainer |last6=Hofmann-Wellenhof |year=2013 |chapter=Combining HCI, Natural Language Processing, and Knowledge Discovery – Potential of IBM Content Analytics as an Assistive Technology in the Biomedical Field |doi=10.1007/978-3-642-39146-0_2 |pages=13–24 |editor1-first=Andreas |editor1-last=Holzinger |editor2-first=Gabriella |editor2-last=Pasi |title=जटिल, असंरचित, बड़े डेटा में मानव-कंप्यूटर इंटरैक्शन और ज्ञान की खोज|series=Lecture Notes in Computer Science |publisher=Springer |isbn=978-3-642-39146-0|s2cid=39461100 |chapter-url=https://semanticscholar.org/paper/6a81bb782a68c72ec26e79463cd2aec1d0cd917c }}</ref>
सॉफ्टवेयर जो मशीन-प्रक्रिया योग्य संरचना बनाता है, वह भाषाई, श्रवण और दृश्य संरचना का उपयोग कर सकता है जो मानव संचार के सभी रूपों में मौजूद है।<ref name="IntelligentEnterprise">{{cite web |title=Structure, Models and Meaning: Is "unstructured" data merely unmodeled? |url=http://www.intelligententerprise.com/showArticle.jhtml?articleID=59301538 |website=InformationWeek |language=en |date=March 1, 2005}}</ref> एल्गोरिदम पाठ से इस अंतर्निहित संरचना का अनुमान लगा सकते हैं, उदाहरण के लिए, शब्द आकृति विज्ञान (भाषाविज्ञान), वाक्य वाक्यविन्यास और अन्य छोटे और बड़े पैमाने के पैटर्न की जांच करके। फिर असंरचित जानकारी को समृद्ध किया जा सकता है और अस्पष्टताओं और प्रासंगिकता-आधारित तकनीकों को संबोधित करने के लिए टैग किया जा सकता है और फिर खोज और खोज को सुविधाजनक बनाने के लिए उपयोग किया जा सकता है। असंरचित डेटा के उदाहरणों में किताबें, जर्नल, दस्तावेज़, [[ मेटा डेटा ]], [[स्वास्थ्य रिकॉर्ड]], ध्वनि, [[वीडियो]], [[एनालॉग डिवाइस]], छवियां, फ़ाइलें और असंरचित पाठ जैसे [[ ईमेल ]] संदेश का मुख्य भाग, [[ वेब पृष्ठ ]] या [[ शब्द संसाधक ]] दस्तावेज़ सम्मिलित हो सकते हैं। . हालाँकि संप्रेषित की जाने वाली मुख्य सामग्री में कोई परिभाषित संरचना नहीं होती है, यह सामान्यतः वस्तुओं में पैक की जाती है (उदाहरण के लिए फ़ाइलों या दस्तावेजों में, ...) जिनकी स्वयं संरचना होती है और इस प्रकार संरचित और असंरचित डेटा का मिश्रण होता है, लेकिन सामूहिक रूप से यह अभी भी है असंरचित डेटा के रूप में जाना जाता है।<ref>{{cite web |last1=Malone |first1=Robert |title=असंरचित डेटा की संरचना करना|url=https://www.forbes.com/2007/04/04/teradata-solution-software-biz-logistics-cx_rm_0405data.html |website=Forbes |language=en |date=April 5, 2007}}</ref> उदाहरण के लिए, एक HTML वेब पेज टैग किया गया है, लेकिन HTML मार्क-अप आमतौर पर केवल रेंडरिंग के लिए काम करता है। यह टैग किए गए तत्वों के अर्थ या कार्य को उन तरीकों से कैप्चर नहीं करता है जो पृष्ठ की सूचना सामग्री के स्वचालित प्रसंस्करण का समर्थन करते हैं। एक्स[[एचटीएमएल]] टैगिंग तत्वों की मशीन प्रसंस्करण की अनुमति देती है, हालांकि यह सामान्यतः टैग किए गए शब्दों के अर्थपूर्ण अर्थ को कैप्चर या व्यक्त नहीं करती है।


चूंकि असंरचित डेटा आमतौर पर [[इलेक्ट्रॉनिक दस्तावेज़|इलेक्ट्रॉनिक]] डॉक्यूमेंट में होता है, इसलिए [[सामग्री प्रबंधन]] या [[दस्तावेज़ प्रबंधन]] प्रणाली का उपयोग जो संपूर्ण डॉक्यूमेंट को वर्गीकृत कर सकता है, अक्सर डॉक्यूमेंट के भीतर से डेटा स्थानांतरण और हेरफेर की तुलना में पसंद किया जाता है। दस्तावेज़ प्रबंधन इस प्रकार संरचना को [[पाठ कोष]] पर संप्रेषित करने का साधन प्रदान करता है।
सॉफ्टवेयर जो मशीन-प्रक्रिया योग्य संरचना बनाता है, वह भाषाई, श्रवण और दृश्य संरचना का उपयोग कर सकता है जो मानव संचार के सभी रूपों में उपस्थित है। <ref name="IntelligentEnterprise">{{cite web |title=Structure, Models and Meaning: Is "unstructured" data merely unmodeled? |url=http://www.intelligententerprise.com/showArticle.jhtml?articleID=59301538 |website=InformationWeek |language=en |date=March 1, 2005}}</ref> कलन विधि पाठ से इस अंतर्निहित संरचना का अनुमान लगा सकते हैं, उदाहरण के लिए, शब्द आकृति विज्ञान (भाषाविज्ञान), वाक्य वाक्यविन्यास और अन्य छोटे और बड़े मापक्रम के प्रतिरूप की जांच करके अनुमान लगा सकते हैं। फिर असंरचित जानकारी को समृद्ध किया जा सकता है और अस्पष्टताओं और प्रासंगिकता-आधारित तकनीकों को संबोधित करने के लिए टैग किया जा सकता है और फिर खोज को सुविधाजनक बनाने के लिए उपयोग किया जा सकता है। असंरचित डेटा के उदाहरणों में किताबें, जर्नल, डॉक्यूमेंट, [[ मेटा डेटा |मेटा डेटा]], [[स्वास्थ्य रिकॉर्ड]], ध्वनि, [[वीडियो]], [[एनालॉग डिवाइस]], छवियां, फ़ाइलें और असंरचित पाठ जैसे [[ ईमेल |ईमेल]] संदेश का मुख्य भाग, [[ वेब पृष्ठ |वेब पृष्ठ]] या [[ शब्द संसाधक |शब्द संसाधक]] डॉक्यूमेंट सम्मिलित हो सकते हैं। हालाँकि संप्रेषित की जाने वाली मुख्य विषय सूची में कोई परिभाषित संरचना नहीं होती है, यह सामान्यतः वस्तुओं में संविष्ट की जाती है (उदाहरण के लिए फ़ाइलों या दस्तावेजों में, ...) जिनकी स्वयं संरचना होती है और इस प्रकार संरचित और असंरचित डेटा का मिश्रण होता है, लेकिन सामूहिक रूप से यह अभी भी है असंरचित डेटा के रूप में जाना जाता है। <ref>{{cite web |last1=Malone |first1=Robert |title=असंरचित डेटा की संरचना करना|url=https://www.forbes.com/2007/04/04/teradata-solution-software-biz-logistics-cx_rm_0405data.html |website=Forbes |language=en |date=April 5, 2007}}</ref> उदाहरण के लिए, एक एचटीएमएल वेब पेज टैग किया गया है, लेकिन एचटीएमएल मार्क-अप सामान्यतः केवल रेंडरिंग के लिए काम करता है। यह टैग किए गए तत्वों के अर्थ या कार्य को उन तरीकों से कैप्चर नहीं करता है जो पृष्ठ की सूचना विषय सूची के स्वचालित प्रसंस्करण का समर्थन करते हैं। एक्स[[एचटीएमएल]] टैगिंग तत्वों की मशीन प्रसंस्करण की अनुमति देती है, हालांकि यह सामान्यतः टैग किए गए शब्दों के अर्थपूर्ण अर्थ को कैप्चर या व्यक्त नहीं करती है।
 
चूंकि असंरचित डेटा सामान्यतः [[इलेक्ट्रॉनिक दस्तावेज़|इलेक्ट्रॉनिक]] डॉक्यूमेंट में होता है, इसलिए [[सामग्री प्रबंधन|विषय सूची प्रबंधन]] या [[दस्तावेज़ प्रबंधन|डॉक्यूमेंट प्रबंधन]] प्रणाली का उपयोग जो संपूर्ण डॉक्यूमेंट को वर्गीकृत कर सकता है, प्रायः डॉक्यूमेंट के भीतर से डेटा स्थानांतरण और हेरफेर की तुलना में पसंद किया जाता है। डॉक्यूमेंट प्रबंधन इस प्रकार संरचना को [[पाठ कोष]] पर संप्रेषित करने का साधन प्रदान करता है।


[[खोज इंजन]] ऐसे डेटा, विशेषकर पाठ को अनुक्रमित करने और खोजने के लिए लोकप्रिय उपकरण बन गए हैं।
[[खोज इंजन]] ऐसे डेटा, विशेषकर पाठ को अनुक्रमित करने और खोजने के लिए लोकप्रिय उपकरण बन गए हैं।


=== प्राकृतिक भाषा प्रसंस्करण में दृष्टिकोण ===
=== प्राकृतिक भाषा प्रसंस्करण में दृष्टिकोण ===
पाठ डॉक्यूमेंट में मौजूद असंरचित डेटा पर संरचना थोपने के लिए विशिष्ट कम्प्यूटेशनल वर्कफ़्लो विकसित किए गए हैं। ये वर्कफ़्लो सामान्यतः हजारों या लाखों डॉक्यूमेंट के सेट को संभालने के लिए डिज़ाइन किए जाते हैं, या एनोटेशन के लिए मैन्युअल दृष्टिकोण की अनुमति से कहीं अधिक हो सकता है। इनमें से कई दृष्टिकोण ऑनलाइन विश्लेषणात्मक प्रसंस्करण|ऑनलाइन विश्लेषणात्मक प्रसंस्करण, या ओएलएपी की अवधारणा पर आधारित हैं, और टेक्स्ट क्यूब्स जैसे डेटा प्रतिरूप द्वारा समर्थित हो सकते हैं।<ref>{{Cite book|last1=Lin|first1=Cindy Xide|last2=Ding|first2=Bolin|last3=Han|first3=Jiawei|last4=Zhu|first4=Feida|last5=Zhao|first5=Bo|date=December 2008|title=Text Cube: Computing IR Measures for Multidimensional Text Database Analysis|journal=2008 Eighth IEEE International Conference on Data Mining|language=en-US|publisher=IEEE|doi=10.1109/icdm.2008.135|isbn=9780769535029|citeseerx=10.1.1.215.3177|s2cid=1522480}}</ref> एक बार जब दस्तावेज़ मेटाडेटा डेटा प्रतिरूप के माध्यम से उपलब्ध हो जाता है, तो डॉक्यूमेंट के सबसेट (यानी, टेक्स्ट क्यूब के भीतर कोशिकाएं) का सारांश उत्पन्न करना वाक्यांश-आधारित दृष्टिकोण के साथ किया जा सकता है।<ref name = "textcubes">{{cite web |title=टेक्स्ट क्यूब्स में बहु-आयामी, वाक्यांश-आधारित सारांश|url=http://sites.computer.org/debull/A16sept/p74.pdf |last1=Tao|first1=Fangbo | last2=Zhuang|first2=Honglei | last3=Yu|first3=Chi Wang| first4=Qi|last4=Wang | first5=Taylor|last5=Cassidy | first6=Lance|last6=Kaplan | first7=Clare|last7=Voss| last8=Han | first8=Jiawei | date=2016}}</ref>
पाठ डॉक्यूमेंट में उपस्थित असंरचित डेटा पर संरचना थोपने के लिए विशिष्ट कम्प्यूटेशनल वर्कफ़्लो विकसित किए गए हैं। ये वर्कफ़्लो सामान्यतः हजारों या लाखों डॉक्यूमेंट के सम्मुच्चय को संभालने के लिए अभिकल्पित किए जाते हैं, या टिप्पणी के लिए मैन्युअल दृष्टिकोण की अनुमति से कहीं अधिक हो सकता है। इनमें से कई दृष्टिकोण ऑनलाइन विश्लेषणात्मक प्रसंस्करण, या ओएलएपी की अवधारणा पर आधारित हैं, और टेक्स्ट क्यूब्स जैसे डेटा प्रतिरूप द्वारा समर्थित हो सकते हैं। <ref>{{Cite book|last1=Lin|first1=Cindy Xide|last2=Ding|first2=Bolin|last3=Han|first3=Jiawei|last4=Zhu|first4=Feida|last5=Zhao|first5=Bo|date=December 2008|title=Text Cube: Computing IR Measures for Multidimensional Text Database Analysis|journal=2008 Eighth IEEE International Conference on Data Mining|language=en-US|publisher=IEEE|doi=10.1109/icdm.2008.135|isbn=9780769535029|citeseerx=10.1.1.215.3177|s2cid=1522480}}</ref> एक बार जब डॉक्यूमेंट मेटाडेटा डेटा प्रतिरूप के माध्यम से उपलब्ध हो जाता है, तो डॉक्यूमेंट के उपसम्मुच्चय (यानी, टेक्स्ट क्यूब के भीतर कोशिकाएं) का सारांश उत्पन्न करना वाक्यांश-आधारित दृष्टिकोण के साथ किया जा सकता है। <ref name = "textcubes">{{cite web |title=टेक्स्ट क्यूब्स में बहु-आयामी, वाक्यांश-आधारित सारांश|url=http://sites.computer.org/debull/A16sept/p74.pdf |last1=Tao|first1=Fangbo | last2=Zhuang|first2=Honglei | last3=Yu|first3=Chi Wang| first4=Qi|last4=Wang | first5=Taylor|last5=Cassidy | first6=Lance|last6=Kaplan | first7=Clare|last7=Voss| last8=Han | first8=Jiawei | date=2016}}</ref>




=== चिकित्सा और बायोमेडिकल अनुसंधान में दृष्टिकोण ===
=== चिकित्सा और जैव चिकित्सा अनुसंधान में दृष्टिकोण ===
बायोमेडिकल अनुसंधान असंरचित डेटा का एक प्रमुख स्रोत उत्पन्न करता है क्योंकि शोधकर्ता अक्सर विद्वान पत्रिकाओं में अपने निष्कर्ष प्रकाशित करते हैं। यद्यपि इन दस्तावेजों में भाषा से संरचनात्मक तत्वों को प्राप्त करना चुनौतीपूर्ण है (उदाहरण के लिए, इसमें मौजूद जटिल तकनीकी शब्दावली और टिप्पणियों को पूरी तरह से प्रासंगिक बनाने के लिए आवश्यक डोमेन ज्ञान के कारण), इन गतिविधियों के परिणाम तकनीकी और चिकित्सा अध्ययनों के बीच संबंध उत्पन्न कर सकते हैं।<ref>{{Cite journal|last1=Collier|first1=Nigel|last2=Nazarenko|first2=Adeline|last3=Baud|first3=Robert|last4=Ruch|first4=Patrick|date=June 2006|title=बायोमेडिकल अनुप्रयोगों के लिए प्राकृतिक भाषा प्रसंस्करण में हालिया प्रगति|journal=International Journal of Medical Informatics|volume=75|issue=6|pages=413–417|doi=10.1016/j.ijmedinf.2005.06.008|issn=1386-5056|pmid=16139564|s2cid=31449783 }}</ref> और नए रोग उपचारों के संबंध में सुराग।<ref>{{Cite journal|last1=Gonzalez|first1=Graciela H.|last2=Tahsin|first2=Tasnia|last3=Goodale|first3=Britton C.|last4=Greene|first4=Anna C.|last5=Greene|first5=Casey S.|date=January 2016|title=बायोमेडिकल डिस्कवरी के लिए टेक्स्ट और डेटा माइनिंग में हालिया प्रगति और उभरते अनुप्रयोग|journal=Briefings in Bioinformatics|volume=17|issue=1|pages=33–42|doi=10.1093/bib/bbv087|issn=1477-4054|pmc=4719073|pmid=26420781}}</ref> बायोमेडिकल डॉक्यूमेंट पर संरचना लागू करने के हालिया प्रयासों में डॉक्यूमेंट के बीच विषयों की पहचान करने के लिए [[स्व-संगठित मानचित्र]] दृष्टिकोण सम्मिलित हैं,<ref>{{Cite journal|last1=Skupin|first1=André|last2=Biberstine|first2=Joseph R.|last3=Börner|first3=Katy|date=2013|title=Visualizing the topical structure of the medical sciences: a self-organizing map approach|journal=PLOS ONE|volume=8|issue=3|pages=e58779|doi=10.1371/journal.pone.0058779|issn=1932-6203|pmc=3595294|pmid=23554924|bibcode=2013PLoSO...858779S|doi-access=free}}</ref> सामान्य प्रयोजन अप्रशिक्षित शिक्षा,<ref>{{Cite journal|last1=Kiela|first1=Douwe|last2=Guo|first2=Yufan|last3=Stenius|first3=Ulla|last4=Korhonen|first4=Anna|date=2015-04-01|title=बायोमेडिकल दस्तावेज़ों में सूचना संरचना की अनियंत्रित खोज|journal=Bioinformatics|volume=31|issue=7|pages=1084–1092|doi=10.1093/bioinformatics/btu758|issn=1367-4811|pmid=25411329|doi-access=free}}</ref> और CaseOLAP वर्कफ़्लो का एक अनुप्रयोग<ref name = "textcubes" />साहित्य में प्रोटीन के नाम और हृदय रोग विषयों के बीच संबंध निर्धारित करना।<ref name="caseolapCV">{{Cite journal|last1=Liem|first1=David A.|last2=Murali|first2=Sanjana|last3=Sigdel|first3=Dibakar|last4=Shi|first4=Yu|last5=Wang|first5=Xuan|last6=Shen|first6=Jiaming|last7=Choi|first7=Howard|last8=Caufield|first8=John H.|last9=Wang|first9=Wei|last10=Ping|first10=Peipei|last11=Han|first11=Jiawei|date=Oct 1, 2018|title=हृदय रोग में बाह्य कोशिकीय मैट्रिक्स प्रोटीन पैटर्न का विश्लेषण करने के लिए पाठ्य डेटा का वाक्यांश खनन|journal=American Journal of Physiology. Heart and Circulatory Physiology|volume=315|issue=4|pages=H910–H924|doi=10.1152/ajpheart.00175.2018|issn=1522-1539|pmid=29775406|pmc=6230912}}</ref> CaseOLAP वाक्यांश-श्रेणी संबंधों को सटीक (रिश्तों की पहचान करता है), सुसंगत (अत्यधिक प्रतिलिपि प्रस्तुत करने योग्य) और कुशल तरीके से परिभाषित करता है। यह प्लेटफ़ॉर्म उन्नत पहुंच प्रदान करता है और व्यापक बायोमेडिकल अनुसंधान अनुप्रयोगों के लिए वाक्यांश-खनन उपकरणों के साथ बायोमेडिकल समुदाय को सशक्त बनाता है।<ref name="caseolapCV" />
जैव चिकित्सा अनुसंधान असंरचित डेटा का एक प्रमुख स्रोत उत्पन्न करता है क्योंकि शोधकर्ता प्रायः विद्वान पत्रिकाओं में अपने निष्कर्ष प्रकाशित करते हैं। यद्यपि इन दस्तावेजों में भाषा से संरचनात्मक तत्वों को प्राप्त करना चुनौतीपूर्ण है (उदाहरण के लिए, इसमें उपस्थित जटिल तकनीकी शब्दावली और टिप्पणियों को पूरी तरह से प्रासंगिक बनाने के लिए आवश्यक कार्यछेत्र ज्ञान के कारण), इन गतिविधियों के परिणाम तकनीकी और चिकित्सा अध्ययनों के बीच संबंध और नए रोग उपचारों के संबंध में प्रमाण उत्पन्न कर सकते हैं। <ref>{{Cite journal|last1=Collier|first1=Nigel|last2=Nazarenko|first2=Adeline|last3=Baud|first3=Robert|last4=Ruch|first4=Patrick|date=June 2006|title=बायोमेडिकल अनुप्रयोगों के लिए प्राकृतिक भाषा प्रसंस्करण में हालिया प्रगति|journal=International Journal of Medical Informatics|volume=75|issue=6|pages=413–417|doi=10.1016/j.ijmedinf.2005.06.008|issn=1386-5056|pmid=16139564|s2cid=31449783 }}</ref> <ref>{{Cite journal|last1=Gonzalez|first1=Graciela H.|last2=Tahsin|first2=Tasnia|last3=Goodale|first3=Britton C.|last4=Greene|first4=Anna C.|last5=Greene|first5=Casey S.|date=January 2016|title=बायोमेडिकल डिस्कवरी के लिए टेक्स्ट और डेटा माइनिंग में हालिया प्रगति और उभरते अनुप्रयोग|journal=Briefings in Bioinformatics|volume=17|issue=1|pages=33–42|doi=10.1093/bib/bbv087|issn=1477-4054|pmc=4719073|pmid=26420781}}</ref> जैव चिकित्सा डॉक्यूमेंट पर संरचना लागू करने के हालिया प्रयासों में डॉक्यूमेंट के बीच विषयों की पहचान करने के लिए [[स्व-संगठित मानचित्र]] दृष्टिकोण सम्मिलित हैं, <ref>{{Cite journal|last1=Skupin|first1=André|last2=Biberstine|first2=Joseph R.|last3=Börner|first3=Katy|date=2013|title=Visualizing the topical structure of the medical sciences: a self-organizing map approach|journal=PLOS ONE|volume=8|issue=3|pages=e58779|doi=10.1371/journal.pone.0058779|issn=1932-6203|pmc=3595294|pmid=23554924|bibcode=2013PLoSO...858779S|doi-access=free}}</ref> सामान्य प्रयोजन अप्रशिक्षित शिक्षा, <ref>{{Cite journal|last1=Kiela|first1=Douwe|last2=Guo|first2=Yufan|last3=Stenius|first3=Ulla|last4=Korhonen|first4=Anna|date=2015-04-01|title=बायोमेडिकल दस्तावेज़ों में सूचना संरचना की अनियंत्रित खोज|journal=Bioinformatics|volume=31|issue=7|pages=1084–1092|doi=10.1093/bioinformatics/btu758|issn=1367-4811|pmid=25411329|doi-access=free}}</ref> और साहित्य में प्रोटीन नामों और हृदय रोग विषयों के बीच संबंध निर्धारित करने के लिए केसओएलएपी वर्कफ़्लो का एक अनुप्रयोग है।<ref name = "textcubes" /> <ref name="caseolapCV">{{Cite journal|last1=Liem|first1=David A.|last2=Murali|first2=Sanjana|last3=Sigdel|first3=Dibakar|last4=Shi|first4=Yu|last5=Wang|first5=Xuan|last6=Shen|first6=Jiaming|last7=Choi|first7=Howard|last8=Caufield|first8=John H.|last9=Wang|first9=Wei|last10=Ping|first10=Peipei|last11=Han|first11=Jiawei|date=Oct 1, 2018|title=हृदय रोग में बाह्य कोशिकीय मैट्रिक्स प्रोटीन पैटर्न का विश्लेषण करने के लिए पाठ्य डेटा का वाक्यांश खनन|journal=American Journal of Physiology. Heart and Circulatory Physiology|volume=315|issue=4|pages=H910–H924|doi=10.1152/ajpheart.00175.2018|issn=1522-1539|pmid=29775406|pmc=6230912}}</ref> केसओएलएपी वाक्यांश-श्रेणी संबंधों को सटीक (रिश्तों की पहचान करता है), सुसंगत (अत्यधिक प्रतिलिपि प्रस्तुत करने योग्य) और कुशल तरीके से परिभाषित करता है। यह प्लेटफ़ॉर्म उन्नत पहुंच प्रदान करता है और व्यापक जैव चिकित्सा अनुसंधान अनुप्रयोगों के लिए वाक्यांश-खनन उपकरणों के साथ जैव चिकित्सा समुदाय को सशक्त बनाता है। <ref name="caseolapCV" />




== डेटा गोपनीयता नियमों में असंरचित का उपयोग ==
== डेटा गोपनीयता नियमों में असंरचित का उपयोग ==
स्वीडन (ईयू) में, 2018 से पहले, कुछ डेटा गोपनीयता नियम लागू नहीं होते थे यदि प्रश्न में डेटा को असंरचित के रूप में पुष्टि की गई थी।<ref>{{Cite web|url=https://sverigeskommunikatorer.se/kunskap/nyheter/gdpr-del-3--missbruksregeln-upphor-vad-innebar-det-for-kommunikatoren/#:~:text=Vad%20inneb%C3%A4r%20Missbruksregeln%3F,men%20%C3%A4ven%20publicering%20av%20bilder|title=Swedish data privacy regulations discontinue separation of "unstructured" and "structured"}}</ref> यह शब्दावली, असंरचित डेटा, 2018 में [[जीडीपीआर]] लागू होने के बाद यूरोपीय संघ में शायद ही कभी उपयोग की जाती है। जीडीपीआर असंरचित डेटा का न तो उल्लेख करता है और न ही उसे परिभाषित करता है। यह संरचित शब्द का उपयोग इस प्रकार करता है (इसे परिभाषित किए बिना);
स्वीडन (ईयू) में, 2018 से पहले, कुछ डेटा गोपनीयता नियम लागू नहीं होते थे यदि प्रश्न में डेटा को असंरचित के रूप में पुष्टि की गई थी। <ref>{{Cite web|url=https://sverigeskommunikatorer.se/kunskap/nyheter/gdpr-del-3--missbruksregeln-upphor-vad-innebar-det-for-kommunikatoren/#:~:text=Vad%20inneb%C3%A4r%20Missbruksregeln%3F,men%20%C3%A4ven%20publicering%20av%20bilder|title=Swedish data privacy regulations discontinue separation of "unstructured" and "structured"}}</ref> यह शब्दावली, असंरचित डेटा, 2018 में [[जीडीपीआर]] लागू होने के बाद यूरोपीय संघ में संभवतः ही कभी उपयोग की जाती है। जीडीपीआर असंरचित डेटा का न तो उल्लेख करता है और न ही उसे परिभाषित करता है। यह संरचित शब्द का उपयोग इस प्रकार करता है (इसे परिभाषित किए बिना);
* जीडीपीआर रिसिटल 15 के भाग, प्राकृतिक व्यक्तियों की सुरक्षा व्यक्तिगत डेटा के प्रसंस्करण पर लागू होनी चाहिए ... यदि ... एक फाइलिंग सिस्टम में निहित है।
* जीडीपीआर रिसिटल 15 के भाग, प्राकृतिक व्यक्तियों की सुरक्षा व्यक्तिगत डेटा के प्रसंस्करण पर लागू होनी चाहिए ... यदि ... एक फाइलिंग सिस्टम में निहित है।
* जीडीपीआर अनुच्छेद 4, 'फाइलिंग सिस्टम' का अर्थ व्यक्तिगत डेटा का कोई भी संरचित सेट है जो विशिष्ट मानदंडों के अनुसार पहुंच योग्य है ...
* जीडीपीआर अनुच्छेद 4, 'फाइलिंग सिस्टम' का अर्थ व्यक्तिगत डेटा का कोई भी संरचित सम्मुच्चय है जो विशिष्ट मानदंडों के अनुसार पहुंच योग्य है ...


फाइलिंग सिस्टम को क्या परिभाषित करता है उस पर जीडीपीआर केस-कानून; विशिष्ट मानदंड और विशिष्ट रूप जिसमें उपदेश देने वाले प्रत्येक सदस्य द्वारा एकत्र किए गए व्यक्तिगत डेटा का सेट वास्तव में संरचित है, अप्रासंगिक है, जब तक कि डेटा का वह सेट किसी विशिष्ट व्यक्ति से संबंधित डेटा के लिए इसे संभव बनाता है जिसके पास है आसानी से पुनर्प्राप्त करने के लिए संपर्क किया गया है, हालांकि मुख्य कार्यवाही में मामले की सभी परिस्थितियों के आलोक में यह पता लगाना संबंधित अदालत का काम है।'' (कोर्ट_ऑफ_जस्टिस_ऑफ_द_यूरोपियन_यूनियन, [https://curia.europa.eu/juris/document/document.jsf?docid=203822&doclang=EN|जेहोवन टोडिस्टाजट बनाम टिएटोसुओजावल्टुटेट्टू, जेहोवन, पैराग्राफ 61])।
फाइलिंग सिस्टम को क्या परिभाषित करता है उस पर जीडीपीआर केस-कानून; विशिष्ट मानदंड और विशिष्ट रूप जिसमें उपदेश देने वाले प्रत्येक सदस्य द्वारा एकत्र किए गए व्यक्तिगत डेटा का सम्मुच्चय वास्तव में संरचित है, अप्रासंगिक है, जब तक कि डेटा का वह सम्मुच्चय किसी विशिष्ट व्यक्ति से संबंधित डेटा के लिए इसे संभव बनाता है जिसके पास है आसानी से पुनर्प्राप्त करने के लिए संपर्क किया गया है, हालांकि मुख्य कार्यवाही में मामले की सभी परिस्थितियों के आलोक में यह पता लगाना संबंधित अदालत का काम है।'' (कोर्ट_ऑफ_जस्टिस_ऑफ_द_यूरोपियन_यूनियन, [https://curia.europa.eu/juris/document/document.jsf?docid=203822&doclang=EN|जेहोवन टोडिस्टाजट बनाम टिएटोसुओजावल्टुटेट्टू, जेहोवन, पैराग्राफ 61])।


यदि व्यक्तिगत डेटा आसानी से पुनर्प्राप्त किया जाता है - तो यह एक फाइलिंग सिस्टम है और - फिर यह संरचित या असंरचित होने की परवाह किए बिना जीडीपीआर के दायरे में है। आज अधिकांश इलेक्ट्रॉनिक सिस्टम, एक्सेस और एप्लाइड सॉफ़्टवेयर के अधीन, डेटा की आसान पुनर्प्राप्ति की अनुमति दे सकते हैं।
यदि व्यक्तिगत डेटा आसानी से पुनर्प्राप्त किया जाता है - तो यह एक फाइलिंग सिस्टम है और - फिर यह संरचित या असंरचित होने की परवाह किए बिना जीडीपीआर के दायरे में है। आज अधिकांश इलेक्ट्रॉनिक सिस्टम, एक्सेस और एप्लाइड सॉफ़्टवेयर के अधीन, डेटा की आसान पुनर्प्राप्ति की अनुमति दे सकते हैं।
Line 44: Line 45:
== यह भी देखें ==
== यह भी देखें ==
*[[क्लस्टर विश्लेषण]]
*[[क्लस्टर विश्लेषण]]
*पैटर्न मान्यता
*प्रतिरूप मान्यता
*[[टेक्स्ट माइनिंग सॉफ़्टवेयर की सूची]]
*[[टेक्स्ट माइनिंग सॉफ़्टवेयर की सूची]]
*अर्ध-[[संरचित डेटा]]
*अर्ध-[[संरचित डेटा]]
Line 62: Line 63:
*[https://securiti.ai/unstructured-data-101-definition-examples-benefits-challenges/ Unstructured Data Definition, Examples, Benefits & Challenges]
*[https://securiti.ai/unstructured-data-101-definition-examples-benefits-challenges/ Unstructured Data Definition, Examples, Benefits & Challenges]


{{Data}}[[Category: आंकड़े]] [[Category: सूचना प्रौद्योगिकी प्रबंधन]] [[Category: व्यापार खुफिया शर्तें]]
{{Data}}
 
 


[[Category: Machine Translated Page]]
[[Category:All articles containing potentially dated statements]]
[[Category:Articles containing potentially dated statements from 2012]]
[[Category:CS1 English-language sources (en)]]
[[Category:Collapse templates]]
[[Category:Created On 06/07/2023]]
[[Category:Created On 06/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with script errors]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates generating microformats]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Wikipedia metatemplates]]
[[Category:आंकड़े]]
[[Category:व्यापार खुफिया शर्तें]]
[[Category:सूचना प्रौद्योगिकी प्रबंधन]]

Latest revision as of 10:25, 15 July 2023

असंरचित डेटा (या असंरचित जानकारी) वह जानकारी है जिसमें या तो पूर्व-परिभाषित डेटा प्रतिरूप नहीं होता है या पूर्व-निर्धारित तरीके से व्यवस्थित नहीं होता है। असंरचित जानकारी सामान्यतः विशिष्ट रूप से टेक्स्ट-हैवी होती है, लेकिन इसमें दिनांक, संख्या और तथ्य जैसे डेटा भी सम्मिलित हो सकते हैं। इसके परिणामस्वरूप अनियमितताएं और अस्पष्टताएं उत्पन्न होती हैं, जिससे डेटाबेस या डॉक्यूमेंट में एनोटेट (शब्दार्थतः चिन्हित) में क्षेत्र किए गए डेटा की तुलना में पारंपरिक कार्यक्रमों का उपयोग करना समझना कठिन हो जाता है।

1998 में, मेरिल लिंच ने कहा कि असंरचित डेटा में किसी संगठन में पाए जाने वाले अधिकांश डेटा सम्मिलित होते हैं, कुछ अनुमान 80% तक पहुँचते हैं। [1] यह स्पष्ट नहीं है कि इस संख्या का स्रोत क्या है, लेकिन फिर भी कुछ लोग इसे स्वीकार करते हैं। [2] अन्य स्रोतों ने असंरचित डेटा के समान या उच्च प्रतिशत की सूचना दी है। [3][4][5]

As of 2012, अंतर्राष्ट्रीय डेटा निगम और डेल ईएमसी का अनुमान है कि 2020 तक डेटा 40 ज़ेटाबाइट्स तक बढ़ जाएगा, जिसके परिणामस्वरूप 2010 के प्रारम्भ से 50 गुना वृद्धि होगी। [6] अभी हाल ही में, आईडीसी और सीगेट प्रौद्योगिकी ने भविष्यवाणी की है कि वैश्विक डेटास्फेयर 2025 तक 163 ज़ेटाबाइट्स तक बढ़ जाएगा [7] और उसका अधिकांश भाग असंरचित होगा। कंप्यूटर वर्ल्ड मैगज़ीन का कहना है कि असंरचित जानकारी संगठनों के सभी डेटा का 70-80% से अधिक हो सकती है। [1]

पृष्ठभूमि

व्यापारिक सूचना में प्रारम्भिक शोध संख्यात्मक डेटा के स्थान पर असंरचित पाठ्य डेटा पर केंद्रित था। [8] 1958 के प्रारम्भ में, हंस पीटर लुहान जैसे कंप्यूटर विज्ञान शोधकर्ता विशेष रूप से असंरचित पाठ के निष्कर्षण और वर्गीकरण से चिंतित थे।[8] हालाँकि, सदी के प्रारम्भ के बाद से ही प्रौद्योगिकी ने अनुसंधान की रुचि को पकड़ लिया है। 2004 में, एसएएस संस्थान ने एसएएस (सॉफ्टवेयर) टेक्स्ट माइनर विकसित किया, जो कि अधिक कुशल मशीन-विश्लेषण के लिए आयामी विश्लेषण हाइपर-डायमेंशनल टेक्स्टुअल स्पेस (गणित) को छोटे आयामों में कम करने के लिए विलक्षण मान अपघटन (एसवीडी) का उपयोग करता है। [9] यंत्र अधिगम टेक्स्ट विश्लेषण से उत्पन्न गणितीय और तकनीकी प्रगति ने कई व्यवसायों को अनुप्रयोगों पर शोध करने के लिए प्रेरित किया, जिससे भावना विश्लेषण, VOC खनन और कॉल सेंटर अनुकूलन जैसे क्षेत्रों का विकास हुआ। [10] 2000 के दशक के उत्तरार्ध में बिग डाटा के उद्भव के कारण भविष्य कहने वाला विश्लेषण और मूल कारण विश्लेषण जैसे समकालीन क्षेत्रों में असंरचित डेटा विश्लेषण के अनुप्रयोगों में रुचि बढ़ गई। [11]


शब्दावली के विषय

यह शब्द कई कारणों से सटीक नहीं है:

  1. संरचना, हालांकि औपचारिक रूप से परिभाषित नहीं है, फिर भी निहित हो सकती है।
  2. किसी प्रकार की संरचना वाले डेटा को अभी भी असंरचित माना जा सकता है यदि इसकी संरचना उपस्थिता प्रसंस्करण कार्य के लिए सहायक नहीं है।
  3. असंरचित जानकारी में कुछ संरचना (अर्ध-संरचित डेटा) हो सकती है या अत्यधिक संरचित भी हो सकती है, लेकिन अप्रत्याशित या अघोषित तरीके से हो सकती है।

असंरचित डेटा से निपटना

डेटा खनन, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), और पाठ विश्लेषण जैसी तकनीकें इस जानकारी में प्रतिरूप पहचानने या अन्यथा व्याख्या करने के लिए अलग-अलग तरीके प्रदान करती हैं। टेक्स्ट को संरचित करने की सामान्य तकनीकों में सामान्यतः आगे के टेक्स्ट माइनिंग-आधारित संरचना के लिए मैन्युअल टैग (मेटाडेटा) या पार्ट-ऑफ़-स्पीच टैगिंग सम्मिलित होती है। यूआईएमए (यूआईएमए) मानक ने अर्थ निकालने और जानकारी के बारे में संरचित डेटा बनाने के लिए इस जानकारी को संसाधित करने के लिए एक सामान्य ढांचा प्रदान किया है। [12]

सॉफ्टवेयर जो मशीन-प्रक्रिया योग्य संरचना बनाता है, वह भाषाई, श्रवण और दृश्य संरचना का उपयोग कर सकता है जो मानव संचार के सभी रूपों में उपस्थित है। [13] कलन विधि पाठ से इस अंतर्निहित संरचना का अनुमान लगा सकते हैं, उदाहरण के लिए, शब्द आकृति विज्ञान (भाषाविज्ञान), वाक्य वाक्यविन्यास और अन्य छोटे और बड़े मापक्रम के प्रतिरूप की जांच करके अनुमान लगा सकते हैं। फिर असंरचित जानकारी को समृद्ध किया जा सकता है और अस्पष्टताओं और प्रासंगिकता-आधारित तकनीकों को संबोधित करने के लिए टैग किया जा सकता है और फिर खोज को सुविधाजनक बनाने के लिए उपयोग किया जा सकता है। असंरचित डेटा के उदाहरणों में किताबें, जर्नल, डॉक्यूमेंट, मेटा डेटा, स्वास्थ्य रिकॉर्ड, ध्वनि, वीडियो, एनालॉग डिवाइस, छवियां, फ़ाइलें और असंरचित पाठ जैसे ईमेल संदेश का मुख्य भाग, वेब पृष्ठ या शब्द संसाधक डॉक्यूमेंट सम्मिलित हो सकते हैं। हालाँकि संप्रेषित की जाने वाली मुख्य विषय सूची में कोई परिभाषित संरचना नहीं होती है, यह सामान्यतः वस्तुओं में संविष्ट की जाती है (उदाहरण के लिए फ़ाइलों या दस्तावेजों में, ...) जिनकी स्वयं संरचना होती है और इस प्रकार संरचित और असंरचित डेटा का मिश्रण होता है, लेकिन सामूहिक रूप से यह अभी भी है असंरचित डेटा के रूप में जाना जाता है। [14] उदाहरण के लिए, एक एचटीएमएल वेब पेज टैग किया गया है, लेकिन एचटीएमएल मार्क-अप सामान्यतः केवल रेंडरिंग के लिए काम करता है। यह टैग किए गए तत्वों के अर्थ या कार्य को उन तरीकों से कैप्चर नहीं करता है जो पृष्ठ की सूचना विषय सूची के स्वचालित प्रसंस्करण का समर्थन करते हैं। एक्सएचटीएमएल टैगिंग तत्वों की मशीन प्रसंस्करण की अनुमति देती है, हालांकि यह सामान्यतः टैग किए गए शब्दों के अर्थपूर्ण अर्थ को कैप्चर या व्यक्त नहीं करती है।

चूंकि असंरचित डेटा सामान्यतः इलेक्ट्रॉनिक डॉक्यूमेंट में होता है, इसलिए विषय सूची प्रबंधन या डॉक्यूमेंट प्रबंधन प्रणाली का उपयोग जो संपूर्ण डॉक्यूमेंट को वर्गीकृत कर सकता है, प्रायः डॉक्यूमेंट के भीतर से डेटा स्थानांतरण और हेरफेर की तुलना में पसंद किया जाता है। डॉक्यूमेंट प्रबंधन इस प्रकार संरचना को पाठ कोष पर संप्रेषित करने का साधन प्रदान करता है।

खोज इंजन ऐसे डेटा, विशेषकर पाठ को अनुक्रमित करने और खोजने के लिए लोकप्रिय उपकरण बन गए हैं।

प्राकृतिक भाषा प्रसंस्करण में दृष्टिकोण

पाठ डॉक्यूमेंट में उपस्थित असंरचित डेटा पर संरचना थोपने के लिए विशिष्ट कम्प्यूटेशनल वर्कफ़्लो विकसित किए गए हैं। ये वर्कफ़्लो सामान्यतः हजारों या लाखों डॉक्यूमेंट के सम्मुच्चय को संभालने के लिए अभिकल्पित किए जाते हैं, या टिप्पणी के लिए मैन्युअल दृष्टिकोण की अनुमति से कहीं अधिक हो सकता है। इनमें से कई दृष्टिकोण ऑनलाइन विश्लेषणात्मक प्रसंस्करण, या ओएलएपी की अवधारणा पर आधारित हैं, और टेक्स्ट क्यूब्स जैसे डेटा प्रतिरूप द्वारा समर्थित हो सकते हैं। [15] एक बार जब डॉक्यूमेंट मेटाडेटा डेटा प्रतिरूप के माध्यम से उपलब्ध हो जाता है, तो डॉक्यूमेंट के उपसम्मुच्चय (यानी, टेक्स्ट क्यूब के भीतर कोशिकाएं) का सारांश उत्पन्न करना वाक्यांश-आधारित दृष्टिकोण के साथ किया जा सकता है। [16]


चिकित्सा और जैव चिकित्सा अनुसंधान में दृष्टिकोण

जैव चिकित्सा अनुसंधान असंरचित डेटा का एक प्रमुख स्रोत उत्पन्न करता है क्योंकि शोधकर्ता प्रायः विद्वान पत्रिकाओं में अपने निष्कर्ष प्रकाशित करते हैं। यद्यपि इन दस्तावेजों में भाषा से संरचनात्मक तत्वों को प्राप्त करना चुनौतीपूर्ण है (उदाहरण के लिए, इसमें उपस्थित जटिल तकनीकी शब्दावली और टिप्पणियों को पूरी तरह से प्रासंगिक बनाने के लिए आवश्यक कार्यछेत्र ज्ञान के कारण), इन गतिविधियों के परिणाम तकनीकी और चिकित्सा अध्ययनों के बीच संबंध और नए रोग उपचारों के संबंध में प्रमाण उत्पन्न कर सकते हैं। [17] [18] जैव चिकित्सा डॉक्यूमेंट पर संरचना लागू करने के हालिया प्रयासों में डॉक्यूमेंट के बीच विषयों की पहचान करने के लिए स्व-संगठित मानचित्र दृष्टिकोण सम्मिलित हैं, [19] सामान्य प्रयोजन अप्रशिक्षित शिक्षा, [20] और साहित्य में प्रोटीन नामों और हृदय रोग विषयों के बीच संबंध निर्धारित करने के लिए केसओएलएपी वर्कफ़्लो का एक अनुप्रयोग है।[16] [21] केसओएलएपी वाक्यांश-श्रेणी संबंधों को सटीक (रिश्तों की पहचान करता है), सुसंगत (अत्यधिक प्रतिलिपि प्रस्तुत करने योग्य) और कुशल तरीके से परिभाषित करता है। यह प्लेटफ़ॉर्म उन्नत पहुंच प्रदान करता है और व्यापक जैव चिकित्सा अनुसंधान अनुप्रयोगों के लिए वाक्यांश-खनन उपकरणों के साथ जैव चिकित्सा समुदाय को सशक्त बनाता है। [21]


डेटा गोपनीयता नियमों में असंरचित का उपयोग

स्वीडन (ईयू) में, 2018 से पहले, कुछ डेटा गोपनीयता नियम लागू नहीं होते थे यदि प्रश्न में डेटा को असंरचित के रूप में पुष्टि की गई थी। [22] यह शब्दावली, असंरचित डेटा, 2018 में जीडीपीआर लागू होने के बाद यूरोपीय संघ में संभवतः ही कभी उपयोग की जाती है। जीडीपीआर असंरचित डेटा का न तो उल्लेख करता है और न ही उसे परिभाषित करता है। यह संरचित शब्द का उपयोग इस प्रकार करता है (इसे परिभाषित किए बिना);

  • जीडीपीआर रिसिटल 15 के भाग, प्राकृतिक व्यक्तियों की सुरक्षा व्यक्तिगत डेटा के प्रसंस्करण पर लागू होनी चाहिए ... यदि ... एक फाइलिंग सिस्टम में निहित है।
  • जीडीपीआर अनुच्छेद 4, 'फाइलिंग सिस्टम' का अर्थ व्यक्तिगत डेटा का कोई भी संरचित सम्मुच्चय है जो विशिष्ट मानदंडों के अनुसार पहुंच योग्य है ...

फाइलिंग सिस्टम को क्या परिभाषित करता है उस पर जीडीपीआर केस-कानून; विशिष्ट मानदंड और विशिष्ट रूप जिसमें उपदेश देने वाले प्रत्येक सदस्य द्वारा एकत्र किए गए व्यक्तिगत डेटा का सम्मुच्चय वास्तव में संरचित है, अप्रासंगिक है, जब तक कि डेटा का वह सम्मुच्चय किसी विशिष्ट व्यक्ति से संबंधित डेटा के लिए इसे संभव बनाता है जिसके पास है आसानी से पुनर्प्राप्त करने के लिए संपर्क किया गया है, हालांकि मुख्य कार्यवाही में मामले की सभी परिस्थितियों के आलोक में यह पता लगाना संबंधित अदालत का काम है। (कोर्ट_ऑफ_जस्टिस_ऑफ_द_यूरोपियन_यूनियन, टोडिस्टाजट बनाम टिएटोसुओजावल्टुटेट्टू, जेहोवन, पैराग्राफ 61)।

यदि व्यक्तिगत डेटा आसानी से पुनर्प्राप्त किया जाता है - तो यह एक फाइलिंग सिस्टम है और - फिर यह संरचित या असंरचित होने की परवाह किए बिना जीडीपीआर के दायरे में है। आज अधिकांश इलेक्ट्रॉनिक सिस्टम, एक्सेस और एप्लाइड सॉफ़्टवेयर के अधीन, डेटा की आसान पुनर्प्राप्ति की अनुमति दे सकते हैं।

यह भी देखें

टिप्पणियाँ

  1. ^ Today's Challenge in Government: What to do with Unstructured Information and Why Doing Nothing Isn't An Option, Noel Yuhanna, Principal Analyst, Forrester Research, Nov 2010


संदर्भ

  1. Shilakes, Christopher C.; Tylman, Julie (16 Nov 1998). "उद्यम सूचना पोर्टल" (PDF). Merrill Lynch. Archived from the original (PDF) on 24 July 2011.
  2. Grimes, Seth (1 August 2008). "Unstructured Data and the 80 Percent Rule". Breakthrough Analysis - Bridgepoints. Clarabridge.
  3. Gandomi, Amir; Haider, Murtaza (April 2015). "Beyond the hype: Big data concepts, methods, and analytics". International Journal of Information Management. 35 (2): 137–144. doi:10.1016/j.ijinfomgt.2014.10.007. ISSN 0268-4012.
  4. "सबसे बड़ी डेटा चुनौतियाँ जिनके बारे में आपको शायद पता भी न हो - वॉटसन". Watson (in English). 2016-05-25. Retrieved 2018-10-02.
  5. "संरचित बनाम असंरचित डेटा". www.datamation.com (in English). Retrieved 2018-10-02.
  6. "EMC News Press Release: New Digital Universe Study Reveals Big Data Gap: Less Than 1% of World's Data is Analyzed; Less Than 20% is Protected". www.emc.com. EMC Corporation. December 2012.
  7. "Trends | Seagate US". Seagate.com (in English). Retrieved 2018-10-01.
  8. 8.0 8.1 Grimes, Seth. "टेक्स्ट एनालिटिक्स का संक्षिप्त इतिहास". B Eye Network. Retrieved June 24, 2016.
  9. Albright, Russ. "एसवीडी के साथ पाठ को नियंत्रित करना" (PDF). SAS. Archived from the original (PDF) on 2016-09-30. Retrieved June 24, 2016.
  10. Desai, Manish (2009-08-09). "टेक्स्ट एनालिटिक्स के अनुप्रयोग". My Business Analytics @ Blogspot. Retrieved June 24, 2016.
  11. Chakraborty, Goutam. "Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining" (PDF). SAS. Retrieved June 24, 2016.
  12. Holzinger, Andreas; Stocker, Christof; Ofner, Bernhard; Prohaska, Gottfried; Brabenetz, Alberto; Hofmann-Wellenhof, Rainer (2013). "Combining HCI, Natural Language Processing, and Knowledge Discovery – Potential of IBM Content Analytics as an Assistive Technology in the Biomedical Field". In Holzinger, Andreas; Pasi, Gabriella (eds.). जटिल, असंरचित, बड़े डेटा में मानव-कंप्यूटर इंटरैक्शन और ज्ञान की खोज. Lecture Notes in Computer Science. Springer. pp. 13–24. doi:10.1007/978-3-642-39146-0_2. ISBN 978-3-642-39146-0. S2CID 39461100.
  13. "Structure, Models and Meaning: Is "unstructured" data merely unmodeled?". InformationWeek (in English). March 1, 2005.
  14. Malone, Robert (April 5, 2007). "असंरचित डेटा की संरचना करना". Forbes (in English).
  15. Lin, Cindy Xide; Ding, Bolin; Han, Jiawei; Zhu, Feida; Zhao, Bo (December 2008). Text Cube: Computing IR Measures for Multidimensional Text Database Analysis. CiteSeerX 10.1.1.215.3177. doi:10.1109/icdm.2008.135. ISBN 9780769535029. S2CID 1522480. {{cite book}}: |journal= ignored (help)
  16. 16.0 16.1 Tao, Fangbo; Zhuang, Honglei; Yu, Chi Wang; Wang, Qi; Cassidy, Taylor; Kaplan, Lance; Voss, Clare; Han, Jiawei (2016). "टेक्स्ट क्यूब्स में बहु-आयामी, वाक्यांश-आधारित सारांश" (PDF).
  17. Collier, Nigel; Nazarenko, Adeline; Baud, Robert; Ruch, Patrick (June 2006). "बायोमेडिकल अनुप्रयोगों के लिए प्राकृतिक भाषा प्रसंस्करण में हालिया प्रगति". International Journal of Medical Informatics. 75 (6): 413–417. doi:10.1016/j.ijmedinf.2005.06.008. ISSN 1386-5056. PMID 16139564. S2CID 31449783.
  18. Gonzalez, Graciela H.; Tahsin, Tasnia; Goodale, Britton C.; Greene, Anna C.; Greene, Casey S. (January 2016). "बायोमेडिकल डिस्कवरी के लिए टेक्स्ट और डेटा माइनिंग में हालिया प्रगति और उभरते अनुप्रयोग". Briefings in Bioinformatics. 17 (1): 33–42. doi:10.1093/bib/bbv087. ISSN 1477-4054. PMC 4719073. PMID 26420781.
  19. Skupin, André; Biberstine, Joseph R.; Börner, Katy (2013). "Visualizing the topical structure of the medical sciences: a self-organizing map approach". PLOS ONE. 8 (3): e58779. Bibcode:2013PLoSO...858779S. doi:10.1371/journal.pone.0058779. ISSN 1932-6203. PMC 3595294. PMID 23554924.
  20. Kiela, Douwe; Guo, Yufan; Stenius, Ulla; Korhonen, Anna (2015-04-01). "बायोमेडिकल दस्तावेज़ों में सूचना संरचना की अनियंत्रित खोज". Bioinformatics. 31 (7): 1084–1092. doi:10.1093/bioinformatics/btu758. ISSN 1367-4811. PMID 25411329.
  21. 21.0 21.1 Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (Oct 1, 2018). "हृदय रोग में बाह्य कोशिकीय मैट्रिक्स प्रोटीन पैटर्न का विश्लेषण करने के लिए पाठ्य डेटा का वाक्यांश खनन". American Journal of Physiology. Heart and Circulatory Physiology. 315 (4): H910–H924. doi:10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406.
  22. "Swedish data privacy regulations discontinue separation of "unstructured" and "structured"".


बाहरी संबंध