डेटा प्री-प्रोसेसिंग

From Vigyanwiki

डेटा प्रीप्रोसेसिंग प्रदर्शन को सुनिश्चित करने या बढ़ाने के लिए उपयोग किए जाने से पहले डेटा में हेरफेर या छोड़ने का उल्लेख कर सकता है,[1] और डेटा माइनिंग प्रक्रिया में एक महत्वपूर्ण कदम है। वाक्यांश "कचरा अंदर, कचरा बाहर" विशेष रूप से डेटा माइनिंग और मशीन लर्निंग की परियोजनाओं पर लागू होता है। डेटा-इकट्ठा करने के तरीकों को अक्सर ढीले ढंग से नियंत्रित किया जाता है, जिसके परिणामस्वरूप आउट-ऑफ़-रेंज मान (जैसे, आय: -100), असंभव डेटा संयोजन (जैसे, लिंग: पुरुष, गर्भवती: हाँ), और अनुपलब्ध मान आदि।

इस तरह की समस्याओं के लिए सावधानी से छानबीन नहीं किए गए डेटा का विश्लेषण करने से भ्रामक परिणाम उत्पन्न हो सकते हैं। इस प्रकार, कोई भी विश्लेषण चलाने से पहले डेटा का प्रतिनिधित्व और गुणवत्ता सबसे पहले और सबसे महत्वपूर्ण है।[2] अक्सर, डेटा प्रीप्रोसेसिंग मशीन लर्निंग प्रोजेक्ट का सबसे महत्वपूर्ण चरण होता है, विशेष रूप से कम्प्यूटेशनल बायोलॉजी में।[3] यदि बहुत अधिक अप्रासंगिक और निरर्थक जानकारी मौजूद है या शोरगुल और अविश्वसनीय डेटा है, तो प्रशिक्षण चरण के दौरान ज्ञान की खोज करना अधिक कठिन होता है। डेटा तैयार करने और फ़िल्टर करने के चरणों में काफी मात्रा में संसाधन समय लग सकता है। डेटा प्रीप्रोसेसिंग के उदाहरणों में डेटा की सफाई, उदाहरण चयन, डेटा सामान्यीकरण, वन-हॉट, डेटा परिवर्तन, सुविधा निकासी और फीचर चयन आदि शामिल हैं। डेटा प्रीप्रोसेसिंग का उत्पाद अंतिम प्रशिक्षण सेट है।

डेटा प्रीप्रोसेसिंग उस तरीके को प्रभावित कर सकता है जिसमें अंतिम डेटा प्रोसेसिंग के परिणामों की व्याख्या की जा सकती है।[4] इस पहलू पर सावधानीपूर्वक विचार किया जाना चाहिए जब परिणामों की व्याख्या एक महत्वपूर्ण बिंदु हो, जैसे कि (रसायन विज्ञान) के बहुविविध प्रसंस्करण में।

डेटा प्रीप्रोसेसिंग के कार्य

उदाहरण

इस उदाहरण में हमारे पास हमारे डेटासेट में 5 वयस्क हैं जिनके पास पुरुष या महिला का लिंग है और चाहे वे गर्भवती हों या नहीं। हम पता लगा सकते हैं कि वयस्क 3 और 5 असंभव डेटा संयोजन हैं।

Sex Pregnant
Adult
1 Male No
2 Female Yes
3 Male Yes
4 Female No
5 Male Yes

हम डेटा की सफाई कर सकते हैं और इस तरह के डेटा को अपनी टेबल से हटाना चुन सकते हैं। हम ऐसे डेटा को हटा देते हैं क्योंकि हम यह निर्धारित कर सकते हैं कि डेटासेट में मौजूद ऐसा डेटा उपयोगकर्ता प्रविष्टि त्रुटियों या डेटा दूषित होने के कारण होता है। इस तरह के डेटा को हटाने का एक कारण यह हो सकता है कि असंभव डेटा डेटा खनन प्रक्रिया के बाद के चरणों में गणना या डेटा  के कार्यसाधन प्रक्रिया को प्रभावित करेगा।

| |- |

Sex Pregnant
Adult
1 Male No
2 Female Yes
4 Female No

| |} हम एक डेटा संपादन कर सकते हैं और यह जानकर कि वयस्क गर्भवती है, हम वयस्क के लिंग को बदल सकते हैं, हम यह अनुमान लगा सकते हैं कि वयस्क महिला है और तदनुसार परिवर्तन कर सकते हैं। डेटा खनन प्रक्रिया के भीतर बाद के चरणों में डेटा हेरफेर करते समय डेटा का स्पष्ट विश्लेषण करने के लिए हम डेटासेट को संपादित करते हैं।

| |- |

Sex Pregnant
Adult
1 Male No
2 Female Yes
3 Female Yes
4 Female No
5 Female Yes

| |} हम डेटा कटौती के एक रूप का उपयोग कर सकते हैं और सेक्स द्वारा डेटा को सॉर्ट कर सकते हैं और ऐसा करके हम अपने डेटासेट को सरल बना सकते हैं और चुन सकते हैं कि हम किस सेक्स पर अधिक ध्यान केंद्रित करना चाहते हैं।

| |- |

Sex Pregnant
Adult
2 Female Yes
4 Female No
1 Male No
3 Male Yes
5 Male Yes

| |}

डाटा माइनिंग

डेटा प्रीप्रोसेसिंग की उत्पत्ति डेटा माइनिंग में स्थित है।[citation needed] विचार मौजूदा जानकारी और सामग्री में खोज को एकत्र करना है। बाद में यह माना गया कि मशीन लर्निंग और न्यूरल नेटवर्क के लिए डेटा प्रीप्रोसेसिंग चरण की भी आवश्यकता होती है। तो यह एक सार्वभौमिक तकनीक बन गई है जिसका उपयोग सामान्य रूप से कंप्यूटिंग में किया जाता है।

डेटा प्रीप्रोसेसिंग डेटा सफाई के उपयोग के साथ अवांछित डेटा को हटाने की अनुमति देता है, यह उपयोगकर्ता को डेटा माइनिंग प्रक्रिया में बाद में डेटा हेरफेर के लिए प्रीप्रोसेसिंग चरण के बाद अधिक मूल्यवान जानकारी रखने के लिए डेटासेट रखने की अनुमति देता है। डेटा भ्रष्टाचार या मानवीय त्रुटि को सही करने के लिए इस तरह के डेटासेट को संपादित करना एक भ्रम मैट्रिक्स में पाए जाने वाले वास्तविक सकारात्मक, सच्चे नकारात्मक, झूठे सकारात्मक और झूठे नकारात्मक जैसे सटीक परिमाणक प्राप्त करने के लिए एक महत्वपूर्ण कदम है जो आमतौर पर एक चिकित्सा निदान के लिए उपयोग किया जाता है। उपयोगकर्ता डेटा फ़ाइलों को एक साथ जोड़ने में सक्षम हैं और डेटा से किसी भी अनावश्यक शोर को फ़िल्टर करने के लिए प्रीप्रोसेसिंग का उपयोग करते हैं जो उच्च सटीकता की अनुमति दे सकता है। उपयोगकर्ता पांडा लाइब्रेरी के साथ पायथन प्रोग्रामिंग स्क्रिप्ट का उपयोग करते हैं जो उन्हें कॉमा से अलग किए गए मानों से डेटा-फ़्रेम के रूप में डेटा आयात करने की क्षमता देता है। डेटा-फ़्रेम का उपयोग तब डेटा में हेरफेर करने के लिए किया जाता है जो अन्यथा एक्सेल में करना चुनौतीपूर्ण हो सकता है। पांडा (सॉफ्टवेयर) जो एक शक्तिशाली उपकरण है जो डेटा विश्लेषण और हेरफेर की अनुमति देता है; जो डेटा विज़ुअलाइज़ेशन, सांख्यिकीय संचालन और बहुत कुछ आसान बनाता है। कई लोग ऐसे कार्यों को करने के लिए भी R (प्रोग्रामिंग भाषा) का उपयोग करते हैं।

एक उपयोगकर्ता मौजूदा फ़ाइलों को एक नए में बदलने का कारण कई कारणों से है। डेटा प्रीप्रोसेसिंग का उद्देश्य लापता मूल्यों को जोड़ना, कुल जानकारी, श्रेणियों के साथ लेबल डेटा (डेटा बिनिंग) और एक प्रक्षेपवक्र को सुचारू करना है।[citation needed] प्रिंसिपल कंपोनेंट एनालिसिस और फीचर सेलेक्शन जैसी अधिक उन्नत तकनीकें सांख्यिकीय सूत्रों के साथ काम कर रही हैं और जटिल डेटासेट पर लागू होती हैं जो जीपीएस ट्रैकर्स और मोशन कैप्चर डिवाइस द्वारा रिकॉर्ड किए जाते हैं।

सिमेंटिक डेटा प्रीप्रोसेसिंग

सिमेंटिक डेटा माइनिंग डेटा माइनिंग का एक सबसेट है जो विशेष रूप से डेटा माइनिंग प्रक्रिया में औपचारिक शब्दार्थ जैसे डोमेन ज्ञान को शामिल करना चाहता है। डोमेन ज्ञान उस वातावरण का ज्ञान है जिसमें डेटा संसाधित किया गया था। डोमेन ज्ञान डेटा माइनिंग के कई पहलुओं पर सकारात्मक प्रभाव डाल सकता है, जैसे प्रीप्रोसेसिंग चरण के दौरान अनावश्यक या असंगत डेटा को फ़िल्टर करना।[5] डोमेन ज्ञान भी बाधा के रूप में काम करता है। यह डेटा के लिए एक गाइड के रूप में खोज और कार्य करने के लिए आवश्यक स्थान को कम करने के लिए पूर्व ज्ञान के सेट के रूप में काम करके ऐसा करता है। सीधे शब्दों में कहें तो सिमेंटिक प्रीप्रोसेसिंग उक्त डेटा के मूल वातावरण का अधिक सही और कुशलता से उपयोग करके डेटा को फ़िल्टर करना चाहता है।

ऐसी जटिल समस्याएं हैं जो मौजूदा जानकारी का बेहतर विश्लेषण करने के लिए अधिक विस्तृत तकनीकों द्वारा हल करने के लिए कह रही हैं। विभिन्न संख्यात्मक मानों को एक मान में एकत्र करने के लिए एक सरल स्क्रिप्ट बनाने के बजाय, सिमेंटिक आधारित डेटा प्रीप्रोसेसिंग पर ध्यान केंद्रित करना समझ में आता है।[6] विचार एक समर्पित ओन्टोलॉजी (सूचना विज्ञान) का निर्माण करना है, जो उच्च स्तर पर बताता है कि समस्या क्या है।[7] सिमेंटिक डेटा माइनिंग और सिमेंटिक प्री-प्रोसेसिंग के संबंध में, ऑन्कोलॉजी शब्दार्थ ज्ञान और डेटा को अवधारणात्मक और औपचारिक रूप से परिभाषित करने का एक तरीका है। प्रोटेग (सॉफ्टवेयर) एक ऑन्कोलॉजी के निर्माण के लिए मानक उपकरण है।[citation needed] सामान्य तौर पर, ऑन्कोलॉजी का उपयोग डेटा, एप्लिकेशन, एल्गोरिदम और सिमेंटिक बेमेल से उत्पन्न होने वाले परिणामों के बीच अंतराल को पाटता है। नतीजतन, ऑन्कोलॉजी के साथ सिमेंटिक डेटा माइनिंग के कई अनुप्रयोग हैं जहां सिमेंटिक अस्पष्टता डेटा सिस्टम की उपयोगिता और दक्षता को प्रभावित कर सकती है। अनुप्रयोगों में चिकित्सा क्षेत्र, भाषा प्रसंस्करण, बैंकिंग,[8] और ट्यूशन भी,[9] कई और के बीच।

सिमेंटिक डेटा माइनिंग और ऑन्कोलॉजिकल आधारित दृष्टिकोण का उपयोग करने की विभिन्न ताकतें हैं। जैसा कि पहले उल्लेख किया गया है, ये उपकरण प्रति-प्रसंस्करण चरण के दौरान डेटा सेट से गैर-वांछनीय डेटा को फ़िल्टर करके मदद कर सकते हैं। इसके अतिरिक्त, अच्छी तरह से डिज़ाइन किए गए ऑन्कोलॉजी में एकीकृत अच्छी तरह से संरचित औपचारिक शब्दार्थ शक्तिशाली डेटा लौटा सकते हैं जिन्हें मशीनों द्वारा आसानी से पढ़ा और संसाधित किया जा सकता है।[10] सिमेंटिक डेटा प्रोसेसिंग के चिकित्सा उपयोग में इसका एक विशेष रूप से उपयोगी उदाहरण मौजूद है। उदाहरण के तौर पर, एक मरीज को मेडिकल इमरजेंसी हो रही है और उसे अस्पताल ले जाया जा रहा है। आपातकालीन उत्तरदाता रोगी की मदद करने के लिए सबसे अच्छी दवा का पता लगाने की कोशिश कर रहे हैं। सामान्य डेटा प्रोसेसिंग के तहत, यह सुनिश्चित करने के लिए रोगी के सभी मेडिकल डेटा को खंगालना कि उन्हें सबसे अच्छा इलाज मिल रहा है, इसमें बहुत अधिक समय लग सकता है और रोगियों के स्वास्थ्य या यहाँ तक कि जीवन को जोखिम में डाल सकता है। हालांकि, सिमेंटिकली प्रोसेस्ड ऑन्कोलॉजी का उपयोग करते हुए, पहले उत्तरदाता रोगी के जीवन को बचा सकते हैं। सिमेंटिक रीजनर जैसे उपकरण ऑन्कोलॉजी (सूचना विज्ञान) का उपयोग यह पता लगाने के लिए कर सकते हैं कि रोगी को कौन सी सबसे अच्छी दवा दी जानी चाहिए, जो उनके चिकित्सा इतिहास पर आधारित है, जैसे कि यदि उन्हें कोई निश्चित कैंसर या अन्य स्थितियाँ हैं, तो बस उपयोग की जाने वाली प्राकृतिक भाषा की जाँच करके। रोगी का मेडिकल रिकॉर्ड।[11] यह पहले उत्तरदाताओं को रोगी के चिकित्सा इतिहास के बारे में चिंता किए बिना जल्दी और कुशलता से दवा की खोज करने की अनुमति देगा, क्योंकि सिमेंटिक रीजनर ने पहले ही इस डेटा का विश्लेषण कर लिया होगा और समाधान ढूंढ लिया होगा। सामान्य तौर पर, यह सिमेंटिक डेटा माइनिंग और ऑन्कोलॉजी का उपयोग करने की अविश्वसनीय ताकत को दर्शाता है। वे उपयोगकर्ता की ओर से त्वरित और अधिक कुशल डेटा निष्कर्षण की अनुमति देते हैं, क्योंकि उपयोगकर्ता के पास खाते के लिए कम चर होते हैं, क्योंकि डेटा के लिए बनाए गए शब्दार्थ पूर्व-संसाधित डेटा और ऑन्कोलॉजी ने इनमें से कई चरों के लिए पहले से ही हिसाब लगाया है। हालाँकि, इस दृष्टिकोण में कुछ कमियाँ हैं। अर्थात्, इसमें अपेक्षाकृत छोटे डेटा सेट के साथ भी उच्च मात्रा में कम्प्यूटेशनल शक्ति और जटिलता की आवश्यकता होती है।[12] इसके परिणामस्वरूप सिमेंटिक डेटा प्रोसेसिंग सिस्टम के निर्माण और रखरखाव में उच्च लागत और बढ़ी हुई कठिनाइयाँ हो सकती हैं। इसे कुछ हद तक कम किया जा सकता है यदि डेटा सेट पहले से ही व्यवस्थित और स्वरूपित है, लेकिन फिर भी, मानक डेटा प्रोसेसिंग की तुलना में जटिलता अभी भी अधिक है।

नीचे एक सरल आरेख है जो कुछ प्रक्रियाओं को जोड़ता है, विशेष रूप से सिमेंटिक डेटा माइनिंग और ऑन्कोलॉजी में उनका उपयोग।

सिंपल सिमेंटिक डेटा माइनिंग डायग्रामआरेख एक डेटा सेट को दो भागों में विभाजित होने का चित्रण करता है: इसके डोमेन की विशेषताएँ, या डोमेन ज्ञान, और फिर वास्तविक अधिग्रहीत डेटा। डोमेन विशेषताओं को तब उपयोगकर्ता द्वारा समझा जाने वाला डोमेन ज्ञान बनने के लिए संसाधित किया जाता है जिसे डेटा पर लागू किया जा सकता है। इस बीच, डेटा सेट को संसाधित और संग्रहीत किया जाता है ताकि डोमेन ज्ञान उस पर लागू हो सके, ताकि प्रक्रिया जारी रह सके। यह एप्लिकेशन ऑन्कोलॉजी बनाता है। वहां से, ऑन्कोलॉजी का उपयोग डेटा और प्रक्रिया के परिणामों का विश्लेषण करने के लिए किया जा सकता है।

फ़ज़ी प्रीप्रोसेसिंग जटिल समस्याओं को हल करने के लिए एक और अधिक उन्नत तकनीक है। फ़ज़ी प्रीप्रोसेसिंग और फ़ज़ी डेटा माइनिंग फजी सेट का उपयोग करते हैं। ये डेटा सेट दो तत्वों से बने होते हैं: एक सेट और सेट के लिए एक सदस्यता फ़ंक्शन जिसमें 0 और 1 शामिल होते हैं। फ़ज़ी प्रीप्रोसेसिंग इस फ़ज़ी डेटा सेट का उपयोग भाषाई जानकारी के साथ संख्यात्मक मानों को आधार बनाने के लिए करता है। कच्चे डेटा को तब प्राकृतिक भाषा में रूपांतरित किया जाता है। अंततः, फ़ज़ी डेटा माइनिंग का लक्ष्य अपूर्ण डेटाबेस जैसी अचूक जानकारी से निपटने में मदद करना है। वर्तमान में फ़ज़ी प्रीप्रोसेसिंग, साथ ही अन्य फ़ज़ी आधारित डेटा माइनिंग तकनीकों का तंत्रिका नेटवर्क और कृत्रिम बुद्धिमत्ता के साथ लगातार उपयोग होता है।[13]


संदर्भ

  1. "गाइड टू डेटा क्लीनिंग: डेफिनिशन, बेनिफिट्स, कंपोनेंट्स, एंड हाउ टू क्लीन योर डेटा". Tableau (in English). Retrieved 2021-10-17.
  2. Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California.
  3. Chicco D (December 2017). "कम्प्यूटेशनल बायोलॉजी में मशीन लर्निंग के लिए दस त्वरित सुझाव". BioData Mining. 10 (35): 35. doi:10.1186/s13040-017-0155-3. PMC 5721660. PMID 29234465.
  4. Oliveri, Paolo; Malegori, Cristina; Simonetti, Remo; Casale, Monica (2019). "विश्लेषणात्मक परिणामों की अंतिम व्याख्या पर सिग्नल प्रीप्रोसेसिंग का प्रभाव - एक ट्यूटोरियल". Analytica Chimica Acta (in English). 1058: 9–17. doi:10.1016/j.aca.2018.10.055. PMID 30851858. S2CID 73727614.
  5. Dou, Deijing and Wang, Hao and Liu, Haishan. "सिमेंटिक डेटा माइनिंग: ए सर्वे ऑफ़ ओन्टोलॉजी-आधारित दृष्टिकोण" (PDF) (in English). University of Oregon.{{cite web}}: CS1 maint: multiple names: authors list (link)
  6. Culmone, Rosario and Falcioni, Marco and Quadrini, Michela (2014). मानव गतिविधि मान्यता के उद्देश्य से सिमेंटिक डेटा प्रीप्रोसेसिंग के लिए एक ऑन्कोलॉजी-आधारित ढांचा. SEMAPRO 2014: The Eighth International Conference on Advances in Semantic Processing. Alexey Cheptsov, High Performance Computing Center Stuttgart (HLRS). S2CID 196091422.{{cite conference}}: CS1 maint: multiple names: authors list (link)
  7. David Perez-Rey and Alberto Anguita and Jose Crespo (2006). OntoDataClean: ओन्टोलॉजी-आधारित एकीकरण और वितरित डेटा का प्रीप्रोसेसिंग. Biological and Medical Data Analysis. Springer Berlin Heidelberg. pp. 262–272. doi:10.1007/11946465_24.
  8. Yerashenia, Natalia and Bolotov, Alexander and Chan, David and Pierantoni, Gabriele (2020). "Semantic Data Pre-Processing for Machine Learning Based Bankruptcy Prediction Computational Model". 2020 IEEE 22वां व्यावसायिक सूचना विज्ञान सम्मेलन (CBI) (PDF). IEEE. pp. 66–75. doi:10.1109/CBI49978.2020.00015. ISBN 978-1-7281-9926-9. S2CID 219499599.{{cite book}}: CS1 maint: multiple names: authors list (link)
  9. Chang, Maiga and D'Aniello, Giuseppe and Gaeta, Matteo and Orciuoli, Franceso and Sampson, Demetrois and Simonelli, Carmine (2020). "डेटा माइनिंग का उपयोग करके इंटेलिजेंट ट्यूटरिंग सिस्टम के लिए ओन्टोलॉजी-संचालित ट्यूटरिंग मॉडल का निर्माण". IEEE Access. IEEE. 8: 48151–48162. doi:10.1109/ACCESS.2020.2979281. S2CID 214594754.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  10. Dou, Deijing and Wang, Hao and Liu, Haishan. "सिमेंटिक डेटा माइनिंग: ए सर्वे ऑफ़ ओन्टोलॉजी-आधारित दृष्टिकोण" (PDF) (in English). University of Oregon.{{cite web}}: CS1 maint: multiple names: authors list (link)
  11. Kahn, Atif and Doucette, John A. and Jin, Changjiu and Fu Lijie and Cohen, Robin. "आपातकालीन चिकित्सा के लिए डेटा माइनिंग के लिए एक ऑन्कोलॉजिकल दृष्टिकोण" (PDF). University of Waterloo.{{cite web}}: CS1 maint: multiple names: authors list (link)
  12. Sirichanya, Chanmee and Kraisak Kesorn (2021). "सूचना युग में सिमेंटिक डेटा माइनिंग: एक व्यवस्थित समीक्षा". International Journal of Intelligent Systems (in English). 36 (8): 3880–3916. doi:10.1002/int.22443. S2CID 235506360.
  13. Wong, Kok Wai and Fung, Chun Che and Law, Kok Way (2000). "Fuzzy preprocessing rules for the improvement of an artificial neural network well log interpretation model". 2000 टेनकॉन कार्यवाही। न्यू मिलेनियम के लिए इंटेलिजेंट सिस्टम्स और टेक्नोलॉजीज (श्रेणी संख्या 00CH37119) (in English). Vol. 1. IEEE. pp. 400–405. doi:10.1109/TENCON.2000.893697. ISBN 0-7803-6355-8. S2CID 10384426.{{cite book}}: CS1 maint: multiple names: authors list (link)


इस पेज में लापता आंतरिक लिंक की सूची

  • आधार सामग्री की गुणवत्ता
  • लापता मूल्य
  • आंकड़ा संग्रहण
  • एक-गर्म
  • डेटा तैयारी
  • झूठी सकारात्मक और झूठी नकारात्मक
  • अल्पविराम से अलग किये गए मान
  • असमंजस का जाल
  • आर (प्रोग्रामिंग भाषा)
  • सत्तामीमांसा (सूचना विज्ञान)

बाहरी संबंध