डेटा प्री-प्रोसेसिंग: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(9 intermediate revisions by 3 users not shown)
Line 1: Line 1:
डेटा प्रीप्रोसेसिंग प्रदर्शन को सुनिश्चित करने या बढ़ाने के लिए उपयोग किए जाने से पहले डेटा में हेरफेर या छोड़ने का उल्लेख कर सकता है,<ref>{{Cite web|title=गाइड टू डेटा क्लीनिंग: डेफिनिशन, बेनिफिट्स, कंपोनेंट्स, एंड हाउ टू क्लीन योर डेटा|url=https://www.tableau.com/learn/articles/what-is-data-cleaning|access-date=2021-10-17|website=Tableau|language=en-US}}</ref> और डेटा माइनिंग प्रक्रिया में एक महत्वपूर्ण कदम है। वाक्यांश "कचरा अंदर, कचरा बाहर" विशेष रूप से [[डेटा माइनिंग]] और [[मशीन लर्निंग]] की परियोजनाओं पर लागू होता है। डेटा-इकट्ठा करने के तरीकों को अक्सर ढीले ढंग से नियंत्रित किया जाता है, जिसके परिणामस्वरूप आउट-ऑफ़-रेंज मान (जैसे, आय: -100), असंभव डेटा संयोजन (जैसे, लिंग: पुरुष, गर्भवती: हाँ), और अनुपलब्ध मान आदि।
डेटा पूर्व-प्रसंस्करण प्रदर्शन को सुनिश्चित करने या बढ़ाने के लिए उपयोग किए जाने से पहले डेटा में परिवर्तन या पतन का उल्लेख कर सकता है,<ref>{{Cite web|title=गाइड टू डेटा क्लीनिंग: डेफिनिशन, बेनिफिट्स, कंपोनेंट्स, एंड हाउ टू क्लीन योर डेटा|url=https://www.tableau.com/learn/articles/what-is-data-cleaning|access-date=2021-10-17|website=Tableau|language=en-US}}</ref> जो डेटा माइनिंग प्रक्रिया में एक महत्वपूर्ण कदम है। वाक्यांश "कचरा अंदर, कचरा बाहर" विशेष रूप से [[डेटा माइनिंग]] और [[मशीन लर्निंग|मशीन विद्वता]] की परियोजनाओं पर लागू होता है। डेटा-इकट्ठा करने के तरीकों को प्रायः सामान्य तरीकों से नियंत्रित किया जाता है, जिसके परिणामस्वरूप आउट-ऑफ़-रेंज मान(जैसे, आय: -100), असंभव डेटा संयोजन(जैसे, लिंग: पुरुष, गर्भवती: हाँ), और अनुपलब्ध मान आदि।


ऐसी समस्याओं के लिए सावधानी से जांच नहीं किए गए डेटा का विश्लेषण करने से भ्रामक परिणाम उत्पन्न हो सकते हैं। इस प्रकार, किसी भी विश्लेषण को चलाने से पहले प्रतिनिधित्व और डेटा की गुणवत्ता सबसे पहले और सबसे महत्वपूर्ण है।<ref>Pyle, D., 1999. ''Data Preparation for Data Mining.'' Morgan Kaufmann Publishers, [[Los Altos, California]].</ref> अक्सर, डेटा प्रीप्रोसेसिंग मशीन लर्निंग प्रोजेक्ट का सबसे महत्वपूर्ण चरण होता है, विशेष रूप से [[कम्प्यूटेशनल बायोलॉजी]] में।<ref>{{cite journal  
इस तरह की समस्याओं के लिए सावधानी से परीक्षण नहीं किए गए जिससे डेटा का विश्लेषण करने से भ्रामक परिणाम उत्पन्न हो सकते हैं। इस प्रकार, कोई भी विश्लेषण चलाने से पहले डेटा का प्रतिनिधित्व और गुणवत्ता सबसे पहले और सबसे महत्वपूर्ण है।<ref>Pyle, D., 1999. ''Data Preparation for Data Mining.'' Morgan Kaufmann Publishers, [[Los Altos, California]].</ref> प्रायः, डेटा पूर्व-प्रसंस्करण मशीन विद्वता प्रोजेक्ट का सबसे महत्वपूर्ण चरण होता है, विशेष रूप से [[कम्प्यूटेशनल बायोलॉजी]] में।<ref>{{cite journal  
| vauthors = Chicco D
| vauthors = Chicco D
| title = कम्प्यूटेशनल बायोलॉजी में मशीन लर्निंग के लिए दस त्वरित सुझाव| journal = BioData Mining
| title = कम्प्यूटेशनल बायोलॉजी में मशीन लर्निंग के लिए दस त्वरित सुझाव| journal = BioData Mining
Line 10: Line 10:
| pmid = 29234465
| pmid = 29234465
| doi = 10.1186/s13040-017-0155-3
| doi = 10.1186/s13040-017-0155-3
| pmc= 5721660}}</ref> यदि बहुत अधिक अप्रासंगिक और निरर्थक जानकारी मौजूद है या शोरगुल और अविश्वसनीय डेटा है, तो प्रशिक्षण चरण के दौरान [[ज्ञान की खोज]] अधिक कठिन है। डेटा तैयार करने और फ़िल्टर करने के चरणों में काफी मात्रा में संसाधन समय लग सकता है। डेटा प्रीप्रोसेसिंग के उदाहरणों में [[डेटा की सफाई]], [[उदाहरण चयन]], [[डेटा सामान्यीकरण]], वन-हॉट, [[डेटा परिवर्तन]], [[सुविधा निकासी]] और [[फीचर चयन]] आदि शामिल हैं। डेटा प्रीप्रोसेसिंग का उत्पाद अंतिम [[प्रशिक्षण सेट]] है।
| pmc= 5721660}}</ref> यदि बहुत अधिक अप्रासंगिक और निरर्थक जानकारी उपलब्ध है या विस्तृत और अविश्वसनीय डेटा है, तो प्रशिक्षण चरण के दौरान [[ज्ञान की खोज]] करना अधिक कठिन होता है। डेटा तैयार करने और फ़िल्टर करने के चरणों में काफी मात्रा में संसाधन समय लग सकता है। डेटा पूर्व-प्रसंस्करण के उदाहरणों में [[डेटा की सफाई|डेटा अपमार्जन]], [[उदाहरण चयन]], [[डेटा सामान्यीकरण]], वन-हॉट, [[डेटा परिवर्तन]], [[सुविधा निकासी]] और [[फीचर चयन]] आदि सम्मिलित हैं। डेटा पूर्व-प्रसंस्करण का उत्पाद अंतिम [[प्रशिक्षण सेट|प्रशिक्षण वर्ग]] है।


डेटा प्रीप्रोसेसिंग उस तरीके को प्रभावित कर सकता है जिसमें अंतिम डेटा प्रोसेसिंग के परिणामों की व्याख्या की जा सकती है।<ref>{{Cite journal|last1=Oliveri|first1=Paolo|last2=Malegori|first2=Cristina|last3=Simonetti|first3=Remo|last4=Casale|first4=Monica|date=2019|title=विश्लेषणात्मक परिणामों की अंतिम व्याख्या पर सिग्नल प्रीप्रोसेसिंग का प्रभाव - एक ट्यूटोरियल|journal=Analytica Chimica Acta|language=en|volume=1058|pages=9–17|doi=10.1016/j.aca.2018.10.055|pmid=30851858|s2cid=73727614}}</ref> इस पहलू पर सावधानी से विचार किया जाना चाहिए जब परिणामों की व्याख्या एक महत्वपूर्ण बिंदु है, जैसे कि रासायनिक डेटा ([[रसायन विज्ञान]]) के बहुभिन्नरूपी प्रसंस्करण में।
डेटा पूर्व-प्रसंस्करण उस तरीके को प्रभावित कर सकता है जिसमें अंतिम डेटा प्रोसेसिंग के परिणामों की व्याख्या की जा सकती है।<ref>{{Cite journal|last1=Oliveri|first1=Paolo|last2=Malegori|first2=Cristina|last3=Simonetti|first3=Remo|last4=Casale|first4=Monica|date=2019|title=विश्लेषणात्मक परिणामों की अंतिम व्याख्या पर सिग्नल प्रीप्रोसेसिंग का प्रभाव - एक ट्यूटोरियल|journal=Analytica Chimica Acta|language=en|volume=1058|pages=9–17|doi=10.1016/j.aca.2018.10.055|pmid=30851858|s2cid=73727614}}</ref> इस पहलू पर सावधानीपूर्वक विचार किया जाना चाहिए जब परिणामों की व्याख्या एक महत्वपूर्ण बिंदु हो, जैसे कि([[रसायन विज्ञान]]) के बहुविविध प्रसंस्करण में।


== डेटा प्रीप्रोसेसिंग के कार्य ==
== डेटा पूर्व-प्रसंस्करण के कार्य ==
*[[डेटा सफाई]]
*[[डेटा सफाई|डेटा अपमार्जन]]
* [[डेटा संपादन]]
* [[डेटा संपादन]]
* [[डेटा में कमी]]
* [[डेटा में कमी]]
* [[डेटा तकरार]]
* [[डेटा तकरार|डेटा संक्षेपण]]


== उदाहरण ==
== उदाहरण ==
इस उदाहरण में हमारे डेटासेट में 5 वयस्क हैं जिनके पास पुरुष या महिला का लिंग है और वे गर्भवती हैं या नहीं। हम पता लगा सकते हैं कि वयस्क 3 और 5 असंभव डेटा संयोजन हैं।
इस उदाहरण में हमारे पास हमारे डेटा वर्ग में 5 वयस्क हैं जो पुरुष या महिला है और चाहे वे गर्भवती हों या नहीं। हम पता लगा सकते हैं कि वयस्क 3 और 5 असंभव डेटा संयोजन हैं।
{|
{|
|-
|-
Line 29: Line 29:
!colspan="2" style="background:none;"|
!colspan="2" style="background:none;"|
|-
|-
!Sex
!लिंग
!Pregnant
!गर्भवती
|-
|-
!rowspan="5" style="height:6em;background:none;"|<div>Adult </div>
!rowspan="5" style="height:6em;background:none;"|<div>व्यस्क </div>
!1
!1
|Male
|पुरुष
|No
|नहीं
|-
|-
!2
!2
|Female
|महिला
|Yes
|हाँ
|-
|-
!<span style="color:red">3</span>
!<span style="color:red">3</span>
|'''Male'''
|'''पुरुष'''
|'''Yes'''
|'''हाँ'''
|-
|-
!4
!4
|Female
|महिला
|No
|नहीं
|-
|-
!<span style="color:red">5</span>
!<span style="color:red">5</span>
|'''Male'''
|'''पुरुष'''
|'''Yes'''
|'''हाँ'''
|-
|-
|}
|}
|
|
|}
|}
हम डेटा सफाई कर सकते हैं और अपनी टेबल से ऐसे डेटा को हटाना चुन सकते हैं। हम ऐसे डेटा को हटा देते हैं क्योंकि हम यह निर्धारित कर सकते हैं कि डेटासेट में मौजूद ऐसा डेटा उपयोगकर्ता प्रविष्टि त्रुटियों या डेटा भ्रष्टाचार के कारण होता है। ऐसे डेटा को हटाने का एक कारण यह हो सकता है कि असंभव डेटा डेटा माइनिंग प्रक्रिया के बाद के चरणों में गणना या डेटा हेरफेर प्रक्रिया को प्रभावित करेगा।
हम डेटा का अपमार्जन कर सकते हैं और इस तरह के डेटा को अपनी सारणी से हटा सकते हैं। हम ऐसे डेटा को हटा देते हैं क्योंकि हम यह निर्धारित कर सकते हैं कि डेटावर्ग में उपलब्ध ऐसा डेटा उपयोगकर्ता प्रविष्टि त्रुटियों या डेटा दूषित होने के कारण होता है। इस तरह के डेटा को हटाने का एक कारण यह हो सकता है कि असंभव डेटा डेटा प्रकलन प्रक्रिया के बाद के चरणों में गणना या डेटा के कार्यसाधन प्रक्रिया को प्रभावित करेगा।
   
   
|
|
Line 65: Line 65:
!colspan="2" style="background:none;"|
!colspan="2" style="background:none;"|
|-
|-
!Sex
!लिंग
!Pregnant
!गर्भवती
|-
|-
!rowspan="3" style="height:6em;background:none;"|<div>Adult </div>
!rowspan="3" style="height:6em;background:none;"|<div>व्यस्क </div>
!1
!1
|Male
|पुरुष
|No
|नहीं
|-
|-
!2
!2
|Female
|महिला
|Yes
|हाँ
|-
|-
!4
!4
|Female
|महिला
|No
|नहीं
|-
|-
|}
|}
|
|
|}
|}
हम एक डेटा संपादन कर सकते हैं और यह जानकर कि वयस्क गर्भवती है, हम वयस्क के लिंग को बदल सकते हैं, हम यह अनुमान लगा सकते हैं कि वयस्क महिला है और तदनुसार परिवर्तन कर सकते हैं। डेटा माइनिंग प्रक्रिया के बाद के चरणों में डेटा हेरफेर करते समय डेटा का स्पष्ट विश्लेषण करने के लिए हम डेटासेट को संपादित करते हैं।
हम एक डेटा संपादन कर सकते हैं और यह जानने के लिए कि वयस्क गर्भवती है, हम वयस्क के लिंग को बदल सकते हैं, हम यह अनुमान लगा सकते हैं कि वयस्क महिला है और तदनुसार परिवर्तन कर सकते हैं। डेटा प्रकलन प्रक्रिया के भीतर बाद के चरणों में डेटा परिवर्तन करते समय डेटा का स्पष्ट विश्लेषण करने के लिए हम डेटावर्ग को संपादित करते हैं।


|
|
Line 93: Line 93:
!colspan="2" style="background:none;"|
!colspan="2" style="background:none;"|
|-
|-
!Sex
!लिंग
!Pregnant
!गर्भवती
|-
|-
!rowspan="5" style="height:6em;background:none;"|<div>Adult </div>
!rowspan="5" style="height:6em;background:none;"|<div>व्यस्क </div>
!1
!1
|Male
|पुरुष
|No
|नहीं
|-
|-
!2
!2
|Female
|महिला
|Yes
|हाँ
|-
|-
!<span style="color:blue">3</span>
!<span style="color:blue">3</span>
|'''Female'''
|'''महिला'''
|'''Yes'''
|'''हाँ'''
|-
|-
!4
!4
|Female
|महिला
|No
|नहीं
|-
|-
!<span style="color:blue">5</span>
!<span style="color:blue">5</span>
|'''Female'''
|'''महिला'''
|'''Yes'''
|'''हाँ'''
|-
|-
|}
|}
|
|
|}
|}
हम डेटा कटौती के एक रूप का उपयोग कर सकते हैं और सेक्स द्वारा डेटा को सॉर्ट कर सकते हैं और ऐसा करके हम अपने डेटासेट को सरल बना सकते हैं और चुन सकते हैं कि हम किस सेक्स पर अधिक ध्यान केंद्रित करना चाहते हैं।
हम डेटा कटौती के एक रूप का उपयोग कर सकते हैं और लिंग द्वारा डेटा को श्रेणीबद्ध कर सकते हैं और ऐसा करके हम अपने डेटावर्ग को सरल बना सकते हैं और चुन सकते हैं कि हम किस लिंग पर अधिक ध्यान केंद्रित करना चाहते हैं।


|
|
Line 129: Line 129:
!colspan="2" style="background:none;"|
!colspan="2" style="background:none;"|
|-
|-
!Sex
!लिंग
!Pregnant
!गर्भवती
|-
|-
!rowspan="5" style="height:6em;background:none;"|<div>Adult </div>
!rowspan="5" style="height:6em;background:none;"|<div>व्यस्क </div>
!2
!2
|Female
|महिला
|Yes
|हाँ
|-
|-
!4
!4
|Female
|महिला
|No
|नहीं
|-
|-
!1
!1
|Male
|पुरुष
|No
|नहीं
|-
|-
!3
!3
|Male
|पुरुष
|Yes
|हाँ
|-
|-
!5
!5
|Male
|पुरुष
|Yes
|हाँ
|-
|-
|}
|}
Line 158: Line 158:


== डाटा माइनिंग ==
== डाटा माइनिंग ==
डेटा प्रीप्रोसेसिंग की उत्पत्ति डेटा माइनिंग में स्थित है।{{cn|date=March 2021}} विचार सामग्री में मौजूदा जानकारी और खोज को एकत्रित करना है। बाद में यह माना गया कि मशीन लर्निंग और न्यूरल नेटवर्क के लिए डेटा प्रीप्रोसेसिंग चरण की भी आवश्यकता होती है। तो यह एक सार्वभौमिक तकनीक बन गई है जिसका उपयोग सामान्य रूप से कंप्यूटिंग में किया जाता है।
डेटा पूर्व-प्रसंस्करण की उत्पत्ति डेटा माइनिंग में स्थित है।{{cn|date=March 2021}} विचार उपलब्धता जानकारी और सामग्री में खोज को एकत्र करना है। बाद में यह माना गया कि मशीन विद्वता और न्यूरल नेटवर्क के लिए डेटा पूर्व-प्रसंस्करण चरण की भी आवश्यकता होती है। तो यह एक सार्वभौमिक तकनीक बन गई है जिसका उपयोग सामान्य रूप से कंप्यूटिंग में किया जाता है।


डेटा प्रीप्रोसेसिंग डेटा सफाई के उपयोग के साथ अवांछित डेटा को हटाने की अनुमति देता है, यह उपयोगकर्ता को डेटा माइनिंग प्रक्रिया में बाद में डेटा हेरफेर के लिए प्रीप्रोसेसिंग चरण के बाद अधिक मूल्यवान जानकारी रखने के लिए डेटासेट रखने की अनुमति देता है। डेटा भ्रष्टाचार या मानवीय त्रुटि को सही करने के लिए इस तरह के डेटासेट को संपादित करना एक भ्रम मैट्रिक्स में पाए जाने वाले वास्तविक सकारात्मक, सच्चे नकारात्मक, झूठे सकारात्मक और झूठे नकारात्मक जैसे सटीक परिमाणक प्राप्त करने के लिए एक महत्वपूर्ण कदम है जो आमतौर पर एक चिकित्सा निदान के लिए उपयोग किया जाता है। उपयोगकर्ता डेटा फ़ाइलों को एक साथ जोड़ने में सक्षम हैं और डेटा से किसी भी अनावश्यक शोर को फ़िल्टर करने के लिए प्रीप्रोसेसिंग का उपयोग करते हैं जो उच्च सटीकता की अनुमति दे सकता है। उपयोगकर्ता पांडा लाइब्रेरी के साथ पायथन प्रोग्रामिंग स्क्रिप्ट का उपयोग करते हैं जो उन्हें कॉमा से अलग किए गए मानों से डेटा-फ़्रेम के रूप में डेटा आयात करने की क्षमता देता है। डेटा-फ़्रेम का उपयोग तब डेटा में हेरफेर करने के लिए किया जाता है जो अन्यथा एक्सेल में करना चुनौतीपूर्ण हो सकता है। [[पांडा (सॉफ्टवेयर)]] जो एक शक्तिशाली उपकरण है जो डेटा विश्लेषण और हेरफेर की अनुमति देता है; जो डेटा विज़ुअलाइज़ेशन, सांख्यिकीय संचालन और बहुत कुछ आसान बनाता है। कई लोग ऐसे कार्यों को करने के लिए भी R (प्रोग्रामिंग भाषा) का उपयोग करते हैं।
डेटा पूर्व-प्रसंस्करण डेटा अपमार्जन के उपयोग के साथ अवांछित डेटा को हटाने की अनुमति देता है, यह उपयोगकर्ता को डेटा माइनिंग प्रक्रिया में बाद में डेटा परिवर्तन के लिए पूर्व-प्रसंस्करण चरण के बाद अधिक मूल्यवान जानकारी रखने के लिए डेटावर्ग रखने की अनुमति देता है। डेटा भ्रष्टाचार या मानवीय त्रुटि को सही करने के लिए इस तरह के डेटावर्ग को संपादित करना एक भ्रम आव्यूह में पाए जाने वाले वास्तविक सकारात्मक, सच्चे नकारात्मक, गलत सकारात्मक और गलत नकारात्मक जैसे सटीक परिमाणक प्राप्त करने के लिए एक महत्वपूर्ण कदम है जो सामान्यतः एक चिकित्सा निदान के लिए उपयोग किया जाता है। उपयोगकर्ता डेटा फ़ाइलों को एक साथ जोड़ने में सक्षम हैं और डेटा से किसी भी अनावश्यक ध्वनि को फ़िल्टर करने के लिए पूर्व-प्रसंस्करण का उपयोग करते हैं जो उच्च सटीकता की अनुमति दे सकता है। उपयोगकर्ता पांडा लाइब्रेरी के साथ पायथन प्रोग्रामिंग स्क्रिप्ट का उपयोग करते हैं जो उन्हें डेटा-फ़्रेम के रूप में कोमा से अलग किए गए मानों से डेटा आयात करने की क्षमता देता है। डेटा-फ्रेम का उपयोग तब डेटा में परिवर्तन करने के लिए किया जाता है जो एक्सेल में करना चुनौतीपूर्ण हो सकता है। [[पांडा (सॉफ्टवेयर)|पांडा(सॉफ्टवेयर)]] जो एक शक्तिशाली उपकरण है जो डेटा विश्लेषण और परिवर्तन करने की अनुमति देता है; जो डेटा दृश्यकरण, सांख्यिकीय संचालन और बहुत कुछ आसान बनाता है। कई लोग ऐसे कार्यों को करने के लिए भी R(प्रोग्रामिंग भाषा) का उपयोग करते हैं।


एक उपयोगकर्ता मौजूदा फ़ाइलों को एक नए में बदलने का कारण कई कारणों से है। डेटा प्रीप्रोसेसिंग का उद्देश्य लापता मूल्यों को जोड़ना, कुल जानकारी, श्रेणियों के साथ लेबल डेटा ([[डेटा बिनिंग]]) और एक प्रक्षेपवक्र को सुचारू करना है।{{cn|date=March 2021}} प्रिंसिपल कंपोनेंट एनालिसिस और फीचर सेलेक्शन जैसी अधिक उन्नत तकनीकें सांख्यिकीय सूत्रों के साथ काम कर रही हैं और जटिल डेटासेट पर लागू होती हैं जो जीपीएस ट्रैकर्स और मोशन कैप्चर डिवाइस द्वारा रिकॉर्ड किए जाते हैं।
एक उपयोगकर्ता उपलब्ध फ़ाइलों को एक नए रूप में बदलने का कारण कई प्रावधानों से है। डेटा पूर्व-प्रसंस्करण का उद्देश्य लापता मूल्यों को जोड़ना, कुल जानकारी, श्रेणियों के साथ डेटा लेबल करना(डेटा बिनिंग) और एक प्रक्षेप वक्र को सुचारू करना है।{{cn|date=March 2021}}प्रमुख घटक विश्लेषण और फीचर चयन जैसी अधिक उन्नत तकनीकें सांख्यिकीय सूत्रों के साथ काम कर रही हैं और जटिल पर लागू होती हैं। डेटावर्ग जो जीपीएस ट्रैकर्स और मोशन कैप्चर डिवाइस द्वारा रिकॉर्ड किए जाते हैं।


== सिमेंटिक डेटा प्रीप्रोसेसिंग ==
== सिमेंटिक डेटा पूर्व-प्रसंस्करण ==
सिमेंटिक डेटा माइनिंग डेटा माइनिंग का एक सबसेट है जो विशेष रूप से डेटा माइनिंग प्रक्रिया में औपचारिक शब्दार्थ जैसे डोमेन ज्ञान को शामिल करना चाहता है। डोमेन ज्ञान उस वातावरण का ज्ञान है जिसमें डेटा संसाधित किया गया था। डोमेन ज्ञान डेटा माइनिंग के कई पहलुओं पर सकारात्मक प्रभाव डाल सकता है, जैसे प्रीप्रोसेसिंग चरण के दौरान अनावश्यक या असंगत डेटा को फ़िल्टर करना।<ref>{{cite web |title=सिमेंटिक डेटा माइनिंग: ए सर्वे ऑफ़ ओन्टोलॉजी-आधारित दृष्टिकोण|author=Dou, Deijing and Wang, Hao and Liu, Haishan |publisher=University of Oregon |url=http://ix.cs.uoregon.edu/~dou/research/papers/icsc15_invited.pdf |language=en-US}}</ref> डोमेन ज्ञान भी बाधा के रूप में काम करता है। यह डेटा के लिए एक गाइड के रूप में खोज और कार्य करने के लिए आवश्यक स्थान को कम करने के लिए पूर्व ज्ञान के सेट के रूप में काम करके ऐसा करता है। सीधे शब्दों में कहें तो सिमेंटिक प्रीप्रोसेसिंग उक्त डेटा के मूल वातावरण का अधिक सही और कुशलता से उपयोग करके डेटा को फ़िल्टर करना चाहता है।
अर्थ-संबंधी डेटा माइनिंग डेटा माइनिंग का एक सबवर्ग है जो विशेष रूप से डेटा माइनिंग प्रक्रिया में औपचारिक शब्दार्थ जैसे डोमेन ज्ञान को सम्मिलित करने का प्रयास करता है। डोमेन ज्ञान उस वातावरण का ज्ञान है जिसमें डेटा संसाधित किया गया था। डोमेन ज्ञान का डेटा माइनिंग के कई पहलुओं पर सकारात्मक प्रभाव हो सकता है, जैसे कि पूर्व-प्रसंस्करण चरण के दौरान अनावश्यक या असंगत डेटा को फ़िल्टर करना।<ref>{{cite web |title=सिमेंटिक डेटा माइनिंग: ए सर्वे ऑफ़ ओन्टोलॉजी-आधारित दृष्टिकोण|author=Dou, Deijing and Wang, Hao and Liu, Haishan |publisher=University of Oregon |url=http://ix.cs.uoregon.edu/~dou/research/papers/icsc15_invited.pdf |language=en-US}}</ref> डोमेन ज्ञान भी बाधा के रूप में काम करता है। यह डेटा के लिए एक गाइड के रूप में खोज और कार्य करने के लिए आवश्यक स्थान को कम करने के लिए पूर्व ज्ञान के वर्ग के रूप में कार्य करने का उपयोग करके करता है। सीधे शब्दों में कहें तो सिमेंटिक पूर्व-प्रसंस्करण उक्त डेटा के मूल वातावरण का अधिक सही और कुशलता से उपयोग करके डेटा को फ़िल्टर करना चाहता है।


ऐसी जटिल समस्याएं हैं जो मौजूदा जानकारी का बेहतर विश्लेषण करने के लिए अधिक विस्तृत तकनीकों द्वारा हल करने के लिए कह रही हैं। विभिन्न संख्यात्मक मानों को एक मान में एकत्र करने के लिए एक सरल स्क्रिप्ट बनाने के बजाय, सिमेंटिक आधारित डेटा प्रीप्रोसेसिंग पर ध्यान केंद्रित करना समझ में आता है।<ref>{{cite conference |title=मानव गतिविधि मान्यता के उद्देश्य से सिमेंटिक डेटा प्रीप्रोसेसिंग के लिए एक ऑन्कोलॉजी-आधारित ढांचा|author=Culmone, Rosario and Falcioni, Marco and Quadrini, Michela |s2cid=196091422 |conference=SEMAPRO 2014: The Eighth International Conference on Advances in Semantic Processing. Alexey Cheptsov, High Performance Computing Center Stuttgart (HLRS) |year=2014 }}</ref> विचार एक समर्पित ओन्टोलॉजी (सूचना विज्ञान) का निर्माण करना है, जो उच्च स्तर पर बताता है कि समस्या क्या है।<ref>{{cite conference |doi=10.1007/11946465_24 |year=2006 |publisher=Springer Berlin Heidelberg |pages=262–272 |author=David Perez-Rey and Alberto Anguita and Jose Crespo |title=OntoDataClean: ओन्टोलॉजी-आधारित एकीकरण और वितरित डेटा का प्रीप्रोसेसिंग|conference=Biological and Medical Data Analysis }}</ref> सिमेंटिक डेटा माइनिंग और सिमेंटिक प्री-प्रोसेसिंग के संबंध में, ऑन्कोलॉजी शब्दार्थ ज्ञान और डेटा को अवधारणात्मक और औपचारिक रूप से परिभाषित करने का एक तरीका है। प्रोटेग (सॉफ्टवेयर) एक ऑन्कोलॉजी के निर्माण के लिए मानक उपकरण है।{{cn|date=July 2022}} सामान्य तौर पर, ऑन्कोलॉजी का उपयोग डेटा, एप्लिकेशन, एल्गोरिदम और सिमेंटिक बेमेल से उत्पन्न होने वाले परिणामों के बीच अंतराल को पाटता है। नतीजतन, ऑन्कोलॉजी के साथ सिमेंटिक डेटा माइनिंग के कई अनुप्रयोग हैं जहां सिमेंटिक अस्पष्टता डेटा सिस्टम की उपयोगिता और दक्षता को प्रभावित कर सकती है। अनुप्रयोगों में चिकित्सा क्षेत्र, भाषा प्रसंस्करण, बैंकिंग,<ref>{{cite book |chapter=Semantic Data Pre-Processing for Machine Learning Based Bankruptcy Prediction Computational Model |author=Yerashenia, Natalia and Bolotov, Alexander and Chan, David and Pierantoni, Gabriele |title=2020 IEEE 22वां व्यावसायिक सूचना विज्ञान सम्मेलन (CBI)|year=2020 |pages=66–75 |publisher=IEEE |doi=10.1109/CBI49978.2020.00015 |isbn=978-1-7281-9926-9 |s2cid=219499599 |url=https://westminsterresearch.westminster.ac.uk/download/6b3387bc3e53e8c935cb4267be3c7b04fe410b5e5019edbc692a53d0b6ae4d65/3538863/CBI_2020_Yereashenia_et_al.pdf |chapter-url=https://ieeexplore.ieee.org/document/9140238}}</ref> और ट्यूशन भी,<ref>{{cite journal |title=डेटा माइनिंग का उपयोग करके इंटेलिजेंट ट्यूटरिंग सिस्टम के लिए ओन्टोलॉजी-संचालित ट्यूटरिंग मॉडल का निर्माण|author=Chang, Maiga and D'Aniello, Giuseppe and Gaeta, Matteo and Orciuoli, Franceso and Sampson, Demetrois and Simonelli, Carmine |journal=IEEE Access |year=2020 |volume=8 |pages=48151–48162 |publisher=IEEE |doi=10.1109/ACCESS.2020.2979281 |s2cid=214594754 |url=https://ieeexplore.ieee.org/document/9031710}}</ref> कई और के बीच।
ऐसी जटिल समस्याएं हैं जो उपलब्ध जानकारी का बेहतर विश्लेषण करने के लिए अधिक विस्तृत तकनीकों द्वारा हल करने के लिए कह रही हैं। अलग-अलग संख्यात्मक मानों को एक ही मान में एकत्र करने के लिए एक सरल स्क्रिप्ट बनाने के अतिरिक्त, यह सिमेंटिक आधारित डेटा पूर्व-प्रसंस्करण पर ध्यान केंद्रित करने के लिए समझ में आता है।<ref>{{cite conference |title=मानव गतिविधि मान्यता के उद्देश्य से सिमेंटिक डेटा प्रीप्रोसेसिंग के लिए एक ऑन्कोलॉजी-आधारित ढांचा|author=Culmone, Rosario and Falcioni, Marco and Quadrini, Michela |s2cid=196091422 |conference=SEMAPRO 2014: The Eighth International Conference on Advances in Semantic Processing. Alexey Cheptsov, High Performance Computing Center Stuttgart (HLRS) |year=2014 }}</ref> विचार एक समर्पित सत्तामीमांसा का निर्माण करना है, जो उच्च स्तर पर समझाता है कि समस्या क्या है।<ref>{{cite conference |doi=10.1007/11946465_24 |year=2006 |publisher=Springer Berlin Heidelberg |pages=262–272 |author=David Perez-Rey and Alberto Anguita and Jose Crespo |title=OntoDataClean: ओन्टोलॉजी-आधारित एकीकरण और वितरित डेटा का प्रीप्रोसेसिंग|conference=Biological and Medical Data Analysis }}</ref> सिमेंटिक डेटा माइनिंग और सिमेंटिक पूर्व-प्रसंस्करण के संबंध में, कैंसर विज्ञान शब्दार्थ ज्ञान और डेटा को अवधारणात्मक और औपचारिक रूप से परिभाषित करने का एक तरीका है। प्रोटेग(सॉफ्टवेयर) एक कैंसर विज्ञान के निर्माण के लिए मानक उपकरण है।{{cn|date=July 2022}} सामान्यतः, कैंसर विज्ञान का उपयोग डेटा, एप्लिकेशन, एल्गोरिदम और सिमेंटिक से उत्पन्न होने वाले परिणामों के बीच अंतराल को पाटता है। परिणामतः, कैंसर विज्ञान के साथ सिमेंटिक डेटा माइनिंग के कई अनुप्रयोग हैं जहां सिमेंटिक अस्पष्टता डेटा सिस्टम की उपयोगिता और दक्षता को प्रभावित कर सकती है। अनुप्रयोगों में चिकित्सा क्षेत्र, भाषा प्रसंस्करण, बैंकिंग,<ref>{{cite book |chapter=Semantic Data Pre-Processing for Machine Learning Based Bankruptcy Prediction Computational Model |author=Yerashenia, Natalia and Bolotov, Alexander and Chan, David and Pierantoni, Gabriele |title=2020 IEEE 22वां व्यावसायिक सूचना विज्ञान सम्मेलन (CBI)|year=2020 |pages=66–75 |publisher=IEEE |doi=10.1109/CBI49978.2020.00015 |isbn=978-1-7281-9926-9 |s2cid=219499599 |url=https://westminsterresearch.westminster.ac.uk/download/6b3387bc3e53e8c935cb4267be3c7b04fe410b5e5019edbc692a53d0b6ae4d65/3538863/CBI_2020_Yereashenia_et_al.pdf |chapter-url=https://ieeexplore.ieee.org/document/9140238}}</ref> और यहां तक ​​कि शिक्षण,<ref>{{cite journal |title=डेटा माइनिंग का उपयोग करके इंटेलिजेंट ट्यूटरिंग सिस्टम के लिए ओन्टोलॉजी-संचालित ट्यूटरिंग मॉडल का निर्माण|author=Chang, Maiga and D'Aniello, Giuseppe and Gaeta, Matteo and Orciuoli, Franceso and Sampson, Demetrois and Simonelli, Carmine |journal=IEEE Access |year=2020 |volume=8 |pages=48151–48162 |publisher=IEEE |doi=10.1109/ACCESS.2020.2979281 |s2cid=214594754 |url=https://ieeexplore.ieee.org/document/9031710}}</ref> और भी बहुत कुछ सम्मिलित हैं।


सिमेंटिक डेटा माइनिंग और ऑन्कोलॉजिकल आधारित दृष्टिकोण का उपयोग करने की विभिन्न ताकतें हैं। जैसा कि पहले उल्लेख किया गया है, ये उपकरण प्रति-प्रसंस्करण चरण के दौरान डेटा सेट से गैर-वांछनीय डेटा को फ़िल्टर करके मदद कर सकते हैं। इसके अतिरिक्त, अच्छी तरह से डिज़ाइन किए गए ऑन्कोलॉजी में एकीकृत अच्छी तरह से संरचित औपचारिक शब्दार्थ शक्तिशाली डेटा लौटा सकते हैं जिन्हें मशीनों द्वारा आसानी से पढ़ा और संसाधित किया जा सकता है।<ref>{{cite web |title=सिमेंटिक डेटा माइनिंग: ए सर्वे ऑफ़ ओन्टोलॉजी-आधारित दृष्टिकोण|author=Dou, Deijing and Wang, Hao and Liu, Haishan |publisher=University of Oregon |url=http://ix.cs.uoregon.edu/~dou/research/papers/icsc15_invited.pdf |language=en-US}}</ref> सिमेंटिक डेटा प्रोसेसिंग के चिकित्सा उपयोग में इसका एक विशेष रूप से उपयोगी उदाहरण मौजूद है। उदाहरण के तौर पर, एक मरीज को मेडिकल इमरजेंसी हो रही है और उसे अस्पताल ले जाया जा रहा है। आपातकालीन उत्तरदाता रोगी की मदद करने के लिए सबसे अच्छी दवा का पता लगाने की कोशिश कर रहे हैं। सामान्य डेटा प्रोसेसिंग के तहत, यह सुनिश्चित करने के लिए रोगी के सभी मेडिकल डेटा को खंगालना कि उन्हें सबसे अच्छा इलाज मिल रहा है, इसमें बहुत अधिक समय लग सकता है और रोगियों के स्वास्थ्य या यहाँ तक कि जीवन को जोखिम में डाल सकता है। हालांकि, सिमेंटिकली प्रोसेस्ड ऑन्कोलॉजी का उपयोग करते हुए, पहले उत्तरदाता रोगी के जीवन को बचा सकते हैं। सिमेंटिक रीजनर जैसे उपकरण ऑन्कोलॉजी (सूचना विज्ञान) का उपयोग यह पता लगाने के लिए कर सकते हैं कि रोगी को कौन सी सबसे अच्छी दवा दी जानी चाहिए, जो उनके चिकित्सा इतिहास पर आधारित है, जैसे कि यदि उन्हें कोई निश्चित कैंसर या अन्य स्थितियाँ हैं, तो बस उपयोग की जाने वाली प्राकृतिक भाषा की जाँच करके। रोगी का मेडिकल रिकॉर्ड।<ref>{{cite web |title=आपातकालीन चिकित्सा के लिए डेटा माइनिंग के लिए एक ऑन्कोलॉजिकल दृष्टिकोण|author =Kahn, Atif and Doucette, John A. and Jin, Changjiu and Fu Lijie and Cohen, Robin |publisher=University of Waterloo |url=https://cs.uwaterloo.ca/~j3doucet/papers/OntApproachToDataMining.pdf}}</ref> यह पहले उत्तरदाताओं को रोगी के चिकित्सा इतिहास के बारे में चिंता किए बिना जल्दी और कुशलता से दवा की खोज करने की अनुमति देगा, क्योंकि सिमेंटिक रीजनर ने पहले ही इस डेटा का विश्लेषण कर लिया होगा और समाधान ढूंढ लिया होगा। सामान्य तौर पर, यह सिमेंटिक डेटा माइनिंग और ऑन्कोलॉजी का उपयोग करने की अविश्वसनीय ताकत को दर्शाता है। वे उपयोगकर्ता की ओर से त्वरित और अधिक कुशल डेटा निष्कर्षण की अनुमति देते हैं, क्योंकि उपयोगकर्ता के पास खाते के लिए कम चर होते हैं, क्योंकि डेटा के लिए बनाए गए शब्दार्थ पूर्व-संसाधित डेटा और ऑन्कोलॉजी ने इनमें से कई चरों के लिए पहले से ही हिसाब लगाया है। हालाँकि, इस दृष्टिकोण में कुछ कमियाँ हैं। अर्थात्, इसमें अपेक्षाकृत छोटे डेटा सेट के साथ भी उच्च मात्रा में कम्प्यूटेशनल शक्ति और जटिलता की आवश्यकता होती है।<ref>{{cite journal|title=सूचना युग में सिमेंटिक डेटा माइनिंग: एक व्यवस्थित समीक्षा|author=Sirichanya, Chanmee and Kraisak Kesorn |year=2021 |journal=International Journal of Intelligent Systems|volume=36 |issue=8 |pages=3880–3916 |doi=10.1002/int.22443 |s2cid=235506360 | url=https://onlinelibrary.wiley.com/doi/10.1002/int.22443 |language=en}}</ref> इसके परिणामस्वरूप सिमेंटिक डेटा प्रोसेसिंग सिस्टम के निर्माण और रखरखाव में उच्च लागत और बढ़ी हुई कठिनाइयाँ हो सकती हैं। इसे कुछ हद तक कम किया जा सकता है यदि डेटा सेट पहले से ही व्यवस्थित और स्वरूपित है, लेकिन फिर भी, मानक डेटा प्रोसेसिंग की तुलना में जटिलता अभी भी अधिक है।
सिमेंटिक डेटा माइनिंग और ऑन्कोलॉजिकल आधारित दृष्टिकोण का उपयोग करने की विभिन्न ताकतें हैं। जैसा कि पहले उल्लेख किया गया है, ये उपकरण प्रति-प्रसंस्करण चरण के दौरान डेटा वर्ग से गैर-वांछनीय डेटा को फ़िल्टर करके मदद कर सकते हैं। इसके अतिरिक्त, अच्छी तरह से डिज़ाइन किए गए कैंसर विज्ञान में एकीकृत अच्छी तरह से संरचित औपचारिक शब्दार्थ शक्तिशाली डेटा लौटा सकते हैं जिन्हें मशीनों द्वारा आसानी से पढ़ा और संसाधित किया जा सकता है।<ref>{{cite web |title=सिमेंटिक डेटा माइनिंग: ए सर्वे ऑफ़ ओन्टोलॉजी-आधारित दृष्टिकोण|author=Dou, Deijing and Wang, Hao and Liu, Haishan |publisher=University of Oregon |url=http://ix.cs.uoregon.edu/~dou/research/papers/icsc15_invited.pdf |language=en-US}}</ref> सिमेंटिक डेटा प्रोसेसिंग के चिकित्सा उपयोग में इसका एक विशेष रूप से उपयोगी उदाहरण उपलब्ध है। उदाहरण के तौर पर, एक मरीज को मेडिकल इमरजेंसी हो रही है और उसे अस्पताल ले जाया जा रहा है। आपातकालीन उत्तरदाता रोगी की मदद करने के लिए सबसे अच्छी दवा का पता लगाने की कोशिश कर रहे हैं। सामान्य डेटा प्रोसेसिंग के तहत, यह सुनिश्चित करने के लिए रोगी के सभी मेडिकल डेटा को खंगालना कि उन्हें सबसे अच्छा इलाज मिल रहा है, इसमें बहुत अधिक समय लग सकता है और रोगियों के स्वास्थ्य या यहाँ तक कि जीवन को संकट में डाल सकता है। हालांकि, सिमेंटिकली प्रोसेस्ड कैंसर विज्ञान का उपयोग करते हुए, पहले उत्तरदाता रोगी के जीवन को बचा सकते हैं। सिमेंटिक रीजनर जैसे उपकरण कैंसर विज्ञान(सूचना विज्ञान) का उपयोग यह पता लगाने के लिए कर सकते हैं कि रोगी को कौन सी सबसे अच्छी दवा दी जानी चाहिए, जो उनके चिकित्सा इतिहास पर आधारित है, जैसे कि यदि उन्हें कोई निश्चित कैंसर या अन्य स्थितियाँ हैं, तो बस उपयोग की जाने वाली प्राकृतिक भाषा की जाँच करके। रोगी का मेडिकल रिकॉर्ड।<ref>{{cite web |title=आपातकालीन चिकित्सा के लिए डेटा माइनिंग के लिए एक ऑन्कोलॉजिकल दृष्टिकोण|author =Kahn, Atif and Doucette, John A. and Jin, Changjiu and Fu Lijie and Cohen, Robin |publisher=University of Waterloo |url=https://cs.uwaterloo.ca/~j3doucet/papers/OntApproachToDataMining.pdf}}</ref> यह पहले उत्तरदाताओं को रोगी के चिकित्सा इतिहास के बारे में चिंता किए बिना जल्दी और कुशलता से दवा की खोज करने की अनुमति देगा, क्योंकि सिमेंटिक रीजनर ने पहले ही इस डेटा का विश्लेषण कर लिया होगा और समाधान ढूंढ लिया होगा। सामान्यतः, यह सिमेंटिक डेटा माइनिंग और कैंसर विज्ञान का उपयोग करने की अविश्वसनीय ताकत को दर्शाता है। वे उपयोगकर्ता की ओर से त्वरित और अधिक कुशल डेटा निष्कर्षण की अनुमति देते हैं, क्योंकि उपयोगकर्ता के पास खाते के लिए कम चर होते हैं, क्योंकि डेटा के लिए बनाए गए शब्दार्थ पूर्व-संसाधित डेटा और कैंसर विज्ञान ने इनमें से कई चरों के लिए पहले से ही हिसाब लगाया है। हालाँकि, इस दृष्टिकोण में कुछ कमियाँ हैं। अर्थात्, इसमें अपेक्षाकृत छोटे डेटा वर्ग के साथ भी उच्च मात्रा में कम्प्यूटेशनल शक्ति और जटिलता की आवश्यकता होती है।<ref>{{cite journal|title=सूचना युग में सिमेंटिक डेटा माइनिंग: एक व्यवस्थित समीक्षा|author=Sirichanya, Chanmee and Kraisak Kesorn |year=2021 |journal=International Journal of Intelligent Systems|volume=36 |issue=8 |pages=3880–3916 |doi=10.1002/int.22443 |s2cid=235506360 | url=https://onlinelibrary.wiley.com/doi/10.1002/int.22443 |language=en}}</ref> इसके परिणामस्वरूप सिमेंटिक डेटा प्रोसेसिंग सिस्टम के निर्माण और रखरखाव में उच्च लागत और बढ़ी हुई कठिनाइयाँ हो सकती हैं। इसे कुछ हद तक कम किया जा सकता है यदि डेटा वर्ग पहले से ही व्यवस्थित और स्वरूपित है, लेकिन फिर भी, मानक डेटा प्रोसेसिंग की तुलना में जटिलता अभी भी अधिक है।


नीचे एक सरल आरेख है जो कुछ प्रक्रियाओं को जोड़ता है, विशेष रूप से सिमेंटिक डेटा माइनिंग और ऑन्कोलॉजी में उनका उपयोग।
नीचे एक सरल आरेख है जो कुछ प्रक्रियाओं को जोड़ता है, विशेष रूप से सिमेंटिक डेटा माइनिंग और कैंसर विज्ञान में उनका उपयोग।


[[File:SimpleSemanticDataMiningDiagram.png|सिंपल सिमेंटिक डेटा माइनिंग डायग्राम]]आरेख एक डेटा सेट को दो भागों में विभाजित होने का चित्रण करता है: इसके डोमेन की विशेषताएँ, या डोमेन ज्ञान, और फिर वास्तविक अधिग्रहीत डेटा। डोमेन विशेषताओं को तब उपयोगकर्ता द्वारा समझा जाने वाला डोमेन ज्ञान बनने के लिए संसाधित किया जाता है जिसे डेटा पर लागू किया जा सकता है। इस बीच, डेटा सेट को संसाधित और संग्रहीत किया जाता है ताकि डोमेन ज्ञान उस पर लागू हो सके, ताकि प्रक्रिया जारी रह सके। यह एप्लिकेशन ऑन्कोलॉजी बनाता है। वहां से, ऑन्कोलॉजी का उपयोग डेटा और प्रक्रिया के परिणामों का विश्लेषण करने के लिए किया जा सकता है।
[[File:SimpleSemanticDataMiningDiagram.png|सिंपल सिमेंटिक डेटा माइनिंग डायग्राम]]आरेख एक डेटा वर्ग को दो भागों में विभाजित होने का चित्रण करता है: इसके डोमेन की विशेषताएँ, या डोमेन ज्ञान, और फिर वास्तविक अधिग्रहीत डेटा। डोमेन विशेषताओं को तब उपयोगकर्ता द्वारा समझा जाने वाला डोमेन ज्ञान बनने के लिए संसाधित किया जाता है जिसे डेटा पर लागू किया जा सकता है। इस बीच, डेटा वर्ग को संसाधित और संग्रहीत किया जाता है ताकि डोमेन ज्ञान उस पर लागू हो सके, ताकि प्रक्रिया जारी रह सके। यह एप्लिकेशन कैंसर विज्ञान बनाता है। वहां से, कैंसर विज्ञान का उपयोग डेटा और प्रक्रिया के परिणामों का विश्लेषण करने के लिए किया जा सकता है।


फ़ज़ी प्रीप्रोसेसिंग जटिल समस्याओं को हल करने के लिए एक और अधिक उन्नत तकनीक है। फ़ज़ी प्रीप्रोसेसिंग और फ़ज़ी डेटा माइनिंग [[फजी सेट]] का उपयोग करते हैं। ये डेटा सेट दो तत्वों से बने होते हैं: एक सेट और सेट के लिए एक सदस्यता फ़ंक्शन जिसमें 0 और 1 शामिल होते हैं। फ़ज़ी प्रीप्रोसेसिंग इस फ़ज़ी डेटा सेट का उपयोग भाषाई जानकारी के साथ संख्यात्मक मानों को आधार बनाने के लिए करता है। कच्चे डेटा को तब [[प्राकृतिक भाषा]] में रूपांतरित किया जाता है। अंततः, फ़ज़ी डेटा माइनिंग का लक्ष्य अपूर्ण डेटाबेस जैसी अचूक जानकारी से निपटने में मदद करना है। वर्तमान में फ़ज़ी प्रीप्रोसेसिंग, साथ ही अन्य फ़ज़ी आधारित डेटा माइनिंग तकनीकों का तंत्रिका नेटवर्क और कृत्रिम बुद्धिमत्ता के साथ लगातार उपयोग होता है।<ref>{{cite book| chapter=Fuzzy preprocessing rules for the improvement of an artificial neural network well log interpretation model| author=Wong, Kok Wai and Fung, Chun Che and Law, Kok Way| title=2000 टेनकॉन कार्यवाही। न्यू मिलेनियम के लिए इंटेलिजेंट सिस्टम्स और टेक्नोलॉजीज (श्रेणी संख्या 00CH37119)| year=2000| volume=1| pages=400–405| publisher = IEEE | doi=10.1109/TENCON.2000.893697| isbn=0-7803-6355-8| s2cid=10384426|chapter-url=https://ieeexplore.ieee.org/document/893697| language=en}}</ref>
फ़ज़ी पूर्व-प्रसंस्करण जटिल समस्याओं को हल करने के लिए एक और अधिक उन्नत तकनीक है। फ़ज़ी पूर्व-प्रसंस्करण और फ़ज़ी डेटा माइनिंग [[फजी सेट|फजी वर्ग]] का उपयोग करते हैं। ये डेटा वर्ग दो तत्वों से बने होते हैं: एक वर्ग और वर्ग के लिए एक सदस्यता फ़ंक्शन जिसमें 0 और 1 सम्मिलित होते हैं। फ़ज़ी पूर्व-प्रसंस्करण इस फ़ज़ी डेटा वर्ग का उपयोग भाषाई जानकारी के साथ संख्यात्मक मानों को आधार बनाने के लिए करता है। कच्चे डेटा को तब [[प्राकृतिक भाषा]] में रूपांतरित किया जाता है। अंततः, फ़ज़ी डेटा माइनिंग का लक्ष्य अपूर्ण डेटाबेस जैसी अचूक जानकारी से निपटने में मदद करना है। वर्तमान में फ़ज़ी पूर्व-प्रसंस्करण, साथ ही अन्य फ़ज़ी आधारित डेटा माइनिंग तकनीकों का तंत्रिका नेटवर्क और कृत्रिम बुद्धिमत्ता के साथ लगातार उपयोग होता है।<ref>{{cite book| chapter=Fuzzy preprocessing rules for the improvement of an artificial neural network well log interpretation model| author=Wong, Kok Wai and Fung, Chun Che and Law, Kok Way| title=2000 टेनकॉन कार्यवाही। न्यू मिलेनियम के लिए इंटेलिजेंट सिस्टम्स और टेक्नोलॉजीज (श्रेणी संख्या 00CH37119)| year=2000| volume=1| pages=400–405| publisher = IEEE | doi=10.1109/TENCON.2000.893697| isbn=0-7803-6355-8| s2cid=10384426|chapter-url=https://ieeexplore.ieee.org/document/893697| language=en}}</ref>




Line 193: Line 193:
*अल्पविराम से अलग किये गए मान
*अल्पविराम से अलग किये गए मान
*असमंजस का जाल
*असमंजस का जाल
*आर (प्रोग्रामिंग भाषा)
*आर(प्रोग्रामिंग भाषा)
*सत्तामीमांसा (सूचना विज्ञान)
*सत्तामीमांसा(सूचना विज्ञान)
==बाहरी संबंध==
==बाहरी संबंध==
*[http://dataprocessing.aixcape.org Online Data Processing Compendium]
*[http://dataprocessing.aixcape.org Online Data Processing Compendium]
*[https://www.cambridge.org/core/journals/knowledge-engineering-review/article/data-preprocessing-in-predictive-data-mining/F7F2D7AC540D2815C613BA6575359AAA/share/92b3b50e7ed7363e5946baf406025281d2eb8c02 Data preprocessing in predictive data mining. Knowledge Eng. Review 34: e1 (2019)]
*[https://www.cambridge.org/core/journals/knowledge-engineering-review/article/data-preprocessing-in-predictive-data-mining/F7F2D7AC540D2815C613BA6575359AAA/share/92b3b50e7ed7363e5946baf406025281d2eb8c02 Data preprocessing in predictive data mining. Kनहींwledge Eng. Review 34: e1(2019)]


{{data}}
{{data}}
[[Category:मशीन लर्निंग]]


 
[[Category:All articles with unsourced statements]]
[[Category: Machine Translated Page]]
[[Category:Articles with unsourced statements from July 2022]]
[[Category:Articles with unsourced statements from March 2021]]
[[Category:CS1 English-language sources (en)]]
[[Category:CS1 français-language sources (fr)]]
[[Category:CS1 maint]]
[[Category:CS1 Ελληνικά-language sources (el)]]
[[Category:Citation Style 1 templates|W]]
[[Category:Collapse templates]]
[[Category:Created On 05/12/2022]]
[[Category:Created On 05/12/2022]]
[[Category:Machine Translated Page]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with script errors]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates based on the Citation/CS1 Lua module]]
[[Category:Templates generating COinS|Cite web]]
[[Category:Templates generating microformats]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates used by AutoWikiBrowser|Cite web]]
[[Category:Templates using TemplateData]]
[[Category:Wikipedia fully protected templates|Cite web]]
[[Category:Wikipedia metatemplates]]
[[Category:मशीन लर्निंग]]

Latest revision as of 15:34, 12 December 2022

डेटा पूर्व-प्रसंस्करण प्रदर्शन को सुनिश्चित करने या बढ़ाने के लिए उपयोग किए जाने से पहले डेटा में परिवर्तन या पतन का उल्लेख कर सकता है,[1] जो डेटा माइनिंग प्रक्रिया में एक महत्वपूर्ण कदम है। वाक्यांश "कचरा अंदर, कचरा बाहर" विशेष रूप से डेटा माइनिंग और मशीन विद्वता की परियोजनाओं पर लागू होता है। डेटा-इकट्ठा करने के तरीकों को प्रायः सामान्य तरीकों से नियंत्रित किया जाता है, जिसके परिणामस्वरूप आउट-ऑफ़-रेंज मान(जैसे, आय: -100), असंभव डेटा संयोजन(जैसे, लिंग: पुरुष, गर्भवती: हाँ), और अनुपलब्ध मान आदि।

इस तरह की समस्याओं के लिए सावधानी से परीक्षण नहीं किए गए जिससे डेटा का विश्लेषण करने से भ्रामक परिणाम उत्पन्न हो सकते हैं। इस प्रकार, कोई भी विश्लेषण चलाने से पहले डेटा का प्रतिनिधित्व और गुणवत्ता सबसे पहले और सबसे महत्वपूर्ण है।[2] प्रायः, डेटा पूर्व-प्रसंस्करण मशीन विद्वता प्रोजेक्ट का सबसे महत्वपूर्ण चरण होता है, विशेष रूप से कम्प्यूटेशनल बायोलॉजी में।[3] यदि बहुत अधिक अप्रासंगिक और निरर्थक जानकारी उपलब्ध है या विस्तृत और अविश्वसनीय डेटा है, तो प्रशिक्षण चरण के दौरान ज्ञान की खोज करना अधिक कठिन होता है। डेटा तैयार करने और फ़िल्टर करने के चरणों में काफी मात्रा में संसाधन समय लग सकता है। डेटा पूर्व-प्रसंस्करण के उदाहरणों में डेटा अपमार्जन, उदाहरण चयन, डेटा सामान्यीकरण, वन-हॉट, डेटा परिवर्तन, सुविधा निकासी और फीचर चयन आदि सम्मिलित हैं। डेटा पूर्व-प्रसंस्करण का उत्पाद अंतिम प्रशिक्षण वर्ग है।

डेटा पूर्व-प्रसंस्करण उस तरीके को प्रभावित कर सकता है जिसमें अंतिम डेटा प्रोसेसिंग के परिणामों की व्याख्या की जा सकती है।[4] इस पहलू पर सावधानीपूर्वक विचार किया जाना चाहिए जब परिणामों की व्याख्या एक महत्वपूर्ण बिंदु हो, जैसे कि(रसायन विज्ञान) के बहुविविध प्रसंस्करण में।

डेटा पूर्व-प्रसंस्करण के कार्य

उदाहरण

इस उदाहरण में हमारे पास हमारे डेटा वर्ग में 5 वयस्क हैं जो पुरुष या महिला है और चाहे वे गर्भवती हों या नहीं। हम पता लगा सकते हैं कि वयस्क 3 और 5 असंभव डेटा संयोजन हैं।

लिंग गर्भवती
व्यस्क
1 पुरुष नहीं
2 महिला हाँ
3 पुरुष हाँ
4 महिला नहीं
5 पुरुष हाँ

हम डेटा का अपमार्जन कर सकते हैं और इस तरह के डेटा को अपनी सारणी से हटा सकते हैं। हम ऐसे डेटा को हटा देते हैं क्योंकि हम यह निर्धारित कर सकते हैं कि डेटावर्ग में उपलब्ध ऐसा डेटा उपयोगकर्ता प्रविष्टि त्रुटियों या डेटा दूषित होने के कारण होता है। इस तरह के डेटा को हटाने का एक कारण यह हो सकता है कि असंभव डेटा डेटा प्रकलन प्रक्रिया के बाद के चरणों में गणना या डेटा के कार्यसाधन प्रक्रिया को प्रभावित करेगा।

| |- |

लिंग गर्भवती
व्यस्क
1 पुरुष नहीं
2 महिला हाँ
4 महिला नहीं

| |} हम एक डेटा संपादन कर सकते हैं और यह जानने के लिए कि वयस्क गर्भवती है, हम वयस्क के लिंग को बदल सकते हैं, हम यह अनुमान लगा सकते हैं कि वयस्क महिला है और तदनुसार परिवर्तन कर सकते हैं। डेटा प्रकलन प्रक्रिया के भीतर बाद के चरणों में डेटा परिवर्तन करते समय डेटा का स्पष्ट विश्लेषण करने के लिए हम डेटावर्ग को संपादित करते हैं।

| |- |

लिंग गर्भवती
व्यस्क
1 पुरुष नहीं
2 महिला हाँ
3 महिला हाँ
4 महिला नहीं
5 महिला हाँ

| |} हम डेटा कटौती के एक रूप का उपयोग कर सकते हैं और लिंग द्वारा डेटा को श्रेणीबद्ध कर सकते हैं और ऐसा करके हम अपने डेटावर्ग को सरल बना सकते हैं और चुन सकते हैं कि हम किस लिंग पर अधिक ध्यान केंद्रित करना चाहते हैं।

| |- |

लिंग गर्भवती
व्यस्क
2 महिला हाँ
4 महिला नहीं
1 पुरुष नहीं
3 पुरुष हाँ
5 पुरुष हाँ

| |}

डाटा माइनिंग

डेटा पूर्व-प्रसंस्करण की उत्पत्ति डेटा माइनिंग में स्थित है।[citation needed] विचार उपलब्धता जानकारी और सामग्री में खोज को एकत्र करना है। बाद में यह माना गया कि मशीन विद्वता और न्यूरल नेटवर्क के लिए डेटा पूर्व-प्रसंस्करण चरण की भी आवश्यकता होती है। तो यह एक सार्वभौमिक तकनीक बन गई है जिसका उपयोग सामान्य रूप से कंप्यूटिंग में किया जाता है।

डेटा पूर्व-प्रसंस्करण डेटा अपमार्जन के उपयोग के साथ अवांछित डेटा को हटाने की अनुमति देता है, यह उपयोगकर्ता को डेटा माइनिंग प्रक्रिया में बाद में डेटा परिवर्तन के लिए पूर्व-प्रसंस्करण चरण के बाद अधिक मूल्यवान जानकारी रखने के लिए डेटावर्ग रखने की अनुमति देता है। डेटा भ्रष्टाचार या मानवीय त्रुटि को सही करने के लिए इस तरह के डेटावर्ग को संपादित करना एक भ्रम आव्यूह में पाए जाने वाले वास्तविक सकारात्मक, सच्चे नकारात्मक, गलत सकारात्मक और गलत नकारात्मक जैसे सटीक परिमाणक प्राप्त करने के लिए एक महत्वपूर्ण कदम है जो सामान्यतः एक चिकित्सा निदान के लिए उपयोग किया जाता है। उपयोगकर्ता डेटा फ़ाइलों को एक साथ जोड़ने में सक्षम हैं और डेटा से किसी भी अनावश्यक ध्वनि को फ़िल्टर करने के लिए पूर्व-प्रसंस्करण का उपयोग करते हैं जो उच्च सटीकता की अनुमति दे सकता है। उपयोगकर्ता पांडा लाइब्रेरी के साथ पायथन प्रोग्रामिंग स्क्रिप्ट का उपयोग करते हैं जो उन्हें डेटा-फ़्रेम के रूप में कोमा से अलग किए गए मानों से डेटा आयात करने की क्षमता देता है। डेटा-फ्रेम का उपयोग तब डेटा में परिवर्तन करने के लिए किया जाता है जो एक्सेल में करना चुनौतीपूर्ण हो सकता है। पांडा(सॉफ्टवेयर) जो एक शक्तिशाली उपकरण है जो डेटा विश्लेषण और परिवर्तन करने की अनुमति देता है; जो डेटा दृश्यकरण, सांख्यिकीय संचालन और बहुत कुछ आसान बनाता है। कई लोग ऐसे कार्यों को करने के लिए भी R(प्रोग्रामिंग भाषा) का उपयोग करते हैं।

एक उपयोगकर्ता उपलब्ध फ़ाइलों को एक नए रूप में बदलने का कारण कई प्रावधानों से है। डेटा पूर्व-प्रसंस्करण का उद्देश्य लापता मूल्यों को जोड़ना, कुल जानकारी, श्रेणियों के साथ डेटा लेबल करना(डेटा बिनिंग) और एक प्रक्षेप वक्र को सुचारू करना है।[citation needed]प्रमुख घटक विश्लेषण और फीचर चयन जैसी अधिक उन्नत तकनीकें सांख्यिकीय सूत्रों के साथ काम कर रही हैं और जटिल पर लागू होती हैं। डेटावर्ग जो जीपीएस ट्रैकर्स और मोशन कैप्चर डिवाइस द्वारा रिकॉर्ड किए जाते हैं।

सिमेंटिक डेटा पूर्व-प्रसंस्करण

अर्थ-संबंधी डेटा माइनिंग डेटा माइनिंग का एक सबवर्ग है जो विशेष रूप से डेटा माइनिंग प्रक्रिया में औपचारिक शब्दार्थ जैसे डोमेन ज्ञान को सम्मिलित करने का प्रयास करता है। डोमेन ज्ञान उस वातावरण का ज्ञान है जिसमें डेटा संसाधित किया गया था। डोमेन ज्ञान का डेटा माइनिंग के कई पहलुओं पर सकारात्मक प्रभाव हो सकता है, जैसे कि पूर्व-प्रसंस्करण चरण के दौरान अनावश्यक या असंगत डेटा को फ़िल्टर करना।[5] डोमेन ज्ञान भी बाधा के रूप में काम करता है। यह डेटा के लिए एक गाइड के रूप में खोज और कार्य करने के लिए आवश्यक स्थान को कम करने के लिए पूर्व ज्ञान के वर्ग के रूप में कार्य करने का उपयोग करके करता है। सीधे शब्दों में कहें तो सिमेंटिक पूर्व-प्रसंस्करण उक्त डेटा के मूल वातावरण का अधिक सही और कुशलता से उपयोग करके डेटा को फ़िल्टर करना चाहता है।

ऐसी जटिल समस्याएं हैं जो उपलब्ध जानकारी का बेहतर विश्लेषण करने के लिए अधिक विस्तृत तकनीकों द्वारा हल करने के लिए कह रही हैं। अलग-अलग संख्यात्मक मानों को एक ही मान में एकत्र करने के लिए एक सरल स्क्रिप्ट बनाने के अतिरिक्त, यह सिमेंटिक आधारित डेटा पूर्व-प्रसंस्करण पर ध्यान केंद्रित करने के लिए समझ में आता है।[6] विचार एक समर्पित सत्तामीमांसा का निर्माण करना है, जो उच्च स्तर पर समझाता है कि समस्या क्या है।[7] सिमेंटिक डेटा माइनिंग और सिमेंटिक पूर्व-प्रसंस्करण के संबंध में, कैंसर विज्ञान शब्दार्थ ज्ञान और डेटा को अवधारणात्मक और औपचारिक रूप से परिभाषित करने का एक तरीका है। प्रोटेग(सॉफ्टवेयर) एक कैंसर विज्ञान के निर्माण के लिए मानक उपकरण है।[citation needed] सामान्यतः, कैंसर विज्ञान का उपयोग डेटा, एप्लिकेशन, एल्गोरिदम और सिमेंटिक से उत्पन्न होने वाले परिणामों के बीच अंतराल को पाटता है। परिणामतः, कैंसर विज्ञान के साथ सिमेंटिक डेटा माइनिंग के कई अनुप्रयोग हैं जहां सिमेंटिक अस्पष्टता डेटा सिस्टम की उपयोगिता और दक्षता को प्रभावित कर सकती है। अनुप्रयोगों में चिकित्सा क्षेत्र, भाषा प्रसंस्करण, बैंकिंग,[8] और यहां तक ​​कि शिक्षण,[9] और भी बहुत कुछ सम्मिलित हैं।

सिमेंटिक डेटा माइनिंग और ऑन्कोलॉजिकल आधारित दृष्टिकोण का उपयोग करने की विभिन्न ताकतें हैं। जैसा कि पहले उल्लेख किया गया है, ये उपकरण प्रति-प्रसंस्करण चरण के दौरान डेटा वर्ग से गैर-वांछनीय डेटा को फ़िल्टर करके मदद कर सकते हैं। इसके अतिरिक्त, अच्छी तरह से डिज़ाइन किए गए कैंसर विज्ञान में एकीकृत अच्छी तरह से संरचित औपचारिक शब्दार्थ शक्तिशाली डेटा लौटा सकते हैं जिन्हें मशीनों द्वारा आसानी से पढ़ा और संसाधित किया जा सकता है।[10] सिमेंटिक डेटा प्रोसेसिंग के चिकित्सा उपयोग में इसका एक विशेष रूप से उपयोगी उदाहरण उपलब्ध है। उदाहरण के तौर पर, एक मरीज को मेडिकल इमरजेंसी हो रही है और उसे अस्पताल ले जाया जा रहा है। आपातकालीन उत्तरदाता रोगी की मदद करने के लिए सबसे अच्छी दवा का पता लगाने की कोशिश कर रहे हैं। सामान्य डेटा प्रोसेसिंग के तहत, यह सुनिश्चित करने के लिए रोगी के सभी मेडिकल डेटा को खंगालना कि उन्हें सबसे अच्छा इलाज मिल रहा है, इसमें बहुत अधिक समय लग सकता है और रोगियों के स्वास्थ्य या यहाँ तक कि जीवन को संकट में डाल सकता है। हालांकि, सिमेंटिकली प्रोसेस्ड कैंसर विज्ञान का उपयोग करते हुए, पहले उत्तरदाता रोगी के जीवन को बचा सकते हैं। सिमेंटिक रीजनर जैसे उपकरण कैंसर विज्ञान(सूचना विज्ञान) का उपयोग यह पता लगाने के लिए कर सकते हैं कि रोगी को कौन सी सबसे अच्छी दवा दी जानी चाहिए, जो उनके चिकित्सा इतिहास पर आधारित है, जैसे कि यदि उन्हें कोई निश्चित कैंसर या अन्य स्थितियाँ हैं, तो बस उपयोग की जाने वाली प्राकृतिक भाषा की जाँच करके। रोगी का मेडिकल रिकॉर्ड।[11] यह पहले उत्तरदाताओं को रोगी के चिकित्सा इतिहास के बारे में चिंता किए बिना जल्दी और कुशलता से दवा की खोज करने की अनुमति देगा, क्योंकि सिमेंटिक रीजनर ने पहले ही इस डेटा का विश्लेषण कर लिया होगा और समाधान ढूंढ लिया होगा। सामान्यतः, यह सिमेंटिक डेटा माइनिंग और कैंसर विज्ञान का उपयोग करने की अविश्वसनीय ताकत को दर्शाता है। वे उपयोगकर्ता की ओर से त्वरित और अधिक कुशल डेटा निष्कर्षण की अनुमति देते हैं, क्योंकि उपयोगकर्ता के पास खाते के लिए कम चर होते हैं, क्योंकि डेटा के लिए बनाए गए शब्दार्थ पूर्व-संसाधित डेटा और कैंसर विज्ञान ने इनमें से कई चरों के लिए पहले से ही हिसाब लगाया है। हालाँकि, इस दृष्टिकोण में कुछ कमियाँ हैं। अर्थात्, इसमें अपेक्षाकृत छोटे डेटा वर्ग के साथ भी उच्च मात्रा में कम्प्यूटेशनल शक्ति और जटिलता की आवश्यकता होती है।[12] इसके परिणामस्वरूप सिमेंटिक डेटा प्रोसेसिंग सिस्टम के निर्माण और रखरखाव में उच्च लागत और बढ़ी हुई कठिनाइयाँ हो सकती हैं। इसे कुछ हद तक कम किया जा सकता है यदि डेटा वर्ग पहले से ही व्यवस्थित और स्वरूपित है, लेकिन फिर भी, मानक डेटा प्रोसेसिंग की तुलना में जटिलता अभी भी अधिक है।

नीचे एक सरल आरेख है जो कुछ प्रक्रियाओं को जोड़ता है, विशेष रूप से सिमेंटिक डेटा माइनिंग और कैंसर विज्ञान में उनका उपयोग।

सिंपल सिमेंटिक डेटा माइनिंग डायग्रामआरेख एक डेटा वर्ग को दो भागों में विभाजित होने का चित्रण करता है: इसके डोमेन की विशेषताएँ, या डोमेन ज्ञान, और फिर वास्तविक अधिग्रहीत डेटा। डोमेन विशेषताओं को तब उपयोगकर्ता द्वारा समझा जाने वाला डोमेन ज्ञान बनने के लिए संसाधित किया जाता है जिसे डेटा पर लागू किया जा सकता है। इस बीच, डेटा वर्ग को संसाधित और संग्रहीत किया जाता है ताकि डोमेन ज्ञान उस पर लागू हो सके, ताकि प्रक्रिया जारी रह सके। यह एप्लिकेशन कैंसर विज्ञान बनाता है। वहां से, कैंसर विज्ञान का उपयोग डेटा और प्रक्रिया के परिणामों का विश्लेषण करने के लिए किया जा सकता है।

फ़ज़ी पूर्व-प्रसंस्करण जटिल समस्याओं को हल करने के लिए एक और अधिक उन्नत तकनीक है। फ़ज़ी पूर्व-प्रसंस्करण और फ़ज़ी डेटा माइनिंग फजी वर्ग का उपयोग करते हैं। ये डेटा वर्ग दो तत्वों से बने होते हैं: एक वर्ग और वर्ग के लिए एक सदस्यता फ़ंक्शन जिसमें 0 और 1 सम्मिलित होते हैं। फ़ज़ी पूर्व-प्रसंस्करण इस फ़ज़ी डेटा वर्ग का उपयोग भाषाई जानकारी के साथ संख्यात्मक मानों को आधार बनाने के लिए करता है। कच्चे डेटा को तब प्राकृतिक भाषा में रूपांतरित किया जाता है। अंततः, फ़ज़ी डेटा माइनिंग का लक्ष्य अपूर्ण डेटाबेस जैसी अचूक जानकारी से निपटने में मदद करना है। वर्तमान में फ़ज़ी पूर्व-प्रसंस्करण, साथ ही अन्य फ़ज़ी आधारित डेटा माइनिंग तकनीकों का तंत्रिका नेटवर्क और कृत्रिम बुद्धिमत्ता के साथ लगातार उपयोग होता है।[13]


संदर्भ

  1. "गाइड टू डेटा क्लीनिंग: डेफिनिशन, बेनिफिट्स, कंपोनेंट्स, एंड हाउ टू क्लीन योर डेटा". Tableau (in English). Retrieved 2021-10-17.
  2. Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California.
  3. Chicco D (December 2017). "कम्प्यूटेशनल बायोलॉजी में मशीन लर्निंग के लिए दस त्वरित सुझाव". BioData Mining. 10 (35): 35. doi:10.1186/s13040-017-0155-3. PMC 5721660. PMID 29234465.
  4. Oliveri, Paolo; Malegori, Cristina; Simonetti, Remo; Casale, Monica (2019). "विश्लेषणात्मक परिणामों की अंतिम व्याख्या पर सिग्नल प्रीप्रोसेसिंग का प्रभाव - एक ट्यूटोरियल". Analytica Chimica Acta (in English). 1058: 9–17. doi:10.1016/j.aca.2018.10.055. PMID 30851858. S2CID 73727614.
  5. Dou, Deijing and Wang, Hao and Liu, Haishan. "सिमेंटिक डेटा माइनिंग: ए सर्वे ऑफ़ ओन्टोलॉजी-आधारित दृष्टिकोण" (PDF) (in English). University of Oregon.{{cite web}}: CS1 maint: multiple names: authors list (link)
  6. Culmone, Rosario and Falcioni, Marco and Quadrini, Michela (2014). मानव गतिविधि मान्यता के उद्देश्य से सिमेंटिक डेटा प्रीप्रोसेसिंग के लिए एक ऑन्कोलॉजी-आधारित ढांचा. SEMAPRO 2014: The Eighth International Conference on Advances in Semantic Processing. Alexey Cheptsov, High Performance Computing Center Stuttgart (HLRS). S2CID 196091422.{{cite conference}}: CS1 maint: multiple names: authors list (link)
  7. David Perez-Rey and Alberto Anguita and Jose Crespo (2006). OntoDataClean: ओन्टोलॉजी-आधारित एकीकरण और वितरित डेटा का प्रीप्रोसेसिंग. Biological and Medical Data Analysis. Springer Berlin Heidelberg. pp. 262–272. doi:10.1007/11946465_24.
  8. Yerashenia, Natalia and Bolotov, Alexander and Chan, David and Pierantoni, Gabriele (2020). "Semantic Data Pre-Processing for Machine Learning Based Bankruptcy Prediction Computational Model". 2020 IEEE 22वां व्यावसायिक सूचना विज्ञान सम्मेलन (CBI) (PDF). IEEE. pp. 66–75. doi:10.1109/CBI49978.2020.00015. ISBN 978-1-7281-9926-9. S2CID 219499599.{{cite book}}: CS1 maint: multiple names: authors list (link)
  9. Chang, Maiga and D'Aniello, Giuseppe and Gaeta, Matteo and Orciuoli, Franceso and Sampson, Demetrois and Simonelli, Carmine (2020). "डेटा माइनिंग का उपयोग करके इंटेलिजेंट ट्यूटरिंग सिस्टम के लिए ओन्टोलॉजी-संचालित ट्यूटरिंग मॉडल का निर्माण". IEEE Access. IEEE. 8: 48151–48162. doi:10.1109/ACCESS.2020.2979281. S2CID 214594754.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  10. Dou, Deijing and Wang, Hao and Liu, Haishan. "सिमेंटिक डेटा माइनिंग: ए सर्वे ऑफ़ ओन्टोलॉजी-आधारित दृष्टिकोण" (PDF) (in English). University of Oregon.{{cite web}}: CS1 maint: multiple names: authors list (link)
  11. Kahn, Atif and Doucette, John A. and Jin, Changjiu and Fu Lijie and Cohen, Robin. "आपातकालीन चिकित्सा के लिए डेटा माइनिंग के लिए एक ऑन्कोलॉजिकल दृष्टिकोण" (PDF). University of Waterloo.{{cite web}}: CS1 maint: multiple names: authors list (link)
  12. Sirichanya, Chanmee and Kraisak Kesorn (2021). "सूचना युग में सिमेंटिक डेटा माइनिंग: एक व्यवस्थित समीक्षा". International Journal of Intelligent Systems (in English). 36 (8): 3880–3916. doi:10.1002/int.22443. S2CID 235506360.
  13. Wong, Kok Wai and Fung, Chun Che and Law, Kok Way (2000). "Fuzzy preprocessing rules for the improvement of an artificial neural network well log interpretation model". 2000 टेनकॉन कार्यवाही। न्यू मिलेनियम के लिए इंटेलिजेंट सिस्टम्स और टेक्नोलॉजीज (श्रेणी संख्या 00CH37119) (in English). Vol. 1. IEEE. pp. 400–405. doi:10.1109/TENCON.2000.893697. ISBN 0-7803-6355-8. S2CID 10384426.{{cite book}}: CS1 maint: multiple names: authors list (link)


इस पेज में लापता आंतरिक लिंक की सूची

  • आधार सामग्री की गुणवत्ता
  • लापता मूल्य
  • आंकड़ा संग्रहण
  • एक-गर्म
  • डेटा तैयारी
  • झूठी सकारात्मक और झूठी नकारात्मक
  • अल्पविराम से अलग किये गए मान
  • असमंजस का जाल
  • आर(प्रोग्रामिंग भाषा)
  • सत्तामीमांसा(सूचना विज्ञान)

बाहरी संबंध