डेटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Open standard process model}} {{Tone|date=July 2021}} {{Use dmy dates|date=October 2017}} डेटा माइनिंग के लिए क्रॉ...")
 
No edit summary
 
(6 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Open standard process model}}
{{Short description|Open standard process model}}
{{Tone|date=July 2021}}
{{Use dmy dates|date=October 2017}}


डेटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया, जिसे CRISP-DM के नाम से जाना जाता है,<ref name="Shearer00">Shearer C., ''The CRISP-DM model: the new blueprint for data mining'', J Data Warehousing (2000); 5:13—22.</ref> एक [[खुला मानक]] प्रक्रिया मॉडल है जो [[डेटा खनन]] विशेषज्ञों द्वारा उपयोग किए जाने वाले सामान्य दृष्टिकोण का वर्णन करता है। यह सबसे व्यापक रूप से उपयोग किया जाने वाला [[एनालिटिक्स]] मॉडल है।<ref>[https://www.forbes.com/sites/metabrown/2015/07/29/what-it-needs-to-know-about-the-data-mining-process/#2065f3a3515f What IT Needs To Know About The Data Mining Process] Published by Forbes, 29 July 2015, retrieved June 24, 2018</ref>
 
2015 में, [[आईबीएम]] ने [[ एनालिटिक्स सॉल्यूशंस एकीकृत विधि ]] फॉर डेटा माइनिंग/प्रिडिक्टिव एनालिटिक्स नामक एक नई पद्धति जारी की।<ref>[https://developer.ibm.com/predictiveanalytics/2015/10/16/have-you-seen-asum-dm/ Have you seen ASUM-DM?], By Jason Haffar, 16 October 2015, SPSS Predictive Analytics, IBM {{Webarchive|url=https://web.archive.org/web/20160308065035/https://developer.ibm.com/predictiveanalytics/2015/10/16/have-you-seen-asum-dm/ |date=8 March 2016 }}</ref><ref>[ftp://ftp.software.ibm.com/software/data/sw-library/services/ASUM.pdf Analytics Solutions Unified Method - Implementations with Agile principles] Published by IBM, 1 March 2016, retrieved October 5, 2018</ref> (एएसयूएम-डीएम के रूप में भी जाना जाता है), जो सीआरआईएसपी-डीएम को परिष्कृत और विस्तारित करता है।
डेटा माइनिंग के लिए क्रॉस-उद्योग मानक प्रक्रिया, जिसे क्रिस्प-डीएम के रूप में जाना जाता है, एक खुला मानक प्रक्रिया मॉडल है जो डेटा माइनिंग विशेषज्ञों द्वारा उपयोग की जाने वाली सामान्य दृष्टियों को वर्णित करता है। यह सबसे अधिक प्रयोग की जाने वाली वैश्लेषिकी मॉडल है।<ref>[https://www.forbes.com/sites/metabrown/2015/07/29/what-it-needs-to-know-about-the-data-mining-process/#2065f3a3515f What IT Needs To Know About The Data Mining Process] Published by Forbes, 29 July 2015, retrieved June 24, 2018</ref> 2015 में, [[आईबीएम]] ने एक नई विधि जारी की जिसे [[ एनालिटिक्स सॉल्यूशंस एकीकृत विधि | एनालिटिक्स सॉल्यूशंस एकीकृत विधि फॉर डेटा माइनिंग]]/प्रिडिक्टिव एनालिटिक्स के लिए एकीकृत विधि एएसयूएम-डीएम के नाम से जाना जाता है, जो सीआरआईएसपी-डीएम को संशोधित और विस्तारित करती है।


==इतिहास==
==इतिहास==


सीआरआईएसपी-डीएम की कल्पना 1996 में की गई थी और 1997 में [[सूचना प्रौद्योगिकी में अनुसंधान पर यूरोपीय रणनीतिक कार्यक्रम]] के वित्तपोषण पहल के तहत यह एक यूरोपीय संघ परियोजना बन गई। इस परियोजना का नेतृत्व पांच कंपनियों ने किया था: [[इंटीग्रल सॉल्यूशंस लिमिटेड (आईएसएल)]], [[टेराडाटा]], [[डेमलर एजी]], [[ एनसीआर निगम ]] , और [[OHRA]], एक बीमा कंपनी।
सीआरआईएसपी-डीएम की सृजन वर्ष 1996 में हुई और 1997 में [[सूचना प्रौद्योगिकी में अनुसंधान पर यूरोपीय रणनीतिक कार्यक्रम]] के वित्तपोषण पहल के अंतर्गत यूरोपीय संघ परियोजना बन गई। इस परियोजना का नेतृत्व पांच कंपनियाँ : [[इंटीग्रल सॉल्यूशंस लिमिटेड (आईएसएल)]], [[टेराडाटा]], [[डेमलर एजी]], [[ एनसीआर निगम |एनसीआर निगम]], और ओएचआरए, ने किया था


यह कोर कंसोर्टियम परियोजना में विभिन्न अनुभव लेकर आया। बाद में ISL का अधिग्रहण कर लिया गया और SPSS Inc. में विलय कर दिया गया। कंप्यूटर की दिग्गज कंपनी NCR कॉर्पोरेशन ने टेराडेटा [[डेटा वेयरहाउस]] और अपना स्वयं का डेटा माइनिंग सॉफ़्टवेयर तैयार किया। डेमलर-बेंज के पास एक महत्वपूर्ण डेटा माइनिंग टीम थी। OHRA डेटा माइनिंग के संभावित उपयोग का पता लगाना शुरू कर रहा था।
इस मुख्य संघ ने परियोजना में विभिन्न अनुभव लाए थे। आइएसएल को बाद में अधिग्रहण किया गया और एसपीएसएस में विलयित किया गया। कंप्यूटर जागतिक एनसीआर कॉर्पोरेशन नेटेराडाटा डेटा वेयरहाउस और अपने डेटा माइनिंग सॉफ़्टवेयर का उत्पादन किया। डैम्लर-बेंज में एक महत्वपूर्ण डेटा माइनिंग टीम थी। ओएचआरए  ने डेटा माइनिंग के पोटेंशियल उपयोग की खोज करना प्रारतंभ किया था।


कार्यप्रणाली का पहला संस्करण मार्च 1999 में ब्रुसेल्स में चौथी CRISP-DM SIG कार्यशाला में प्रस्तुत किया गया था।<ref name="crispDMbrussels">Pete Chapman (1999); [http://lyle.smu.edu/~mhd/8331f03/crisp.pdf ''The CRISP-DM User Guide''].</ref> और उस वर्ष के अंत में चरण-दर-चरण डेटा माइनिंग गाइड के रूप में प्रकाशित किया गया।<ref name="crispDMguide">Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); ''The CRISP-DM User Guide'' ([https://www.semanticscholar.org/paper/CRISP-DM-1.0%3A-Step-by-step-data-mining-guide-Chapman-Clinton/54bad20bbc7938991bf34f86dde0babfbd2d5a72 entry on semantic scholar, including links to PDFs]), ([https://www.the-modeling-agency.com/crisp-dm.pdf PDF version with high-resolution graphics]).</ref>
कार्यप्रणाली का पहला संस्करण मार्च 1999 में ब्रुसेल्स में चौथी क्रिस्प-डीएम एसआईजी कार्यशाला में प्रस्तुत किया गया था।<ref name="crispDMbrussels">Pete Chapman (1999); [http://lyle.smu.edu/~mhd/8331f03/crisp.pdf ''The CRISP-DM User Guide''].</ref> और उस वर्ष के अंत में चरण-दर-चरण डेटा माइनिंग गाइड के रूप में प्रकाशित किया गया।<ref name="crispDMguide">Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); ''The CRISP-DM User Guide'' ([https://www.semanticscholar.org/paper/CRISP-DM-1.0%3A-Step-by-step-data-mining-guide-Chapman-Clinton/54bad20bbc7938991bf34f86dde0babfbd2d5a72 entry on semantic scholar, including links to PDFs]), ([https://www.the-modeling-agency.com/crisp-dm.pdf PDF version with high-resolution graphics]).</ref>2006 और 2008 के बीच, एक क्रिस्प-डीएम 2.0 एसआईजी का गठन किया गया था, और क्रिस्प-डीएम प्रक्रिया मॉडल को अद्यतन करने के बारे में चर्चा हुई थी।<ref name="Shearer">Colin Shearer (2006); [http://www.kdnuggets.com/news/2006/n19/4i.html ''First CRISP-DM 2.0 Workshop Held'']</ref> इन प्रयासों की वर्तमान स्थिति ज्ञात नहीं है,यद्यपि समीक्षाओं में उद्धृत मूल क्रिस्प-dm.org वेबसाइट,<ref name="kurgan" /><ref name="AzevedoSantos" />और क्रिस्प-डीएम  2.0 एसआईजी वेबसाइट दोनों अब सक्रिय नहीं हैं।<ref name="Shearer" />
2006 और 2008 के बीच, एक CRISP-DM 2.0 SIG का गठन किया गया था, और CRISP-DM प्रक्रिया मॉडल को अद्यतन करने के बारे में चर्चा हुई थी।<ref name="Shearer">Colin Shearer (2006); [http://www.kdnuggets.com/news/2006/n19/4i.html ''First CRISP-DM 2.0 Workshop Held'']</ref> इन प्रयासों की वर्तमान स्थिति ज्ञात नहीं है। हालाँकि, समीक्षाओं में उद्धृत मूल क्रिस्प-dm.org वेबसाइट,<ref name="kurgan" /><ref name="AzevedoSantos" />और CRISP-DM 2.0 SIG वेबसाइट दोनों अब सक्रिय नहीं हैं।<ref name="Shearer" />


जबकि कई गैर-आईबीएम डेटा माइनिंग व्यवसायी CRISP-DM का उपयोग करते हैं,<ref name="KDnug2002" /><ref name="KDnug2004" /><ref name="KDnug2007" />IBM प्राथमिक निगम है जो वर्तमान में CRISP-DM प्रक्रिया मॉडल का उपयोग करता है। यह कुछ पुराने CRISP-DM दस्तावेज़ों को डाउनलोड के लिए उपलब्ध कराता है और इसने इसे अपने SPSS मॉडलर उत्पाद में शामिल किया है।<ref name="crispDMguide" />
जबकि कई गैर-आईबीएम डेटा माइनिंग व्यवसायी क्रिस्प-डीएम का उपयोग करते हैं,<ref name="KDnug2002" /><ref name="KDnug2004" /><ref name="KDnug2007" />आईबीएम प्राथमिक निगम है जो वर्तमान में क्रिस्प-डीएम प्रक्रिया मॉडल का उपयोग करता है। यह कुछ पुराने क्रिस्प-डीएम दस्तावेज़ों को डाउनलोड के लिए उपलब्ध कराता है और इसने इसे अपने एसपीएसएस मॉडलर उत्पाद में सम्मिलित किया है।<ref name="crispDMguide" />


वर्तमान शोध के आधार पर, CRISP-DM अपने विभिन्न फायदों के कारण डेटा-माइनिंग मॉडल का सबसे व्यापक रूप से इस्तेमाल किया जाने वाला रूप है, जिसने डेटा माइनिंग उद्योगों में मौजूदा समस्याओं को हल किया है। इस मॉडल की कुछ कमियाँ यह हैं कि यह परियोजना प्रबंधन गतिविधियाँ नहीं करता है। सीआरआईएसपी-डीएम की सफलता काफी हद तक इस तथ्य के कारण है कि यह उद्योग, उपकरण और अनुप्रयोग तटस्थ है।<ref>{{cite journal|last1=Mariscal,G.,Marban,O.,Fernandez,C.|title=डेटा माइनिंग और ज्ञान खोज प्रक्रिया मॉडल और कार्यप्रणाली का एक सर्वेक्षण|year=2010 |journal=The Knowledge Engineering Review|volume=25 |issue=2 |pages=137–166 |doi = 10.1017/S0269888910000032|s2cid=31359633 }}</ref>
<ref>{{cite journal|last1=Mariscal,G.,Marban,O.,Fernandez,C.|title=डेटा माइनिंग और ज्ञान खोज प्रक्रिया मॉडल और कार्यप्रणाली का एक सर्वेक्षण|year=2010 |journal=The Knowledge Engineering Review|volume=25 |issue=2 |pages=137–166 |doi = 10.1017/S0269888910000032|s2cid=31359633 }}</ref>वर्तमान अनुसंधान के आधार पर,क्रिस्प-डीएम डेटा-माइनिंग मॉडल की सबसे अधिक प्रयोग की जाने वाली रूप है क्योंकि इसके कई लाभ हैं जो डेटा-माइनिंग उद्योग में उपस्थित समस्याओं को हल करते हैं। इस मॉडल की कुछ कमियों में यह है कि इसमें परियोजना प्रबंधन गतिविधाएं नहीं होती हैं। सीआरआईएसपी-डीएम की सफलता का बड़ा हिस्सा इस बात के कारण जोड़ा जा सकता है कि यह उद्योग, उपकरण और अनुप्रयोग निष्पक्ष है।




==प्रमुख चरण==
==प्रमुख चरण==
[[File:CRISP-DM Process Diagram.png|thumb|CRISP-DM|320x320px के विभिन्न चरणों के बीच संबंध दर्शाने वाला प्रक्रिया आरेख]]CRISP-DM डेटा माइनिंग की प्रक्रिया को छह प्रमुख चरणों में विभाजित करता है:<ref name="Harper06">{{cite journal | last = Harper | first = Gavin |author2=Stephen D. Pickett |date=August 2006 | title = एचटीएस डेटा माइनिंग के तरीके| journal = [[Drug Discovery Today]] | volume = 11 | issue=15–16 | pages = 694–699 | url =https://caridokumen.com/download/methods-for-mining-hts-data-_5a462410b7d7bc7b7af27f4a_pdf |doi=10.1016/j.drudis.2006.06.006 | pmid = 16846796}}</ref>
[[File:CRISP-DM Process Diagram.png|thumb|CRISP-DM|320x320px के विभिन्न चरणों के बीच संबंध दर्शाने वाला प्रक्रिया आरेख]]क्रिस्प-डीएम डेटा माइनिंग की प्रक्रिया को छह प्रमुख चरणों में विभाजित करता है:<ref name="Harper06">{{cite journal | last = Harper | first = Gavin |author2=Stephen D. Pickett |date=August 2006 | title = एचटीएस डेटा माइनिंग के तरीके| journal = [[Drug Discovery Today]] | volume = 11 | issue=15–16 | pages = 694–699 | url =https://caridokumen.com/download/methods-for-mining-hts-data-_5a462410b7d7bc7b7af27f4a_pdf |doi=10.1016/j.drudis.2006.06.006 | pmid = 16846796}}</ref>
*व्यावसायिक समझ
*व्यावसायिक समझ
* डेटा को समझना
*डेटा को समझना
* डेटा तैयारी
*डेटा समझ
*मॉडलिंग
*मॉडलिंग
* मूल्यांकन
*मूल्यांकन
* तैनाती
*परिनियोजन


चरणों का क्रम सख्त नहीं है और आमतौर पर विभिन्न चरणों के बीच आगे-पीछे जाना आवश्यक होता है। प्रक्रिया आरेख में तीर चरणों के बीच सबसे महत्वपूर्ण और लगातार निर्भरता को दर्शाते हैं। आरेख में बाहरी वृत्त स्वयं डेटा माइनिंग की चक्रीय प्रकृति का प्रतीक है। समाधान तैनात किए जाने के बाद डेटा खनन प्रक्रिया जारी रहती है। प्रक्रिया के दौरान सीखे गए सबक नए, अक्सर अधिक केंद्रित व्यावसायिक प्रश्नों को जन्म दे सकते हैं, और बाद की डेटा माइनिंग प्रक्रियाओं को पिछले अनुभवों से लाभ होगा।
चरणों की क्रमबद्धता सख्त नहीं होती है और सामान्यतः विभिन्न चरणों के बीच आगे-पीछे जाना आवश्यक होता है। प्रक्रिया आरेख में तीर चरणों के बीच सबसे महत्वपूर्ण और लगातार निर्भरता को दर्शाते हैं। आरेख में बाहरी वृत्त स्वयं डेटा माइनिंग की चक्रीय प्रकृति का प्रतीक है। एक डेटा माइनिंग प्रक्रिया एक समाधान को लागू करने के बाद भी जारी रहती है।इस प्रक्रिया के समय प्राप्त अनुभव नई, प्रायः अधिक ध्यानित व्यापार प्रश्नों को प्रेरित कर सकते हैं, और आगामी डेटा माइनिंग प्रक्रियाओं को पूर्ववत अनुभवों से लाभ होगा।


==मतदान==
==मतदान==
2002, 2004, 2007 और 2014 में एक ही वेबसाइट ([[KDnuggets]]) पर किए गए सर्वेक्षणों से पता चलता है कि यह उद्योग डेटा खनिकों द्वारा उपयोग की जाने वाली अग्रणी पद्धति थी जिन्होंने सर्वेक्षण का जवाब देने का निर्णय लिया।<ref name="KDnug2002">Gregory Piatetsky-Shapiro (2002); [http://www.kdnuggets.com/polls/2002/methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2004">Gregory Piatetsky-Shapiro (2004); [http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2007">Gregory Piatetsky-Shapiro (2007); [http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2014">Gregory Piatetsky-Shapiro (2014); [http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html ''KDnuggets Methodology Poll'']</ref> इन चुनावों में नामित एकमात्र अन्य डेटा माइनिंग दृष्टिकोण [[SEMMA]] था। हालाँकि, एसएएस संस्थान स्पष्ट रूप से कहता है कि SEMMA एक डेटा माइनिंग पद्धति नहीं है, बल्कि एसएएस एंटरप्राइज माइनर के कार्यात्मक टूलसेट का एक तार्किक संगठन है। 2009 में डेटा माइनिंग प्रक्रिया मॉडल की समीक्षा और आलोचना ने सीआरआईएसपी-डीएम को डेटा माइनिंग और ज्ञान खोज परियोजनाओं के विकास के लिए वास्तविक मानक कहा।<ref>{{cite arXiv|last1=Martínez-Plumed|first1=Fernando|last2=Contreras-Ochando|first2=Lidia|last3=Ferri|first3=Cèsar|last4=Flach|first4=Peter|last5=Hernández-Orallo|first5=José|last6=Kull|first6=Meelis|last7=Lachiche|first7=Nicolas|last8=Ramírez-Quintana|first8=María José|date=2017-09-19|title=CASP-DM: Context Aware Standard Process for Data Mining|class=cs.DB|eprint=1709.09003}}</ref> सीआरआईएसपी-डीएम और डेटा माइनिंग प्रक्रिया मॉडल की अन्य समीक्षाओं में कुर्गन और मुसिलेक की 2006 की समीक्षा शामिल है,<ref name="kurgan">Lukasz Kurgan and Petr Musilek (2006); [http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=451120 ''A survey of Knowledge Discovery and Data Mining process models'']. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi: 10.1017/S0269888906000737.</ref> और एज़ेवेडो और सैंटोस की 2008 में CRISP-DM और SEMMA की तुलना।<ref name="AzevedoSantos">Azevedo, A. and Santos, M. F. (2008); [http://recipp.ipp.pt/bitstream/10400.22/136/3/KDD-CRISP-SEMMA.pdf KDD, SEMMA and CRISP-DM: a parallel overview]. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.</ref> कार्यप्रणाली को अद्यतन करने के प्रयास 2006 में शुरू हुए, लेकिन जून 2015 तक, एक नया संस्करण नहीं आया, और वेबसाइट के साथ जिम्मेदार विशेष रुचि समूह (एसआईजी) लंबे समय से गायब है (देखें #इतिहास|सीआरआईएसपी-डीएम का इतिहास) ).
2002, 2004, 2007 और 2014 में एक ही वेबसाइट ([[KDnuggets]]) पर आयोजित सर्वेक्षणों में यह दिखाया गया कि इसका उपयोग करने वाले उद्योग के डेटा माइनर्स द्वारा यह सर्वाधिक प्रयोग की जाने वाली विधि थी, जिन्होंने सर्वेक्षण का उत्तर देने का निर्णय लिया।<ref name="KDnug2002">Gregory Piatetsky-Shapiro (2002); [http://www.kdnuggets.com/polls/2002/methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2004">Gregory Piatetsky-Shapiro (2004); [http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2007">Gregory Piatetsky-Shapiro (2007); [http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2014">Gregory Piatetsky-Shapiro (2014); [http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html ''KDnuggets Methodology Poll'']</ref> इन सर्वेक्षणों में एकमात्र अन्य डेटा माइनिंग दृष्टिकोण [[SEMMA|एसईएमएमए]] नामित की गई थी।
 
यद्यपि, एसएएस संस्थान स्पष्ट रूप से कहता है कि [[SEMMA|एसईएमएमए]] एक डेटा माइनिंग पद्धति नहीं है, बल्कि एसएएस एंटरप्राइज माइनर के कार्यात्मक टूलसेट का एक तार्किक संगठन है। 2009 में डेटा माइनिंग प्रक्रिया मॉडल की समीक्षा और आलोचना ने सीआरआईएसपी-डीएम को डेटा माइनिंग और ज्ञान खोज परियोजनाओं के विकास के लिए वास्तविक मानक कहा।<ref>{{cite arXiv|last1=Martínez-Plumed|first1=Fernando|last2=Contreras-Ochando|first2=Lidia|last3=Ferri|first3=Cèsar|last4=Flach|first4=Peter|last5=Hernández-Orallo|first5=José|last6=Kull|first6=Meelis|last7=Lachiche|first7=Nicolas|last8=Ramírez-Quintana|first8=María José|date=2017-09-19|title=CASP-DM: Context Aware Standard Process for Data Mining|class=cs.DB|eprint=1709.09003}}</ref> सीआरआईएसपी-डीएम और डेटा माइनिंग प्रक्रिया मॉडल की अन्य समीक्षाओं में कुर्गन और मुसिलेक की 2006 की समीक्षा सम्मिलित है,<ref name="kurgan">Lukasz Kurgan and Petr Musilek (2006); [http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=451120 ''A survey of Knowledge Discovery and Data Mining process models'']. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi: 10.1017/S0269888906000737.</ref> और एज़ेवेडो और सैंटोस की 2008 मेंक्रिस्प-डीएम और [[SEMMA|एसईएमएमए]] के सापेक्ष <ref name="AzevedoSantos">Azevedo, A. and Santos, M. F. (2008); [http://recipp.ipp.pt/bitstream/10400.22/136/3/KDD-CRISP-SEMMA.pdf KDD, SEMMA and CRISP-DM: a parallel overview]. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.</ref> कार्यप्रणाली को अद्यतन करने के प्रयास 2006 में प्रारंभ किए गए, परंतु जून 2015 तक किसी नई संस्करण तक नहीं पहुंचे हैं, और "स्पेशल इंटरेस्ट ग्रुप" और वेबसाइट के साथ जिम्मेदार संगठन लंबे समय से गायब हो गया है


== संदर्भ ==
{{Reflist}}
{{Reflist}}
[[Category: एप्लाइड डेटा माइनिंग]]


[[Category: Machine Translated Page]]
[[Category:CS1 maint]]
[[Category:Created On 06/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]

Latest revision as of 21:50, 15 July 2023


डेटा माइनिंग के लिए क्रॉस-उद्योग मानक प्रक्रिया, जिसे क्रिस्प-डीएम के रूप में जाना जाता है, एक खुला मानक प्रक्रिया मॉडल है जो डेटा माइनिंग विशेषज्ञों द्वारा उपयोग की जाने वाली सामान्य दृष्टियों को वर्णित करता है। यह सबसे अधिक प्रयोग की जाने वाली वैश्लेषिकी मॉडल है।[1] 2015 में, आईबीएम ने एक नई विधि जारी की जिसे एनालिटिक्स सॉल्यूशंस एकीकृत विधि फॉर डेटा माइनिंग/प्रिडिक्टिव एनालिटिक्स के लिए एकीकृत विधि एएसयूएम-डीएम के नाम से जाना जाता है, जो सीआरआईएसपी-डीएम को संशोधित और विस्तारित करती है।

इतिहास

सीआरआईएसपी-डीएम की सृजन वर्ष 1996 में हुई और 1997 में सूचना प्रौद्योगिकी में अनुसंधान पर यूरोपीय रणनीतिक कार्यक्रम के वित्तपोषण पहल के अंतर्गत यूरोपीय संघ परियोजना बन गई। इस परियोजना का नेतृत्व पांच कंपनियाँ : इंटीग्रल सॉल्यूशंस लिमिटेड (आईएसएल), टेराडाटा, डेमलर एजी, एनसीआर निगम, और ओएचआरए, ने किया था

इस मुख्य संघ ने परियोजना में विभिन्न अनुभव लाए थे। आइएसएल को बाद में अधिग्रहण किया गया और एसपीएसएस में विलयित किया गया। कंप्यूटर जागतिक एनसीआर कॉर्पोरेशन नेटेराडाटा डेटा वेयरहाउस और अपने डेटा माइनिंग सॉफ़्टवेयर का उत्पादन किया। डैम्लर-बेंज में एक महत्वपूर्ण डेटा माइनिंग टीम थी। ओएचआरए ने डेटा माइनिंग के पोटेंशियल उपयोग की खोज करना प्रारतंभ किया था।

कार्यप्रणाली का पहला संस्करण मार्च 1999 में ब्रुसेल्स में चौथी क्रिस्प-डीएम एसआईजी कार्यशाला में प्रस्तुत किया गया था।[2] और उस वर्ष के अंत में चरण-दर-चरण डेटा माइनिंग गाइड के रूप में प्रकाशित किया गया।[3]2006 और 2008 के बीच, एक क्रिस्प-डीएम 2.0 एसआईजी का गठन किया गया था, और क्रिस्प-डीएम प्रक्रिया मॉडल को अद्यतन करने के बारे में चर्चा हुई थी।[4] इन प्रयासों की वर्तमान स्थिति ज्ञात नहीं है,यद्यपि समीक्षाओं में उद्धृत मूल क्रिस्प-dm.org वेबसाइट,[5][6]और क्रिस्प-डीएम 2.0 एसआईजी वेबसाइट दोनों अब सक्रिय नहीं हैं।[4]

जबकि कई गैर-आईबीएम डेटा माइनिंग व्यवसायी क्रिस्प-डीएम का उपयोग करते हैं,[7][8][9]आईबीएम प्राथमिक निगम है जो वर्तमान में क्रिस्प-डीएम प्रक्रिया मॉडल का उपयोग करता है। यह कुछ पुराने क्रिस्प-डीएम दस्तावेज़ों को डाउनलोड के लिए उपलब्ध कराता है और इसने इसे अपने एसपीएसएस मॉडलर उत्पाद में सम्मिलित किया है।[3]

[10]वर्तमान अनुसंधान के आधार पर,क्रिस्प-डीएम डेटा-माइनिंग मॉडल की सबसे अधिक प्रयोग की जाने वाली रूप है क्योंकि इसके कई लाभ हैं जो डेटा-माइनिंग उद्योग में उपस्थित समस्याओं को हल करते हैं। इस मॉडल की कुछ कमियों में यह है कि इसमें परियोजना प्रबंधन गतिविधाएं नहीं होती हैं। सीआरआईएसपी-डीएम की सफलता का बड़ा हिस्सा इस बात के कारण जोड़ा जा सकता है कि यह उद्योग, उपकरण और अनुप्रयोग निष्पक्ष है।


प्रमुख चरण

320x320px के विभिन्न चरणों के बीच संबंध दर्शाने वाला प्रक्रिया आरेख

क्रिस्प-डीएम डेटा माइनिंग की प्रक्रिया को छह प्रमुख चरणों में विभाजित करता है:[11]

  • व्यावसायिक समझ
  • डेटा को समझना
  • डेटा समझ
  • मॉडलिंग
  • मूल्यांकन
  • परिनियोजन

चरणों की क्रमबद्धता सख्त नहीं होती है और सामान्यतः विभिन्न चरणों के बीच आगे-पीछे जाना आवश्यक होता है। प्रक्रिया आरेख में तीर चरणों के बीच सबसे महत्वपूर्ण और लगातार निर्भरता को दर्शाते हैं। आरेख में बाहरी वृत्त स्वयं डेटा माइनिंग की चक्रीय प्रकृति का प्रतीक है। एक डेटा माइनिंग प्रक्रिया एक समाधान को लागू करने के बाद भी जारी रहती है।इस प्रक्रिया के समय प्राप्त अनुभव नई, प्रायः अधिक ध्यानित व्यापार प्रश्नों को प्रेरित कर सकते हैं, और आगामी डेटा माइनिंग प्रक्रियाओं को पूर्ववत अनुभवों से लाभ होगा।

मतदान

2002, 2004, 2007 और 2014 में एक ही वेबसाइट (KDnuggets) पर आयोजित सर्वेक्षणों में यह दिखाया गया कि इसका उपयोग करने वाले उद्योग के डेटा माइनर्स द्वारा यह सर्वाधिक प्रयोग की जाने वाली विधि थी, जिन्होंने सर्वेक्षण का उत्तर देने का निर्णय लिया।[7][8][9][12] इन सर्वेक्षणों में एकमात्र अन्य डेटा माइनिंग दृष्टिकोण एसईएमएमए नामित की गई थी।

यद्यपि, एसएएस संस्थान स्पष्ट रूप से कहता है कि एसईएमएमए एक डेटा माइनिंग पद्धति नहीं है, बल्कि एसएएस एंटरप्राइज माइनर के कार्यात्मक टूलसेट का एक तार्किक संगठन है। 2009 में डेटा माइनिंग प्रक्रिया मॉडल की समीक्षा और आलोचना ने सीआरआईएसपी-डीएम को डेटा माइनिंग और ज्ञान खोज परियोजनाओं के विकास के लिए वास्तविक मानक कहा।[13] सीआरआईएसपी-डीएम और डेटा माइनिंग प्रक्रिया मॉडल की अन्य समीक्षाओं में कुर्गन और मुसिलेक की 2006 की समीक्षा सम्मिलित है,[5] और एज़ेवेडो और सैंटोस की 2008 मेंक्रिस्प-डीएम और एसईएमएमए के सापेक्ष [6] कार्यप्रणाली को अद्यतन करने के प्रयास 2006 में प्रारंभ किए गए, परंतु जून 2015 तक किसी नई संस्करण तक नहीं पहुंचे हैं, और "स्पेशल इंटरेस्ट ग्रुप" और वेबसाइट के साथ जिम्मेदार संगठन लंबे समय से गायब हो गया है

  1. What IT Needs To Know About The Data Mining Process Published by Forbes, 29 July 2015, retrieved June 24, 2018
  2. Pete Chapman (1999); The CRISP-DM User Guide.
  3. 3.0 3.1 Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); The CRISP-DM User Guide (entry on semantic scholar, including links to PDFs), (PDF version with high-resolution graphics).
  4. 4.0 4.1 Colin Shearer (2006); First CRISP-DM 2.0 Workshop Held
  5. 5.0 5.1 Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi: 10.1017/S0269888906000737.
  6. 6.0 6.1 Azevedo, A. and Santos, M. F. (2008); KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.
  7. 7.0 7.1 Gregory Piatetsky-Shapiro (2002); KDnuggets Methodology Poll
  8. 8.0 8.1 Gregory Piatetsky-Shapiro (2004); KDnuggets Methodology Poll
  9. 9.0 9.1 Gregory Piatetsky-Shapiro (2007); KDnuggets Methodology Poll
  10. Mariscal,G.,Marban,O.,Fernandez,C. (2010). "डेटा माइनिंग और ज्ञान खोज प्रक्रिया मॉडल और कार्यप्रणाली का एक सर्वेक्षण". The Knowledge Engineering Review. 25 (2): 137–166. doi:10.1017/S0269888910000032. S2CID 31359633.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  11. Harper, Gavin; Stephen D. Pickett (August 2006). "एचटीएस डेटा माइनिंग के तरीके". Drug Discovery Today. 11 (15–16): 694–699. doi:10.1016/j.drudis.2006.06.006. PMID 16846796.
  12. Gregory Piatetsky-Shapiro (2014); KDnuggets Methodology Poll
  13. Martínez-Plumed, Fernando; Contreras-Ochando, Lidia; Ferri, Cèsar; Flach, Peter; Hernández-Orallo, José; Kull, Meelis; Lachiche, Nicolas; Ramírez-Quintana, María José (2017-09-19). "CASP-DM: Context Aware Standard Process for Data Mining". arXiv:1709.09003 [cs.DB].