डेटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया

डेटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया, जिसे CRISP-DM के नाम से जाना जाता है,^[1] एक खुला मानक प्रक्रिया मॉडल है जो डेटा खनन विशेषज्ञों द्वारा उपयोग किए जाने वाले सामान्य दृष्टिकोण का वर्णन करता है। यह सबसे व्यापक रूप से उपयोग किया जाने वाला एनालिटिक्स मॉडल है।^[2] 2015 में, आईबीएम ने एनालिटिक्स सॉल्यूशंस एकीकृत विधि फॉर डेटा माइनिंग/प्रिडिक्टिव एनालिटिक्स नामक एक नई पद्धति जारी की।^[3]^[4] (एएसयूएम-डीएम के रूप में भी जाना जाता है), जो सीआरआईएसपी-डीएम को परिष्कृत और विस्तारित करता है।

इतिहास

सीआरआईएसपी-डीएम की कल्पना 1996 में की गई थी और 1997 में सूचना प्रौद्योगिकी में अनुसंधान पर यूरोपीय रणनीतिक कार्यक्रम के वित्तपोषण पहल के तहत यह एक यूरोपीय संघ परियोजना बन गई। इस परियोजना का नेतृत्व पांच कंपनियों ने किया था: इंटीग्रल सॉल्यूशंस लिमिटेड (आईएसएल), टेराडाटा, डेमलर एजी, एनसीआर निगम , और OHRA, एक बीमा कंपनी।

यह कोर कंसोर्टियम परियोजना में विभिन्न अनुभव लेकर आया। बाद में ISL का अधिग्रहण कर लिया गया और SPSS Inc. में विलय कर दिया गया। कंप्यूटर की दिग्गज कंपनी NCR कॉर्पोरेशन ने टेराडेटा डेटा वेयरहाउस और अपना स्वयं का डेटा माइनिंग सॉफ़्टवेयर तैयार किया। डेमलर-बेंज के पास एक महत्वपूर्ण डेटा माइनिंग टीम थी। OHRA डेटा माइनिंग के संभावित उपयोग का पता लगाना शुरू कर रहा था।

कार्यप्रणाली का पहला संस्करण मार्च 1999 में ब्रुसेल्स में चौथी CRISP-DM SIG कार्यशाला में प्रस्तुत किया गया था।^[5] और उस वर्ष के अंत में चरण-दर-चरण डेटा माइनिंग गाइड के रूप में प्रकाशित किया गया।^[6] 2006 और 2008 के बीच, एक CRISP-DM 2.0 SIG का गठन किया गया था, और CRISP-DM प्रक्रिया मॉडल को अद्यतन करने के बारे में चर्चा हुई थी।^[7] इन प्रयासों की वर्तमान स्थिति ज्ञात नहीं है। हालाँकि, समीक्षाओं में उद्धृत मूल क्रिस्प-dm.org वेबसाइट,^[8]^[9]और CRISP-DM 2.0 SIG वेबसाइट दोनों अब सक्रिय नहीं हैं।^[7]

जबकि कई गैर-आईबीएम डेटा माइनिंग व्यवसायी CRISP-DM का उपयोग करते हैं,^[10]^[11]^[12]IBM प्राथमिक निगम है जो वर्तमान में CRISP-DM प्रक्रिया मॉडल का उपयोग करता है। यह कुछ पुराने CRISP-DM दस्तावेज़ों को डाउनलोड के लिए उपलब्ध कराता है और इसने इसे अपने SPSS मॉडलर उत्पाद में शामिल किया है।^[6]

वर्तमान शोध के आधार पर, CRISP-DM अपने विभिन्न फायदों के कारण डेटा-माइनिंग मॉडल का सबसे व्यापक रूप से इस्तेमाल किया जाने वाला रूप है, जिसने डेटा माइनिंग उद्योगों में मौजूदा समस्याओं को हल किया है। इस मॉडल की कुछ कमियाँ यह हैं कि यह परियोजना प्रबंधन गतिविधियाँ नहीं करता है। सीआरआईएसपी-डीएम की सफलता काफी हद तक इस तथ्य के कारण है कि यह उद्योग, उपकरण और अनुप्रयोग तटस्थ है।^[13]

प्रमुख चरण

320x320px के विभिन्न चरणों के बीच संबंध दर्शाने वाला प्रक्रिया आरेख

CRISP-DM डेटा माइनिंग की प्रक्रिया को छह प्रमुख चरणों में विभाजित करता है:^[14]

व्यावसायिक समझ
डेटा को समझना
डेटा तैयारी
मॉडलिंग
मूल्यांकन
तैनाती

चरणों का क्रम सख्त नहीं है और आमतौर पर विभिन्न चरणों के बीच आगे-पीछे जाना आवश्यक होता है। प्रक्रिया आरेख में तीर चरणों के बीच सबसे महत्वपूर्ण और लगातार निर्भरता को दर्शाते हैं। आरेख में बाहरी वृत्त स्वयं डेटा माइनिंग की चक्रीय प्रकृति का प्रतीक है। समाधान तैनात किए जाने के बाद डेटा खनन प्रक्रिया जारी रहती है। प्रक्रिया के दौरान सीखे गए सबक नए, अक्सर अधिक केंद्रित व्यावसायिक प्रश्नों को जन्म दे सकते हैं, और बाद की डेटा माइनिंग प्रक्रियाओं को पिछले अनुभवों से लाभ होगा।

मतदान

2002, 2004, 2007 और 2014 में एक ही वेबसाइट (KDnuggets) पर किए गए सर्वेक्षणों से पता चलता है कि यह उद्योग डेटा खनिकों द्वारा उपयोग की जाने वाली अग्रणी पद्धति थी जिन्होंने सर्वेक्षण का जवाब देने का निर्णय लिया।^[10]^[11]^[12]^[15] इन चुनावों में नामित एकमात्र अन्य डेटा माइनिंग दृष्टिकोण SEMMA था। हालाँकि, एसएएस संस्थान स्पष्ट रूप से कहता है कि SEMMA एक डेटा माइनिंग पद्धति नहीं है, बल्कि एसएएस एंटरप्राइज माइनर के कार्यात्मक टूलसेट का एक तार्किक संगठन है। 2009 में डेटा माइनिंग प्रक्रिया मॉडल की समीक्षा और आलोचना ने सीआरआईएसपी-डीएम को डेटा माइनिंग और ज्ञान खोज परियोजनाओं के विकास के लिए वास्तविक मानक कहा।^[16] सीआरआईएसपी-डीएम और डेटा माइनिंग प्रक्रिया मॉडल की अन्य समीक्षाओं में कुर्गन और मुसिलेक की 2006 की समीक्षा शामिल है,^[8] और एज़ेवेडो और सैंटोस की 2008 में CRISP-DM और SEMMA की तुलना।^[9] कार्यप्रणाली को अद्यतन करने के प्रयास 2006 में शुरू हुए, लेकिन जून 2015 तक, एक नया संस्करण नहीं आया, और वेबसाइट के साथ जिम्मेदार विशेष रुचि समूह (एसआईजी) लंबे समय से गायब है (देखें #इतिहास|सीआरआईएसपी-डीएम का इतिहास) ).

संदर्भ

↑ Shearer C., The CRISP-DM model: the new blueprint for data mining, J Data Warehousing (2000); 5:13—22.
↑ What IT Needs To Know About The Data Mining Process Published by Forbes, 29 July 2015, retrieved June 24, 2018
↑ Have you seen ASUM-DM?, By Jason Haffar, 16 October 2015, SPSS Predictive Analytics, IBM Archived 8 March 2016 at the Wayback Machine
↑ Analytics Solutions Unified Method - Implementations with Agile principles Published by IBM, 1 March 2016, retrieved October 5, 2018
↑ Pete Chapman (1999); The CRISP-DM User Guide.
↑ ^6.0 ^6.1 Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); The CRISP-DM User Guide (entry on semantic scholar, including links to PDFs), (PDF version with high-resolution graphics).
↑ ^7.0 ^7.1 Colin Shearer (2006); First CRISP-DM 2.0 Workshop Held
↑ ^8.0 ^8.1 Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi: 10.1017/S0269888906000737.
↑ ^9.0 ^9.1 Azevedo, A. and Santos, M. F. (2008); KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.
↑ ^10.0 ^10.1 Gregory Piatetsky-Shapiro (2002); KDnuggets Methodology Poll
↑ ^11.0 ^11.1 Gregory Piatetsky-Shapiro (2004); KDnuggets Methodology Poll
↑ ^12.0 ^12.1 Gregory Piatetsky-Shapiro (2007); KDnuggets Methodology Poll
↑ Mariscal,G.,Marban,O.,Fernandez,C. (2010). "डेटा माइनिंग और ज्ञान खोज प्रक्रिया मॉडल और कार्यप्रणाली का एक सर्वेक्षण". The Knowledge Engineering Review. 25 (2): 137–166. doi:10.1017/S0269888910000032. S2CID 31359633.{{cite journal}}: CS1 maint: multiple names: authors list (link)
↑ Harper, Gavin; Stephen D. Pickett (August 2006). "एचटीएस डेटा माइनिंग के तरीके". Drug Discovery Today. 11 (15–16): 694–699. doi:10.1016/j.drudis.2006.06.006. PMID 16846796.
↑ Gregory Piatetsky-Shapiro (2014); KDnuggets Methodology Poll
↑ Martínez-Plumed, Fernando; Contreras-Ochando, Lidia; Ferri, Cèsar; Flach, Peter; Hernández-Orallo, José; Kull, Meelis; Lachiche, Nicolas; Ramírez-Quintana, María José (19 September 2017). "CASP-DM: Context Aware Standard Process for Data Mining". arXiv:1709.09003 [cs.DB].

[Shearer00-1] Shearer C., The CRISP-DM model: the new blueprint for data mining, J Data Warehousing (2000); 5:13—22.

[2] What IT Needs To Know About The Data Mining Process Published by Forbes, 29 July 2015, retrieved June 24, 2018

[3] Have you seen ASUM-DM?, By Jason Haffar, 16 October 2015, SPSS Predictive Analytics, IBM Archived 8 March 2016 at the Wayback Machine

[4] Analytics Solutions Unified Method - Implementations with Agile principles Published by IBM, 1 March 2016, retrieved October 5, 2018

[crispDMbrussels-5] Pete Chapman (1999); The CRISP-DM User Guide.

[crispDMguide-6] 6.0 ^6.1 Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); The CRISP-DM User Guide (entry on semantic scholar, including links to PDFs), (PDF version with high-resolution graphics).

[Shearer-7] 7.0 ^7.1 Colin Shearer (2006); First CRISP-DM 2.0 Workshop Held

[kurgan-8] 8.0 ^8.1 Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi: 10.1017/S0269888906000737.

[AzevedoSantos-9] 9.0 ^9.1 Azevedo, A. and Santos, M. F. (2008); KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.

[KDnug2002-10] 10.0 ^10.1 Gregory Piatetsky-Shapiro (2002); KDnuggets Methodology Poll

[KDnug2004-11] 11.0 ^11.1 Gregory Piatetsky-Shapiro (2004); KDnuggets Methodology Poll

[KDnug2007-12] 12.0 ^12.1 Gregory Piatetsky-Shapiro (2007); KDnuggets Methodology Poll

[13] Mariscal,G.,Marban,O.,Fernandez,C. (2010). "डेटा माइनिंग और ज्ञान खोज प्रक्रिया मॉडल और कार्यप्रणाली का एक सर्वेक्षण". The Knowledge Engineering Review. 25 (2): 137–166. doi:10.1017/S0269888910000032. S2CID 31359633.{{cite journal}}: CS1 maint: multiple names: authors list (link)

[Harper06-14] Harper, Gavin; Stephen D. Pickett (August 2006). "एचटीएस डेटा माइनिंग के तरीके". Drug Discovery Today. 11 (15–16): 694–699. doi:10.1016/j.drudis.2006.06.006. PMID 16846796.

[KDnug2014-15] Gregory Piatetsky-Shapiro (2014); KDnuggets Methodology Poll

[16] Martínez-Plumed, Fernando; Contreras-Ochando, Lidia; Ferri, Cèsar; Flach, Peter; Hernández-Orallo, José; Kull, Meelis; Lachiche, Nicolas; Ramírez-Quintana, María José (19 September 2017). "CASP-DM: Context Aware Standard Process for Data Mining". arXiv:1709.09003 [cs.DB].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

Anonymous

Search

डेटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया

Namespaces

More

Page actions

Contents

इतिहास

प्रमुख चरण

मतदान

संदर्भ

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

डेटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया

इतिहास

प्रमुख चरण

मतदान

संदर्भ

Navigation

Wiki tools

Page tools

Other projects

Categories