डेटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया

From Vigyanwiki
Revision as of 17:07, 6 July 2023 by alpha>Indicwiki (Created page with "{{Short description|Open standard process model}} {{Tone|date=July 2021}} {{Use dmy dates|date=October 2017}} डेटा माइनिंग के लिए क्रॉ...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

डेटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया, जिसे CRISP-DM के नाम से जाना जाता है,[1] एक खुला मानक प्रक्रिया मॉडल है जो डेटा खनन विशेषज्ञों द्वारा उपयोग किए जाने वाले सामान्य दृष्टिकोण का वर्णन करता है। यह सबसे व्यापक रूप से उपयोग किया जाने वाला एनालिटिक्स मॉडल है।[2] 2015 में, आईबीएम ने एनालिटिक्स सॉल्यूशंस एकीकृत विधि फॉर डेटा माइनिंग/प्रिडिक्टिव एनालिटिक्स नामक एक नई पद्धति जारी की।[3][4] (एएसयूएम-डीएम के रूप में भी जाना जाता है), जो सीआरआईएसपी-डीएम को परिष्कृत और विस्तारित करता है।

इतिहास

सीआरआईएसपी-डीएम की कल्पना 1996 में की गई थी और 1997 में सूचना प्रौद्योगिकी में अनुसंधान पर यूरोपीय रणनीतिक कार्यक्रम के वित्तपोषण पहल के तहत यह एक यूरोपीय संघ परियोजना बन गई। इस परियोजना का नेतृत्व पांच कंपनियों ने किया था: इंटीग्रल सॉल्यूशंस लिमिटेड (आईएसएल), टेराडाटा, डेमलर एजी, एनसीआर निगम , और OHRA, एक बीमा कंपनी।

यह कोर कंसोर्टियम परियोजना में विभिन्न अनुभव लेकर आया। बाद में ISL का अधिग्रहण कर लिया गया और SPSS Inc. में विलय कर दिया गया। कंप्यूटर की दिग्गज कंपनी NCR कॉर्पोरेशन ने टेराडेटा डेटा वेयरहाउस और अपना स्वयं का डेटा माइनिंग सॉफ़्टवेयर तैयार किया। डेमलर-बेंज के पास एक महत्वपूर्ण डेटा माइनिंग टीम थी। OHRA डेटा माइनिंग के संभावित उपयोग का पता लगाना शुरू कर रहा था।

कार्यप्रणाली का पहला संस्करण मार्च 1999 में ब्रुसेल्स में चौथी CRISP-DM SIG कार्यशाला में प्रस्तुत किया गया था।[5] और उस वर्ष के अंत में चरण-दर-चरण डेटा माइनिंग गाइड के रूप में प्रकाशित किया गया।[6] 2006 और 2008 के बीच, एक CRISP-DM 2.0 SIG का गठन किया गया था, और CRISP-DM प्रक्रिया मॉडल को अद्यतन करने के बारे में चर्चा हुई थी।[7] इन प्रयासों की वर्तमान स्थिति ज्ञात नहीं है। हालाँकि, समीक्षाओं में उद्धृत मूल क्रिस्प-dm.org वेबसाइट,[8][9]और CRISP-DM 2.0 SIG वेबसाइट दोनों अब सक्रिय नहीं हैं।[7]

जबकि कई गैर-आईबीएम डेटा माइनिंग व्यवसायी CRISP-DM का उपयोग करते हैं,[10][11][12]IBM प्राथमिक निगम है जो वर्तमान में CRISP-DM प्रक्रिया मॉडल का उपयोग करता है। यह कुछ पुराने CRISP-DM दस्तावेज़ों को डाउनलोड के लिए उपलब्ध कराता है और इसने इसे अपने SPSS मॉडलर उत्पाद में शामिल किया है।[6]

वर्तमान शोध के आधार पर, CRISP-DM अपने विभिन्न फायदों के कारण डेटा-माइनिंग मॉडल का सबसे व्यापक रूप से इस्तेमाल किया जाने वाला रूप है, जिसने डेटा माइनिंग उद्योगों में मौजूदा समस्याओं को हल किया है। इस मॉडल की कुछ कमियाँ यह हैं कि यह परियोजना प्रबंधन गतिविधियाँ नहीं करता है। सीआरआईएसपी-डीएम की सफलता काफी हद तक इस तथ्य के कारण है कि यह उद्योग, उपकरण और अनुप्रयोग तटस्थ है।[13]


प्रमुख चरण

320x320px के विभिन्न चरणों के बीच संबंध दर्शाने वाला प्रक्रिया आरेख

CRISP-DM डेटा माइनिंग की प्रक्रिया को छह प्रमुख चरणों में विभाजित करता है:[14]

  • व्यावसायिक समझ
  • डेटा को समझना
  • डेटा तैयारी
  • मॉडलिंग
  • मूल्यांकन
  • तैनाती

चरणों का क्रम सख्त नहीं है और आमतौर पर विभिन्न चरणों के बीच आगे-पीछे जाना आवश्यक होता है। प्रक्रिया आरेख में तीर चरणों के बीच सबसे महत्वपूर्ण और लगातार निर्भरता को दर्शाते हैं। आरेख में बाहरी वृत्त स्वयं डेटा माइनिंग की चक्रीय प्रकृति का प्रतीक है। समाधान तैनात किए जाने के बाद डेटा खनन प्रक्रिया जारी रहती है। प्रक्रिया के दौरान सीखे गए सबक नए, अक्सर अधिक केंद्रित व्यावसायिक प्रश्नों को जन्म दे सकते हैं, और बाद की डेटा माइनिंग प्रक्रियाओं को पिछले अनुभवों से लाभ होगा।

मतदान

2002, 2004, 2007 और 2014 में एक ही वेबसाइट (KDnuggets) पर किए गए सर्वेक्षणों से पता चलता है कि यह उद्योग डेटा खनिकों द्वारा उपयोग की जाने वाली अग्रणी पद्धति थी जिन्होंने सर्वेक्षण का जवाब देने का निर्णय लिया।[10][11][12][15] इन चुनावों में नामित एकमात्र अन्य डेटा माइनिंग दृष्टिकोण SEMMA था। हालाँकि, एसएएस संस्थान स्पष्ट रूप से कहता है कि SEMMA एक डेटा माइनिंग पद्धति नहीं है, बल्कि एसएएस एंटरप्राइज माइनर के कार्यात्मक टूलसेट का एक तार्किक संगठन है। 2009 में डेटा माइनिंग प्रक्रिया मॉडल की समीक्षा और आलोचना ने सीआरआईएसपी-डीएम को डेटा माइनिंग और ज्ञान खोज परियोजनाओं के विकास के लिए वास्तविक मानक कहा।[16] सीआरआईएसपी-डीएम और डेटा माइनिंग प्रक्रिया मॉडल की अन्य समीक्षाओं में कुर्गन और मुसिलेक की 2006 की समीक्षा शामिल है,[8] और एज़ेवेडो और सैंटोस की 2008 में CRISP-DM और SEMMA की तुलना।[9] कार्यप्रणाली को अद्यतन करने के प्रयास 2006 में शुरू हुए, लेकिन जून 2015 तक, एक नया संस्करण नहीं आया, और वेबसाइट के साथ जिम्मेदार विशेष रुचि समूह (एसआईजी) लंबे समय से गायब है (देखें #इतिहास|सीआरआईएसपी-डीएम का इतिहास) ).

संदर्भ

  1. Shearer C., The CRISP-DM model: the new blueprint for data mining, J Data Warehousing (2000); 5:13—22.
  2. What IT Needs To Know About The Data Mining Process Published by Forbes, 29 July 2015, retrieved June 24, 2018
  3. Have you seen ASUM-DM?, By Jason Haffar, 16 October 2015, SPSS Predictive Analytics, IBM Archived 8 March 2016 at the Wayback Machine
  4. Analytics Solutions Unified Method - Implementations with Agile principles Published by IBM, 1 March 2016, retrieved October 5, 2018
  5. Pete Chapman (1999); The CRISP-DM User Guide.
  6. 6.0 6.1 Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); The CRISP-DM User Guide (entry on semantic scholar, including links to PDFs), (PDF version with high-resolution graphics).
  7. 7.0 7.1 Colin Shearer (2006); First CRISP-DM 2.0 Workshop Held
  8. 8.0 8.1 Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi: 10.1017/S0269888906000737.
  9. 9.0 9.1 Azevedo, A. and Santos, M. F. (2008); KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.
  10. 10.0 10.1 Gregory Piatetsky-Shapiro (2002); KDnuggets Methodology Poll
  11. 11.0 11.1 Gregory Piatetsky-Shapiro (2004); KDnuggets Methodology Poll
  12. 12.0 12.1 Gregory Piatetsky-Shapiro (2007); KDnuggets Methodology Poll
  13. Mariscal,G.,Marban,O.,Fernandez,C. (2010). "डेटा माइनिंग और ज्ञान खोज प्रक्रिया मॉडल और कार्यप्रणाली का एक सर्वेक्षण". The Knowledge Engineering Review. 25 (2): 137–166. doi:10.1017/S0269888910000032. S2CID 31359633.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  14. Harper, Gavin; Stephen D. Pickett (August 2006). "एचटीएस डेटा माइनिंग के तरीके". Drug Discovery Today. 11 (15–16): 694–699. doi:10.1016/j.drudis.2006.06.006. PMID 16846796.
  15. Gregory Piatetsky-Shapiro (2014); KDnuggets Methodology Poll
  16. Martínez-Plumed, Fernando; Contreras-Ochando, Lidia; Ferri, Cèsar; Flach, Peter; Hernández-Orallo, José; Kull, Meelis; Lachiche, Nicolas; Ramírez-Quintana, María José (19 September 2017). "CASP-DM: Context Aware Standard Process for Data Mining". arXiv:1709.09003 [cs.DB].