डेटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया: Difference between revisions

From Vigyanwiki
No edit summary
 
(4 intermediate revisions by 3 users not shown)
Line 29: Line 29:


==मतदान==
==मतदान==
2002, 2004, 2007 और 2014 में एक ही वेबसाइट ([[KDnuggets]]) पर किए गए सर्वेक्षणों से पता चलता है कि यह उद्योग डेटा खनिकों द्वारा उपयोग की जाने वाली अग्रणी पद्धति थी जिन्होंने सर्वेक्षण का जवाब देने का निर्णय लिया।<ref name="KDnug2002">Gregory Piatetsky-Shapiro (2002); [http://www.kdnuggets.com/polls/2002/methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2004">Gregory Piatetsky-Shapiro (2004); [http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2007">Gregory Piatetsky-Shapiro (2007); [http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2014">Gregory Piatetsky-Shapiro (2014); [http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html ''KDnuggets Methodology Poll'']</ref> इन चुनावों में नामित एकमात्र अन्य डेटा माइनिंग दृष्टिकोण [[SEMMA]] था। हालाँकि, एसएएस संस्थान स्पष्ट रूप से कहता है कि SEMMA एक डेटा माइनिंग पद्धति नहीं है, बल्कि एसएएस एंटरप्राइज माइनर के कार्यात्मक टूलसेट का एक तार्किक संगठन है। 2009 में डेटा माइनिंग प्रक्रिया मॉडल की समीक्षा और आलोचना ने सीआरआईएसपी-डीएम को डेटा माइनिंग और ज्ञान खोज परियोजनाओं के विकास के लिए वास्तविक मानक कहा।<ref>{{cite arXiv|last1=Martínez-Plumed|first1=Fernando|last2=Contreras-Ochando|first2=Lidia|last3=Ferri|first3=Cèsar|last4=Flach|first4=Peter|last5=Hernández-Orallo|first5=José|last6=Kull|first6=Meelis|last7=Lachiche|first7=Nicolas|last8=Ramírez-Quintana|first8=María José|date=2017-09-19|title=CASP-DM: Context Aware Standard Process for Data Mining|class=cs.DB|eprint=1709.09003}}</ref> सीआरआईएसपी-डीएम और डेटा माइनिंग प्रक्रिया मॉडल की अन्य समीक्षाओं में कुर्गन और मुसिलेक की 2006 की समीक्षा शामिल है,<ref name="kurgan">Lukasz Kurgan and Petr Musilek (2006); [http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=451120 ''A survey of Knowledge Discovery and Data Mining process models'']. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi: 10.1017/S0269888906000737.</ref> और एज़ेवेडो और सैंटोस की 2008 मेंक्रिस्प-डीएम     और SEMMA की तुलना।<ref name="AzevedoSantos">Azevedo, A. and Santos, M. F. (2008); [http://recipp.ipp.pt/bitstream/10400.22/136/3/KDD-CRISP-SEMMA.pdf KDD, SEMMA and CRISP-DM: a parallel overview]. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.</ref> कार्यप्रणाली को अद्यतन करने के प्रयास 2006 में शुरू हुए, लेकिन जून 2015 तक, एक नया संस्करण नहीं आया, और वेबसाइट के साथ जिम्मेदार विशेष रुचि समूह (एसआईजी) लंबे समय से गायब है (देखें #इतिहास|सीआरआईएसपी-डीएम का इतिहास) ).
2002, 2004, 2007 और 2014 में एक ही वेबसाइट ([[KDnuggets]]) पर आयोजित सर्वेक्षणों में यह दिखाया गया कि इसका उपयोग करने वाले उद्योग के डेटा माइनर्स द्वारा यह सर्वाधिक प्रयोग की जाने वाली विधि थी, जिन्होंने सर्वेक्षण का उत्तर देने का निर्णय लिया।<ref name="KDnug2002">Gregory Piatetsky-Shapiro (2002); [http://www.kdnuggets.com/polls/2002/methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2004">Gregory Piatetsky-Shapiro (2004); [http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2007">Gregory Piatetsky-Shapiro (2007); [http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2014">Gregory Piatetsky-Shapiro (2014); [http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html ''KDnuggets Methodology Poll'']</ref> इन सर्वेक्षणों में एकमात्र अन्य डेटा माइनिंग दृष्टिकोण [[SEMMA|एसईएमएमए]] नामित की गई थी।
 
यद्यपि, एसएएस संस्थान स्पष्ट रूप से कहता है कि [[SEMMA|एसईएमएमए]] एक डेटा माइनिंग पद्धति नहीं है, बल्कि एसएएस एंटरप्राइज माइनर के कार्यात्मक टूलसेट का एक तार्किक संगठन है। 2009 में डेटा माइनिंग प्रक्रिया मॉडल की समीक्षा और आलोचना ने सीआरआईएसपी-डीएम को डेटा माइनिंग और ज्ञान खोज परियोजनाओं के विकास के लिए वास्तविक मानक कहा।<ref>{{cite arXiv|last1=Martínez-Plumed|first1=Fernando|last2=Contreras-Ochando|first2=Lidia|last3=Ferri|first3=Cèsar|last4=Flach|first4=Peter|last5=Hernández-Orallo|first5=José|last6=Kull|first6=Meelis|last7=Lachiche|first7=Nicolas|last8=Ramírez-Quintana|first8=María José|date=2017-09-19|title=CASP-DM: Context Aware Standard Process for Data Mining|class=cs.DB|eprint=1709.09003}}</ref> सीआरआईएसपी-डीएम और डेटा माइनिंग प्रक्रिया मॉडल की अन्य समीक्षाओं में कुर्गन और मुसिलेक की 2006 की समीक्षा सम्मिलित है,<ref name="kurgan">Lukasz Kurgan and Petr Musilek (2006); [http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=451120 ''A survey of Knowledge Discovery and Data Mining process models'']. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi: 10.1017/S0269888906000737.</ref> और एज़ेवेडो और सैंटोस की 2008 मेंक्रिस्प-डीएम और [[SEMMA|एसईएमएमए]] के सापेक्ष <ref name="AzevedoSantos">Azevedo, A. and Santos, M. F. (2008); [http://recipp.ipp.pt/bitstream/10400.22/136/3/KDD-CRISP-SEMMA.pdf KDD, SEMMA and CRISP-DM: a parallel overview]. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.</ref> कार्यप्रणाली को अद्यतन करने के प्रयास 2006 में प्रारंभ किए गए, परंतु जून 2015 तक किसी नई संस्करण तक नहीं पहुंचे हैं, और "स्पेशल इंटरेस्ट ग्रुप" और वेबसाइट के साथ जिम्मेदार संगठन लंबे समय से गायब हो गया है


==संदर्भ==
{{Reflist}}
{{Reflist}}
[[Category:CS1 maint]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]

Latest revision as of 21:50, 15 July 2023


डेटा माइनिंग के लिए क्रॉस-उद्योग मानक प्रक्रिया, जिसे क्रिस्प-डीएम के रूप में जाना जाता है, एक खुला मानक प्रक्रिया मॉडल है जो डेटा माइनिंग विशेषज्ञों द्वारा उपयोग की जाने वाली सामान्य दृष्टियों को वर्णित करता है। यह सबसे अधिक प्रयोग की जाने वाली वैश्लेषिकी मॉडल है।[1] 2015 में, आईबीएम ने एक नई विधि जारी की जिसे एनालिटिक्स सॉल्यूशंस एकीकृत विधि फॉर डेटा माइनिंग/प्रिडिक्टिव एनालिटिक्स के लिए एकीकृत विधि एएसयूएम-डीएम के नाम से जाना जाता है, जो सीआरआईएसपी-डीएम को संशोधित और विस्तारित करती है।

इतिहास

सीआरआईएसपी-डीएम की सृजन वर्ष 1996 में हुई और 1997 में सूचना प्रौद्योगिकी में अनुसंधान पर यूरोपीय रणनीतिक कार्यक्रम के वित्तपोषण पहल के अंतर्गत यूरोपीय संघ परियोजना बन गई। इस परियोजना का नेतृत्व पांच कंपनियाँ : इंटीग्रल सॉल्यूशंस लिमिटेड (आईएसएल), टेराडाटा, डेमलर एजी, एनसीआर निगम, और ओएचआरए, ने किया था

इस मुख्य संघ ने परियोजना में विभिन्न अनुभव लाए थे। आइएसएल को बाद में अधिग्रहण किया गया और एसपीएसएस में विलयित किया गया। कंप्यूटर जागतिक एनसीआर कॉर्पोरेशन नेटेराडाटा डेटा वेयरहाउस और अपने डेटा माइनिंग सॉफ़्टवेयर का उत्पादन किया। डैम्लर-बेंज में एक महत्वपूर्ण डेटा माइनिंग टीम थी। ओएचआरए ने डेटा माइनिंग के पोटेंशियल उपयोग की खोज करना प्रारतंभ किया था।

कार्यप्रणाली का पहला संस्करण मार्च 1999 में ब्रुसेल्स में चौथी क्रिस्प-डीएम एसआईजी कार्यशाला में प्रस्तुत किया गया था।[2] और उस वर्ष के अंत में चरण-दर-चरण डेटा माइनिंग गाइड के रूप में प्रकाशित किया गया।[3]2006 और 2008 के बीच, एक क्रिस्प-डीएम 2.0 एसआईजी का गठन किया गया था, और क्रिस्प-डीएम प्रक्रिया मॉडल को अद्यतन करने के बारे में चर्चा हुई थी।[4] इन प्रयासों की वर्तमान स्थिति ज्ञात नहीं है,यद्यपि समीक्षाओं में उद्धृत मूल क्रिस्प-dm.org वेबसाइट,[5][6]और क्रिस्प-डीएम 2.0 एसआईजी वेबसाइट दोनों अब सक्रिय नहीं हैं।[4]

जबकि कई गैर-आईबीएम डेटा माइनिंग व्यवसायी क्रिस्प-डीएम का उपयोग करते हैं,[7][8][9]आईबीएम प्राथमिक निगम है जो वर्तमान में क्रिस्प-डीएम प्रक्रिया मॉडल का उपयोग करता है। यह कुछ पुराने क्रिस्प-डीएम दस्तावेज़ों को डाउनलोड के लिए उपलब्ध कराता है और इसने इसे अपने एसपीएसएस मॉडलर उत्पाद में सम्मिलित किया है।[3]

[10]वर्तमान अनुसंधान के आधार पर,क्रिस्प-डीएम डेटा-माइनिंग मॉडल की सबसे अधिक प्रयोग की जाने वाली रूप है क्योंकि इसके कई लाभ हैं जो डेटा-माइनिंग उद्योग में उपस्थित समस्याओं को हल करते हैं। इस मॉडल की कुछ कमियों में यह है कि इसमें परियोजना प्रबंधन गतिविधाएं नहीं होती हैं। सीआरआईएसपी-डीएम की सफलता का बड़ा हिस्सा इस बात के कारण जोड़ा जा सकता है कि यह उद्योग, उपकरण और अनुप्रयोग निष्पक्ष है।


प्रमुख चरण

320x320px के विभिन्न चरणों के बीच संबंध दर्शाने वाला प्रक्रिया आरेख

क्रिस्प-डीएम डेटा माइनिंग की प्रक्रिया को छह प्रमुख चरणों में विभाजित करता है:[11]

  • व्यावसायिक समझ
  • डेटा को समझना
  • डेटा समझ
  • मॉडलिंग
  • मूल्यांकन
  • परिनियोजन

चरणों की क्रमबद्धता सख्त नहीं होती है और सामान्यतः विभिन्न चरणों के बीच आगे-पीछे जाना आवश्यक होता है। प्रक्रिया आरेख में तीर चरणों के बीच सबसे महत्वपूर्ण और लगातार निर्भरता को दर्शाते हैं। आरेख में बाहरी वृत्त स्वयं डेटा माइनिंग की चक्रीय प्रकृति का प्रतीक है। एक डेटा माइनिंग प्रक्रिया एक समाधान को लागू करने के बाद भी जारी रहती है।इस प्रक्रिया के समय प्राप्त अनुभव नई, प्रायः अधिक ध्यानित व्यापार प्रश्नों को प्रेरित कर सकते हैं, और आगामी डेटा माइनिंग प्रक्रियाओं को पूर्ववत अनुभवों से लाभ होगा।

मतदान

2002, 2004, 2007 और 2014 में एक ही वेबसाइट (KDnuggets) पर आयोजित सर्वेक्षणों में यह दिखाया गया कि इसका उपयोग करने वाले उद्योग के डेटा माइनर्स द्वारा यह सर्वाधिक प्रयोग की जाने वाली विधि थी, जिन्होंने सर्वेक्षण का उत्तर देने का निर्णय लिया।[7][8][9][12] इन सर्वेक्षणों में एकमात्र अन्य डेटा माइनिंग दृष्टिकोण एसईएमएमए नामित की गई थी।

यद्यपि, एसएएस संस्थान स्पष्ट रूप से कहता है कि एसईएमएमए एक डेटा माइनिंग पद्धति नहीं है, बल्कि एसएएस एंटरप्राइज माइनर के कार्यात्मक टूलसेट का एक तार्किक संगठन है। 2009 में डेटा माइनिंग प्रक्रिया मॉडल की समीक्षा और आलोचना ने सीआरआईएसपी-डीएम को डेटा माइनिंग और ज्ञान खोज परियोजनाओं के विकास के लिए वास्तविक मानक कहा।[13] सीआरआईएसपी-डीएम और डेटा माइनिंग प्रक्रिया मॉडल की अन्य समीक्षाओं में कुर्गन और मुसिलेक की 2006 की समीक्षा सम्मिलित है,[5] और एज़ेवेडो और सैंटोस की 2008 मेंक्रिस्प-डीएम और एसईएमएमए के सापेक्ष [6] कार्यप्रणाली को अद्यतन करने के प्रयास 2006 में प्रारंभ किए गए, परंतु जून 2015 तक किसी नई संस्करण तक नहीं पहुंचे हैं, और "स्पेशल इंटरेस्ट ग्रुप" और वेबसाइट के साथ जिम्मेदार संगठन लंबे समय से गायब हो गया है

  1. What IT Needs To Know About The Data Mining Process Published by Forbes, 29 July 2015, retrieved June 24, 2018
  2. Pete Chapman (1999); The CRISP-DM User Guide.
  3. 3.0 3.1 Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); The CRISP-DM User Guide (entry on semantic scholar, including links to PDFs), (PDF version with high-resolution graphics).
  4. 4.0 4.1 Colin Shearer (2006); First CRISP-DM 2.0 Workshop Held
  5. 5.0 5.1 Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi: 10.1017/S0269888906000737.
  6. 6.0 6.1 Azevedo, A. and Santos, M. F. (2008); KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.
  7. 7.0 7.1 Gregory Piatetsky-Shapiro (2002); KDnuggets Methodology Poll
  8. 8.0 8.1 Gregory Piatetsky-Shapiro (2004); KDnuggets Methodology Poll
  9. 9.0 9.1 Gregory Piatetsky-Shapiro (2007); KDnuggets Methodology Poll
  10. Mariscal,G.,Marban,O.,Fernandez,C. (2010). "डेटा माइनिंग और ज्ञान खोज प्रक्रिया मॉडल और कार्यप्रणाली का एक सर्वेक्षण". The Knowledge Engineering Review. 25 (2): 137–166. doi:10.1017/S0269888910000032. S2CID 31359633.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  11. Harper, Gavin; Stephen D. Pickett (August 2006). "एचटीएस डेटा माइनिंग के तरीके". Drug Discovery Today. 11 (15–16): 694–699. doi:10.1016/j.drudis.2006.06.006. PMID 16846796.
  12. Gregory Piatetsky-Shapiro (2014); KDnuggets Methodology Poll
  13. Martínez-Plumed, Fernando; Contreras-Ochando, Lidia; Ferri, Cèsar; Flach, Peter; Hernández-Orallo, José; Kull, Meelis; Lachiche, Nicolas; Ramírez-Quintana, María José (2017-09-19). "CASP-DM: Context Aware Standard Process for Data Mining". arXiv:1709.09003 [cs.DB].