डेटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया: Difference between revisions
(Created page with "{{Short description|Open standard process model}} {{Tone|date=July 2021}} {{Use dmy dates|date=October 2017}} डेटा माइनिंग के लिए क्रॉ...") |
No edit summary |
||
(6 intermediate revisions by 3 users not shown) | |||
Line 1: | Line 1: | ||
{{Short description|Open standard process model}} | {{Short description|Open standard process model}} | ||
डेटा माइनिंग के लिए क्रॉस- | |||
2015 में, [[आईबीएम]] ने [[ एनालिटिक्स सॉल्यूशंस एकीकृत विधि | डेटा माइनिंग के लिए क्रॉस-उद्योग मानक प्रक्रिया, जिसे क्रिस्प-डीएम के रूप में जाना जाता है, एक खुला मानक प्रक्रिया मॉडल है जो डेटा माइनिंग विशेषज्ञों द्वारा उपयोग की जाने वाली सामान्य दृष्टियों को वर्णित करता है। यह सबसे अधिक प्रयोग की जाने वाली वैश्लेषिकी मॉडल है।<ref>[https://www.forbes.com/sites/metabrown/2015/07/29/what-it-needs-to-know-about-the-data-mining-process/#2065f3a3515f What IT Needs To Know About The Data Mining Process] Published by Forbes, 29 July 2015, retrieved June 24, 2018</ref> 2015 में, [[आईबीएम]] ने एक नई विधि जारी की जिसे [[ एनालिटिक्स सॉल्यूशंस एकीकृत विधि | एनालिटिक्स सॉल्यूशंस एकीकृत विधि फॉर डेटा माइनिंग]]/प्रिडिक्टिव एनालिटिक्स के लिए एकीकृत विधि एएसयूएम-डीएम के नाम से जाना जाता है, जो सीआरआईएसपी-डीएम को संशोधित और विस्तारित करती है। | ||
==इतिहास== | ==इतिहास== | ||
सीआरआईएसपी-डीएम की | सीआरआईएसपी-डीएम की सृजन वर्ष 1996 में हुई और 1997 में [[सूचना प्रौद्योगिकी में अनुसंधान पर यूरोपीय रणनीतिक कार्यक्रम]] के वित्तपोषण पहल के अंतर्गत यूरोपीय संघ परियोजना बन गई। इस परियोजना का नेतृत्व पांच कंपनियाँ : [[इंटीग्रल सॉल्यूशंस लिमिटेड (आईएसएल)]], [[टेराडाटा]], [[डेमलर एजी]], [[ एनसीआर निगम |एनसीआर निगम]], और ओएचआरए, ने किया था | ||
इस मुख्य संघ ने परियोजना में विभिन्न अनुभव लाए थे। आइएसएल को बाद में अधिग्रहण किया गया और एसपीएसएस में विलयित किया गया। कंप्यूटर जागतिक एनसीआर कॉर्पोरेशन नेटेराडाटा डेटा वेयरहाउस और अपने डेटा माइनिंग सॉफ़्टवेयर का उत्पादन किया। डैम्लर-बेंज में एक महत्वपूर्ण डेटा माइनिंग टीम थी। ओएचआरए ने डेटा माइनिंग के पोटेंशियल उपयोग की खोज करना प्रारतंभ किया था। | |||
कार्यप्रणाली का पहला संस्करण मार्च 1999 में ब्रुसेल्स में चौथी | कार्यप्रणाली का पहला संस्करण मार्च 1999 में ब्रुसेल्स में चौथी क्रिस्प-डीएम एसआईजी कार्यशाला में प्रस्तुत किया गया था।<ref name="crispDMbrussels">Pete Chapman (1999); [http://lyle.smu.edu/~mhd/8331f03/crisp.pdf ''The CRISP-DM User Guide''].</ref> और उस वर्ष के अंत में चरण-दर-चरण डेटा माइनिंग गाइड के रूप में प्रकाशित किया गया।<ref name="crispDMguide">Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); ''The CRISP-DM User Guide'' ([https://www.semanticscholar.org/paper/CRISP-DM-1.0%3A-Step-by-step-data-mining-guide-Chapman-Clinton/54bad20bbc7938991bf34f86dde0babfbd2d5a72 entry on semantic scholar, including links to PDFs]), ([https://www.the-modeling-agency.com/crisp-dm.pdf PDF version with high-resolution graphics]).</ref>2006 और 2008 के बीच, एक क्रिस्प-डीएम 2.0 एसआईजी का गठन किया गया था, और क्रिस्प-डीएम प्रक्रिया मॉडल को अद्यतन करने के बारे में चर्चा हुई थी।<ref name="Shearer">Colin Shearer (2006); [http://www.kdnuggets.com/news/2006/n19/4i.html ''First CRISP-DM 2.0 Workshop Held'']</ref> इन प्रयासों की वर्तमान स्थिति ज्ञात नहीं है,यद्यपि समीक्षाओं में उद्धृत मूल क्रिस्प-dm.org वेबसाइट,<ref name="kurgan" /><ref name="AzevedoSantos" />और क्रिस्प-डीएम 2.0 एसआईजी वेबसाइट दोनों अब सक्रिय नहीं हैं।<ref name="Shearer" /> | ||
2006 और 2008 के बीच, एक | |||
जबकि कई गैर-आईबीएम डेटा माइनिंग व्यवसायी | जबकि कई गैर-आईबीएम डेटा माइनिंग व्यवसायी क्रिस्प-डीएम का उपयोग करते हैं,<ref name="KDnug2002" /><ref name="KDnug2004" /><ref name="KDnug2007" />आईबीएम प्राथमिक निगम है जो वर्तमान में क्रिस्प-डीएम प्रक्रिया मॉडल का उपयोग करता है। यह कुछ पुराने क्रिस्प-डीएम दस्तावेज़ों को डाउनलोड के लिए उपलब्ध कराता है और इसने इसे अपने एसपीएसएस मॉडलर उत्पाद में सम्मिलित किया है।<ref name="crispDMguide" /> | ||
<ref>{{cite journal|last1=Mariscal,G.,Marban,O.,Fernandez,C.|title=डेटा माइनिंग और ज्ञान खोज प्रक्रिया मॉडल और कार्यप्रणाली का एक सर्वेक्षण|year=2010 |journal=The Knowledge Engineering Review|volume=25 |issue=2 |pages=137–166 |doi = 10.1017/S0269888910000032|s2cid=31359633 }}</ref>वर्तमान अनुसंधान के आधार पर,क्रिस्प-डीएम डेटा-माइनिंग मॉडल की सबसे अधिक प्रयोग की जाने वाली रूप है क्योंकि इसके कई लाभ हैं जो डेटा-माइनिंग उद्योग में उपस्थित समस्याओं को हल करते हैं। इस मॉडल की कुछ कमियों में यह है कि इसमें परियोजना प्रबंधन गतिविधाएं नहीं होती हैं। सीआरआईएसपी-डीएम की सफलता का बड़ा हिस्सा इस बात के कारण जोड़ा जा सकता है कि यह उद्योग, उपकरण और अनुप्रयोग निष्पक्ष है। | |||
==प्रमुख चरण== | ==प्रमुख चरण== | ||
[[File:CRISP-DM Process Diagram.png|thumb|CRISP-DM|320x320px के विभिन्न चरणों के बीच संबंध दर्शाने वाला प्रक्रिया आरेख]] | [[File:CRISP-DM Process Diagram.png|thumb|CRISP-DM|320x320px के विभिन्न चरणों के बीच संबंध दर्शाने वाला प्रक्रिया आरेख]]क्रिस्प-डीएम डेटा माइनिंग की प्रक्रिया को छह प्रमुख चरणों में विभाजित करता है:<ref name="Harper06">{{cite journal | last = Harper | first = Gavin |author2=Stephen D. Pickett |date=August 2006 | title = एचटीएस डेटा माइनिंग के तरीके| journal = [[Drug Discovery Today]] | volume = 11 | issue=15–16 | pages = 694–699 | url =https://caridokumen.com/download/methods-for-mining-hts-data-_5a462410b7d7bc7b7af27f4a_pdf |doi=10.1016/j.drudis.2006.06.006 | pmid = 16846796}}</ref> | ||
*व्यावसायिक समझ | *व्यावसायिक समझ | ||
* डेटा को समझना | *डेटा को समझना | ||
* डेटा | *डेटा समझ | ||
*मॉडलिंग | *मॉडलिंग | ||
* मूल्यांकन | *मूल्यांकन | ||
* | *परिनियोजन | ||
चरणों | चरणों की क्रमबद्धता सख्त नहीं होती है और सामान्यतः विभिन्न चरणों के बीच आगे-पीछे जाना आवश्यक होता है। प्रक्रिया आरेख में तीर चरणों के बीच सबसे महत्वपूर्ण और लगातार निर्भरता को दर्शाते हैं। आरेख में बाहरी वृत्त स्वयं डेटा माइनिंग की चक्रीय प्रकृति का प्रतीक है। एक डेटा माइनिंग प्रक्रिया एक समाधान को लागू करने के बाद भी जारी रहती है।इस प्रक्रिया के समय प्राप्त अनुभव नई, प्रायः अधिक ध्यानित व्यापार प्रश्नों को प्रेरित कर सकते हैं, और आगामी डेटा माइनिंग प्रक्रियाओं को पूर्ववत अनुभवों से लाभ होगा। | ||
==मतदान== | ==मतदान== | ||
2002, 2004, 2007 और 2014 में एक ही वेबसाइट ([[KDnuggets]]) पर | 2002, 2004, 2007 और 2014 में एक ही वेबसाइट ([[KDnuggets]]) पर आयोजित सर्वेक्षणों में यह दिखाया गया कि इसका उपयोग करने वाले उद्योग के डेटा माइनर्स द्वारा यह सर्वाधिक प्रयोग की जाने वाली विधि थी, जिन्होंने सर्वेक्षण का उत्तर देने का निर्णय लिया।<ref name="KDnug2002">Gregory Piatetsky-Shapiro (2002); [http://www.kdnuggets.com/polls/2002/methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2004">Gregory Piatetsky-Shapiro (2004); [http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2007">Gregory Piatetsky-Shapiro (2007); [http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm ''KDnuggets Methodology Poll'']</ref><ref name="KDnug2014">Gregory Piatetsky-Shapiro (2014); [http://www.kdnuggets.com/polls/2014/analytics-data-mining-data-science-methodology.html ''KDnuggets Methodology Poll'']</ref> इन सर्वेक्षणों में एकमात्र अन्य डेटा माइनिंग दृष्टिकोण [[SEMMA|एसईएमएमए]] नामित की गई थी। | ||
यद्यपि, एसएएस संस्थान स्पष्ट रूप से कहता है कि [[SEMMA|एसईएमएमए]] एक डेटा माइनिंग पद्धति नहीं है, बल्कि एसएएस एंटरप्राइज माइनर के कार्यात्मक टूलसेट का एक तार्किक संगठन है। 2009 में डेटा माइनिंग प्रक्रिया मॉडल की समीक्षा और आलोचना ने सीआरआईएसपी-डीएम को डेटा माइनिंग और ज्ञान खोज परियोजनाओं के विकास के लिए वास्तविक मानक कहा।<ref>{{cite arXiv|last1=Martínez-Plumed|first1=Fernando|last2=Contreras-Ochando|first2=Lidia|last3=Ferri|first3=Cèsar|last4=Flach|first4=Peter|last5=Hernández-Orallo|first5=José|last6=Kull|first6=Meelis|last7=Lachiche|first7=Nicolas|last8=Ramírez-Quintana|first8=María José|date=2017-09-19|title=CASP-DM: Context Aware Standard Process for Data Mining|class=cs.DB|eprint=1709.09003}}</ref> सीआरआईएसपी-डीएम और डेटा माइनिंग प्रक्रिया मॉडल की अन्य समीक्षाओं में कुर्गन और मुसिलेक की 2006 की समीक्षा सम्मिलित है,<ref name="kurgan">Lukasz Kurgan and Petr Musilek (2006); [http://journals.cambridge.org/action/displayAbstract?fromPage=online&aid=451120 ''A survey of Knowledge Discovery and Data Mining process models'']. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi: 10.1017/S0269888906000737.</ref> और एज़ेवेडो और सैंटोस की 2008 मेंक्रिस्प-डीएम और [[SEMMA|एसईएमएमए]] के सापेक्ष <ref name="AzevedoSantos">Azevedo, A. and Santos, M. F. (2008); [http://recipp.ipp.pt/bitstream/10400.22/136/3/KDD-CRISP-SEMMA.pdf KDD, SEMMA and CRISP-DM: a parallel overview]. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.</ref> कार्यप्रणाली को अद्यतन करने के प्रयास 2006 में प्रारंभ किए गए, परंतु जून 2015 तक किसी नई संस्करण तक नहीं पहुंचे हैं, और "स्पेशल इंटरेस्ट ग्रुप" और वेबसाइट के साथ जिम्मेदार संगठन लंबे समय से गायब हो गया है | |||
{{Reflist}} | {{Reflist}} | ||
[[Category: Machine Translated Page]] | [[Category:CS1 maint]] | ||
[[Category: | [[Category:Lua-based templates]] | ||
[[Category:Machine Translated Page]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates that add a tracking category]] | |||
[[Category:Templates that generate short descriptions]] | |||
[[Category:Templates using TemplateData]] |
Latest revision as of 21:50, 15 July 2023
डेटा माइनिंग के लिए क्रॉस-उद्योग मानक प्रक्रिया, जिसे क्रिस्प-डीएम के रूप में जाना जाता है, एक खुला मानक प्रक्रिया मॉडल है जो डेटा माइनिंग विशेषज्ञों द्वारा उपयोग की जाने वाली सामान्य दृष्टियों को वर्णित करता है। यह सबसे अधिक प्रयोग की जाने वाली वैश्लेषिकी मॉडल है।[1] 2015 में, आईबीएम ने एक नई विधि जारी की जिसे एनालिटिक्स सॉल्यूशंस एकीकृत विधि फॉर डेटा माइनिंग/प्रिडिक्टिव एनालिटिक्स के लिए एकीकृत विधि एएसयूएम-डीएम के नाम से जाना जाता है, जो सीआरआईएसपी-डीएम को संशोधित और विस्तारित करती है।
इतिहास
सीआरआईएसपी-डीएम की सृजन वर्ष 1996 में हुई और 1997 में सूचना प्रौद्योगिकी में अनुसंधान पर यूरोपीय रणनीतिक कार्यक्रम के वित्तपोषण पहल के अंतर्गत यूरोपीय संघ परियोजना बन गई। इस परियोजना का नेतृत्व पांच कंपनियाँ : इंटीग्रल सॉल्यूशंस लिमिटेड (आईएसएल), टेराडाटा, डेमलर एजी, एनसीआर निगम, और ओएचआरए, ने किया था
इस मुख्य संघ ने परियोजना में विभिन्न अनुभव लाए थे। आइएसएल को बाद में अधिग्रहण किया गया और एसपीएसएस में विलयित किया गया। कंप्यूटर जागतिक एनसीआर कॉर्पोरेशन नेटेराडाटा डेटा वेयरहाउस और अपने डेटा माइनिंग सॉफ़्टवेयर का उत्पादन किया। डैम्लर-बेंज में एक महत्वपूर्ण डेटा माइनिंग टीम थी। ओएचआरए ने डेटा माइनिंग के पोटेंशियल उपयोग की खोज करना प्रारतंभ किया था।
कार्यप्रणाली का पहला संस्करण मार्च 1999 में ब्रुसेल्स में चौथी क्रिस्प-डीएम एसआईजी कार्यशाला में प्रस्तुत किया गया था।[2] और उस वर्ष के अंत में चरण-दर-चरण डेटा माइनिंग गाइड के रूप में प्रकाशित किया गया।[3]2006 और 2008 के बीच, एक क्रिस्प-डीएम 2.0 एसआईजी का गठन किया गया था, और क्रिस्प-डीएम प्रक्रिया मॉडल को अद्यतन करने के बारे में चर्चा हुई थी।[4] इन प्रयासों की वर्तमान स्थिति ज्ञात नहीं है,यद्यपि समीक्षाओं में उद्धृत मूल क्रिस्प-dm.org वेबसाइट,[5][6]और क्रिस्प-डीएम 2.0 एसआईजी वेबसाइट दोनों अब सक्रिय नहीं हैं।[4]
जबकि कई गैर-आईबीएम डेटा माइनिंग व्यवसायी क्रिस्प-डीएम का उपयोग करते हैं,[7][8][9]आईबीएम प्राथमिक निगम है जो वर्तमान में क्रिस्प-डीएम प्रक्रिया मॉडल का उपयोग करता है। यह कुछ पुराने क्रिस्प-डीएम दस्तावेज़ों को डाउनलोड के लिए उपलब्ध कराता है और इसने इसे अपने एसपीएसएस मॉडलर उत्पाद में सम्मिलित किया है।[3]
[10]वर्तमान अनुसंधान के आधार पर,क्रिस्प-डीएम डेटा-माइनिंग मॉडल की सबसे अधिक प्रयोग की जाने वाली रूप है क्योंकि इसके कई लाभ हैं जो डेटा-माइनिंग उद्योग में उपस्थित समस्याओं को हल करते हैं। इस मॉडल की कुछ कमियों में यह है कि इसमें परियोजना प्रबंधन गतिविधाएं नहीं होती हैं। सीआरआईएसपी-डीएम की सफलता का बड़ा हिस्सा इस बात के कारण जोड़ा जा सकता है कि यह उद्योग, उपकरण और अनुप्रयोग निष्पक्ष है।
प्रमुख चरण
क्रिस्प-डीएम डेटा माइनिंग की प्रक्रिया को छह प्रमुख चरणों में विभाजित करता है:[11]
- व्यावसायिक समझ
- डेटा को समझना
- डेटा समझ
- मॉडलिंग
- मूल्यांकन
- परिनियोजन
चरणों की क्रमबद्धता सख्त नहीं होती है और सामान्यतः विभिन्न चरणों के बीच आगे-पीछे जाना आवश्यक होता है। प्रक्रिया आरेख में तीर चरणों के बीच सबसे महत्वपूर्ण और लगातार निर्भरता को दर्शाते हैं। आरेख में बाहरी वृत्त स्वयं डेटा माइनिंग की चक्रीय प्रकृति का प्रतीक है। एक डेटा माइनिंग प्रक्रिया एक समाधान को लागू करने के बाद भी जारी रहती है।इस प्रक्रिया के समय प्राप्त अनुभव नई, प्रायः अधिक ध्यानित व्यापार प्रश्नों को प्रेरित कर सकते हैं, और आगामी डेटा माइनिंग प्रक्रियाओं को पूर्ववत अनुभवों से लाभ होगा।
मतदान
2002, 2004, 2007 और 2014 में एक ही वेबसाइट (KDnuggets) पर आयोजित सर्वेक्षणों में यह दिखाया गया कि इसका उपयोग करने वाले उद्योग के डेटा माइनर्स द्वारा यह सर्वाधिक प्रयोग की जाने वाली विधि थी, जिन्होंने सर्वेक्षण का उत्तर देने का निर्णय लिया।[7][8][9][12] इन सर्वेक्षणों में एकमात्र अन्य डेटा माइनिंग दृष्टिकोण एसईएमएमए नामित की गई थी।
यद्यपि, एसएएस संस्थान स्पष्ट रूप से कहता है कि एसईएमएमए एक डेटा माइनिंग पद्धति नहीं है, बल्कि एसएएस एंटरप्राइज माइनर के कार्यात्मक टूलसेट का एक तार्किक संगठन है। 2009 में डेटा माइनिंग प्रक्रिया मॉडल की समीक्षा और आलोचना ने सीआरआईएसपी-डीएम को डेटा माइनिंग और ज्ञान खोज परियोजनाओं के विकास के लिए वास्तविक मानक कहा।[13] सीआरआईएसपी-डीएम और डेटा माइनिंग प्रक्रिया मॉडल की अन्य समीक्षाओं में कुर्गन और मुसिलेक की 2006 की समीक्षा सम्मिलित है,[5] और एज़ेवेडो और सैंटोस की 2008 मेंक्रिस्प-डीएम और एसईएमएमए के सापेक्ष [6] कार्यप्रणाली को अद्यतन करने के प्रयास 2006 में प्रारंभ किए गए, परंतु जून 2015 तक किसी नई संस्करण तक नहीं पहुंचे हैं, और "स्पेशल इंटरेस्ट ग्रुप" और वेबसाइट के साथ जिम्मेदार संगठन लंबे समय से गायब हो गया है
- ↑ What IT Needs To Know About The Data Mining Process Published by Forbes, 29 July 2015, retrieved June 24, 2018
- ↑ Pete Chapman (1999); The CRISP-DM User Guide.
- ↑ 3.0 3.1 Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); The CRISP-DM User Guide (entry on semantic scholar, including links to PDFs), (PDF version with high-resolution graphics).
- ↑ 4.0 4.1 Colin Shearer (2006); First CRISP-DM 2.0 Workshop Held
- ↑ 5.0 5.1 Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi: 10.1017/S0269888906000737.
- ↑ 6.0 6.1 Azevedo, A. and Santos, M. F. (2008); KDD, SEMMA and CRISP-DM: a parallel overview. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.
- ↑ 7.0 7.1 Gregory Piatetsky-Shapiro (2002); KDnuggets Methodology Poll
- ↑ 8.0 8.1 Gregory Piatetsky-Shapiro (2004); KDnuggets Methodology Poll
- ↑ 9.0 9.1 Gregory Piatetsky-Shapiro (2007); KDnuggets Methodology Poll
- ↑ Mariscal,G.,Marban,O.,Fernandez,C. (2010). "डेटा माइनिंग और ज्ञान खोज प्रक्रिया मॉडल और कार्यप्रणाली का एक सर्वेक्षण". The Knowledge Engineering Review. 25 (2): 137–166. doi:10.1017/S0269888910000032. S2CID 31359633.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ↑ Harper, Gavin; Stephen D. Pickett (August 2006). "एचटीएस डेटा माइनिंग के तरीके". Drug Discovery Today. 11 (15–16): 694–699. doi:10.1016/j.drudis.2006.06.006. PMID 16846796.
- ↑ Gregory Piatetsky-Shapiro (2014); KDnuggets Methodology Poll
- ↑ Martínez-Plumed, Fernando; Contreras-Ochando, Lidia; Ferri, Cèsar; Flach, Peter; Hernández-Orallo, José; Kull, Meelis; Lachiche, Nicolas; Ramírez-Quintana, María José (2017-09-19). "CASP-DM: Context Aware Standard Process for Data Mining". arXiv:1709.09003 [cs.DB].