डेटा माइनिंग

From Vigyanwiki
Revision as of 10:55, 13 December 2022 by alpha>Sureshchandra

डेटा माइनिंग बड़े डेटा सेट में पैटर्न निकालने और खोजने की प्रक्रिया है, जिसमें मशीन लर्निंग, सांख्यिकी और डेटाबेस प्रणाली के प्रतिच्छेदन के तरीके सम्मिलित होते हैं।।[1] डेटा माइनिंग कंप्यूटर विज्ञान और सांख्यिकी का एक अंतःविषय उपक्षेत्र है, जिसका समग्र लक्ष्य एक डेटा सेट से जानकारी बुद्धिमान तरीकों के साथ निकालने और आगे के उपयोग के लिए सूचना को एक बोधगम्य संरचना में बदलने का समग्र लक्ष्य रखा गया है।[1][2][3][4] डाटा माइनिंग डाटाबेस प्रक्रिया या केडीडी में नॉलेज डिस्कवरी का विश्लेषण चरण है।[5]अनिर्मित विश्लेषण कदम के अलावा, इसमें डेटाबेस और डेटा प्रबंधन पहलू, डेटा पूर्व-प्रसंस्करण, सांख्यिकीय मॉडल और सांख्यिकीय निष्कर्ष विचार, रुचि और अनुमान मीट्रिक, संगणनात्मक जटिलता सिद्धांत विचार, की खोजी गई संरचनाओं डेटा प्री-प्रोसेसिंग, डेटा दृश्यकरण और ऑनलाइन कलन विधि भी सम्मिलित।[1]

डेटा माइनिंग शब्द एक अनुपयुक्त नाम है, क्योंकि लक्ष्य बड़ी मात्रा में डेटा से नमूना और ज्ञान का निष्कर्षण है न कि डेटा का निष्कर्षण माइनिंग।[6] यह भी एक मुहावरा है[7] और अधिकांशता बड़े पैमाने पर डेटा या सूचना प्रसंस्करण संग्रह, निष्कर्षण, भंडारण, विश्लेषण और सांख्यिकी के किसी भी रूप में और कृत्रिम बुद्धि, जैसे, मशीन सीखने और व्यापार खुफिया सहित कंप्यूटर निर्णय समर्थन प्रणाली के किसी भी अनुप्रयोग पर लागू होता है।.पुस्तक डेटा माइनिंग, जावा (प्रोग्रामिंग भाषा) हैं।[8] (जिसमें ज्यादातर मशीन लर्निंग सामग्री को कवर करता है) व्यावहारिक मशीन सीखने के उपकरण और तकनीक मूल रूप से व्यावहारिक मशीन सीखने के लिए नाम दिया गया था और डेटा माइनिंग शब्द को केवल मार्केटिंग कारणों से जोड़ा गया था।[9] अधिकांशता अधिक सामान्य शब्द (बड़े पैमाने पर) डेटा विश्लेषण और विश्लेषण या वास्तविक तरीकों, कृत्रिम बुद्धिमत्ता और मशीन सीखने के संदर्भ में अधिक उपयुक्त होते हैं।

वास्तविक डेटा माइनिंग कार्य, पहले अज्ञात, दिलचस्प प्रतिरूपों जैसे डेटा रिकॉर्ड के समूह (क्लस्टर विश्लेषण), असामान्य रिकॉर्ड (विसंगति संसूचन), और निर्भरता (संगठन नियम माइनिंग, अनुक्रमिक पैटर्न माइनिंग) को निकालने के लिए डेटा की बड़ी मात्रा का अर्ध-स्वचालित या स्वचालित विश्लेषण है.यह सामान्यता स्थानिक सूचकांक जैसे डेटाबेस तकनीक का उपयोग करना सम्मिलित होता है। तब इन प्रतिरूपों को इनपुट डेटा के सारांश के रूप में देखा जा सकता है और इन्हें आगे के विश्लेषण में प्रयोग किया जा सकता है या, उदाहरण के लिए, मशीनी अध्ययन और प्राख्यान विश्लेषण में प्रयोग किया जाता है। उदाहरण के लिए, डेटा माइनिंग चरण में डेटा में कई समूहों की पहचान हो सकती है, जिन्हें निर्णय समर्थन प्रणाली द्वारा अधिक सटीक पूर्वानुमान परिणाम प्राप्त करने के लिए उपयोग किया जा सकता है,.न तो डेटा संग्रहण, डेटा तैयार करना, न ही परिणाम व्याख्या और रिपोर्टिंग डेटा माइनिंग चरण का हिस्सा है, चूँकि ये संपूर्ण केडीडी प्रक्रिया का हिस्सा हैं, जैसे कि अतिरिक्त चरण से संबंधित हैं।

डेटा विश्लेषण और डेटा माइनिंग के बीच का अंतर यह है कि डेटा विश्लेषण का उपयोग डेटासेट पर मॉडल और परिकल्पना का परीक्षण करने के लिए किया जाता है, उदाहरण के लिए, डेटा की मात्रा की परवाह किए बिना, मार्केटिंग अभियान की प्रभावशीलता का विश्लेषण करना होता है। इसके विपरीत, डेटा माइनिंग बड़ी मात्रा में डेटा में गुप्त या छिपे हुए पैटर्न को उजागर करने के लिए मशीन लर्निंग और सांख्यिकीय मॉडल का उपयोग करता है।[10]

संबंधित शब्द डेटा ड्रेजिंग, डेटा फिशिंग और डेटा स्नूपिंग एक बड़ी जनसंख्या डेटा सेट के नमूना भागों के लिए डेटा माइनिंग विधियों के उपयोग को संदर्भित किया जाता है जो विश्वसनीय सांख्यिकीय अनुमानों के लिए अत्यधिक छोटा होता है। तथापि, इन विधियों का प्रयोग बड़ी संख्या वाली जनसंख्या के विरुद्ध परीक्षण के लिए नई परिकल्पनाओं के सृजन में किया जा सकता है।

व्युत्पत्ति

1960 के दशक में सांख्यिकीविदों और अर्थशास्त्रियों ने डेटा फिशिंग पकड़ने या आंकड़े निकालने जैसे शब्दों का उपयोग उन्हें प्राथमिकता परिकल्पना के बिना आंकड़ों के विश्लेषण की बुरी अभ्यास के रूप में मानते थे।1983 में आर्थिक अध्ययनों की समीक्षा में प्रकाशित एक लेख में अर्थशास्त्री माइकल लवेल ने इसी प्रकार की आलोचनात्मक दृष्टि से "डेटा माइनिंग" शब्द का उपयोग किया था।[11][12] माइकल लवेल इंगित करते है कि अभ्यास किये जा रहे विभिन्न एलीसेस में मास्कवर की प्रक्रिया, जिसमें फिशिंग (पॉजिटिव) या स्नूपिंग नकारात्मक तक सम्मिलित की जाती है।

डेटा माइनिंग शब्द 1990 के आसपास डेटाबेस समुदाय में सामान्तया सकारात्मक अर्थों के साथ दिखाई दिया। 1980 के दशक में थोड़े समय के लिए, एक वाक्यांश डेटाबेस माइनिंग™ का उपयोग किया गया था, लेकिन चूंकि यह एचएनसी, एक सैन डिएगो आधारित कंपनी द्वारा ट्रेडमार्क किया गया था, ताकि उनके डेटाबेस माइनिंग वर्कस्टेशन को व्यापार के लिए उपयोग किया जा सके;[13] शोधकर्ताओं ने परिणामस्वरूप डेटा माइनिंग में बदल दिया। अन्य शब्दों में डेटा पुरातत्व, सूचना संचयन, सूचना खोज, ज्ञान निष्कर्षण आदि सम्मिलित हैं। ग्रेगरी पियाट्स्की-शापीरो ने पहली बार कार्यशाला (केडीडी-1989) के लिए नॉलेज डिस्कवरी शब्द का प्रयोग किया और यह शब्द एअर इंडिया और मशीनी शिक्षण के क्षेत्र में लोकप्रिय हो गया। लेकिन डेटा माइनिंग शब्द व्यापार और प्रेस समुदायों में अधिक लोकप्रिय हो गया।[14] वर्तमान में, डेटा माइनिंग और नॉलेज डिस्कवरी का उपयोग परस्पर विनिमय के लिए किया जाता है।

शैक्षिक समुदाय में प्रमुख अनुसंधान मंचों की शुरुआत 1995 में हुई जब डेटा माइनिंग और नॉलेज डिस्कवरी पर प्रथम अंतर्राष्ट्रीय सम्मेलन एएएआई प्रायोजन के अनुसार मांट्रियल में शुरू किया गया। इसकी सह-अध्यक्षता उस्मा फ़य्याद और रामासामी उथुरुसामी ने की थी। इसके एक साल बाद, 1996 में, उसामा फय्यद ने डेटा माइनिंग एंड नॉलेज डिस्कवरी नामक वोल्टर्स क्लूवर द्वारा इसके संस्थापक संपादक-इन-चीफ के रूप में पत्रिका लॉन्च की। बाद में उन्होंने एसआईजीकेडीडी समाचारपत्र एसआईजीकेडीडी अन्वेषण की शुरुआत की।[15] केडीडी अंतर्राष्ट्रीय सम्मेलन 18% से कम के अनुसंधान पत्र प्रस्तुति की स्वीकृति दर से डाटा माइनिंग में प्राथमिक उच्चतम स्तरीय सम्मेलन बन गया। जर्नल डेटा माइनिंग और नॉलेज डिस्कवरी क्षेत्र की प्राथमिक शोध पत्रिका है।

पृष्ठभूमि

डेटा से पैटर्न का मैन्युअल निष्कर्षण सदियों से हुआ है। डेटा में पैटर्न की पहचान करने के शुरुआती तरीकों में बेयस प्रमेय (1700s) और प्रतिगमन विश्लेषण (1800s) में सम्मिलित होता है।[16] कंप्यूटर प्रौद्योगिकी के प्रसार, सर्वव्यापकता और बढ़ती शक्ति ने नाटकीय रूप से डेटा संग्रह, भंडारण और नियंत्रण करने की क्षमता को बढ़ा दिया है। जैसे-जैसे डेटा सेट आकार और जटिलता में बढ़ता गया है, प्रत्यक्ष व्यावहारिक डेटा विश्लेषण को अप्रत्यक्ष, स्वचालित डेटा प्रोसेसिंग के साथ तेजी से बढ़ाया गया है। और कंप्यूटर विज्ञान में अन्य खोजों की सहायता से, विशेष रूप से मशीन अध्ययन, क्लस्टर विश्लेषण, आनुवंशिक कलन विधि, (1950 के दशक), निर्णय वृक्ष और निर्णय नियम (1960 के दशक), और समर्थन वेक्टर मशीनों (1990) में वृद्धि हुई है। डेटा माइनिंग गुप्त पैटर्न को उजागर करने के इरादे से इन तरीकों को लागू करने की प्रक्रिया है।[17] बड़े डेटा सेटों में यह अनुप्रयुक्त सांख्यिकी और कृत्रिम बुद्धि के अंतराल को पाटता है, जो सामान्तया गणितीय पृष्ठभूमि प्रदान करता है। डेटाबेस प्रबंधन के लिए जिस तरह डेटा संग्रहित और डेटाबेस में अनुक्रमित वास्तविक अधिगम और खोज कलन विधि के निष्पादन के लिए करता है, जो ऐसे उपायों को अक्षरतापूर्वक डेटा सेट में लागू करने की अनुमति देते हैं.

प्रक्रिया

डेटाबेस (केडीडी) प्रक्रिया में नॉलेज डिस्कवरी को सामान्यता चरणों के साथ परिभाषित किया जाता है:

  1. चयन
  2. प्री-प्रोसेसिंग
  3. परिवर्तन
  4. डेटा माइनिंग
  5. व्याख्या / मूल्यांकन।[5]

चूँकि, यह इस विषय पर कई रूपों में मौजूद है, डाटा माइनिंग के लिए क्रॉस-इंडस्ट्री मानक प्रक्रिया (क्रिस्प-डीएम) जो छह चरणों को परिभाषित करता है।

  1. व्यापार की समझ
  2. डेटा समझ
  3. डेटा तैयारी
  4. मॉडलिंग
  5. मूल्यांकन
  6. प्रणाली परिनियोजन

या एक सरलीकृत प्रक्रिया जैसे (1) प्री-प्रोसेसिंग, (2) डेटा माइनिंग, और (3) परिणाम सत्यापन।

2002, 2004, 2007 और 2014 में आयोजित चुनाव दर्शाते हैं कि क्रिस-डीएम पद्धति डेटा खनिकों द्वारा प्रयोग की जाने वाली प्रमुख कार्यप्रणाली है।[18] इन चुनावों में नामांकित एकमात्र अन्य डेटा माइनिंग मानक सेम्मा था। चूँकि, 3-4 गुना अधिक लोगों ने क्रिस्प-डीएम का उपयोग करने की सूचना दी। शोधकर्ताओं की कई टीमों ने डाटा माइनिंग प्रक्रिया मॉडल की समीक्षा प्रकाशित की है[19] और अजेवेदो और सैंटोस ने 2008 में क्रिस्प-डीएम और सेम्मा की तुलना की थी।[20]

प्री-प्रोसेसिंग

डेटा माइनिंग कलन विधि के प्रयोग के पहले एक लक्ष्य डेटा सेट अवश्य रखना चाहिए। चूंकि डेटा माइनिंग डेटा में वास्तव में उपस्थित पैटर्नों को उजागर कर सकती है, इसलिए लक्ष्य डेटा सेट इतना बड़ा होना चाहिए कि वह इन पैटर्नों को नियंत्रित कर सके जबकि एक स्वीकार्य समय सीमा के भीतर माइनिंग करने के लिए पर्याप्त संक्षिप्त होना चाहिए। डेटा के लिए एक आम स्रोत डेटा मार्ट या डेटा वेयरहाउस है, डेटा माइनिंग से पहले बहुभिन्नरूपी डेटा सेटों का विश्लेषण करने के लिए प्री सेट को तब साफ किया जाता है। आँकड़ा सफाई सांख्यिकीय शोरर युक्त टिप्पणियों तथा अनुपस्थित डाटा वाले टिप्पणियों को हटा देती है।

डाटा माइनिंग

डेटा माइनिंग में कार्यों के छह सामान्य वर्ग सम्मिलित होते हैं।[5]

  • विसंगति का पता लगाना (बाह्य / परिवर्तन / विचलन का पता लगाना) असामान्य डेटा रिकॉर्ड की पहचान, जो कि दिलचस्प या डेटा त्रुटियां हो सकती हैं जिनके लिए आगे की जांच की आवश्यकता होती है।
  • संगठन नियम सीखना (निर्भरता मॉडलिंग) - वेरिएबल्स के बीच संबंधों की खोज करता है। उदाहरण के लिए, एक सुपरमार्केट ग्राहक को खरीदारी की आदतों पर डेटा एकत्र कर सकता है। संगठन नियम लर्निंग का उपयोग करते हुए, सुपरमार्केट यह निर्धारित कर सकता है कि कौन से उत्पाद अधिकांशता एक साथ खरीदे जाते हैं और इस जानकारी का उपयोग मार्केटिंग उद्देश्यों के लिए करते हैं। इसे कभी-कभी मार्केट बास्केट विश्लेषण के रूप में जाना जाता है।
  • क्लस्टर विश्लेषण - डेटा में ज्ञात संरचनाओं का उपयोग किए बिना, डेटा में समूहों और संरचनाओं की खोज करने का कार्य है, जो किसी न किसी रूप में या अन्य समान हैं।
  • सांख्यिकीय वर्गीकरण - नए डेटा पर लागू करने के लिए ज्ञात संरचना को सामान्य बनाने का कार्य है। उदाहरण के लिए, एक ई-मेल प्रोग्राम किसी ई-मेल को वैध या स्पैम के रूप में वर्गीकृत करने का प्रयास कर सकता है।
  • प्रतिगमन विश्लेषण - एक फलन खोजने का प्रयास करता है जो डेटा या डेटासेट के बीच संबंधों का अनुमान लगाने के लिए डेटा को कम से कम त्रुटि के साथ मॉडल करता है।
  • स्वचालित सारांश - प्रत्योक्षकरण और रिपोर्ट जनरेशन सहित डेटा सेट का अधिक कॉम्पैक्ट प्रतिनिधित्व प्रदान करना।

परिणाम सत्यापन

सांख्यिकीविद् टायलर विगेन द्वारा संचालित एक बॉट के माध्यम से डेटा ड्रेजिंग द्वारा उत्पादित डेटा का एक उदाहरण, स्पष्ट रूप से स्पेलिंग बी प्रतियोगिता जीतने वाले सर्वश्रेष्ठ शब्द और जहरीली मकड़ियों द्वारा मारे गए संयुक्त राज्य में लोगों की संख्या के बीच एक करीबी लिंक दिखा रहा है। रुझानों में समानता जाहिर तौर पर एक संयोग है।

डेटा माइनिंग का अनजाने में दुरुपयोग किया जा सकता है, उन परिणामों का उत्पादन जो महत्वपूर्ण प्रतीत होते हैं लेकिन जिन पर वास्तव में भविष्य के व्यवहार की भविष्यवाणी नहीं की जाती और उन्हें डेटा के एक नए नमूने पर नहीं पेश किया जा सकता है, इसलिए इसका बहुत कम उपयोग होता है। यह कभी कभी कई परिकल्पनाओं की जांच के कारण होता है और उचित सांख्यिकीय परिकल्पना परीक्षण नहीं के कारण होता है। मशीन लर्निंग की इस समस्या के सरल संस्करण को ओवरफिटिंग के रूप में जाना जाता है, लेकिन यह एक ही समस्या प्रक्रिया के विभिन्न चरणों में खड़ी हो सकती है और इस प्रकार सभी पर लागू हो जाने पर एक ट्रेन/टेस्ट स्प्लिट जब भी लागू हो इसे होने से रोकने के लिए पर्याप्त नहीं हो सकता है।[21]

डेटा से नॉलेज डिस्कवरी का अंतिम चरण यह सत्यापित करना है कि डेटा माइनिंग कलन विधि द्वारा निर्मित पैटर्न व्यापक डेटा सेट में घटित होती है। कलन विधि द्वारा पाए गए सभी पैटर्न आवश्यक रूप से मान्य नहीं हैं। डेटा माइनिंग कलन विधि के लिए प्रशिक्षण सेट में ऐसे पैटर्न ढूंढना आम बात है जो सामान्य डेटा सेट में मौजूद नहीं हैं। इसे ओवरफिटिंग कहा जाता है। इसे दूर करने के लिए, मूल्यांकन डेटा के एक परीक्षण सेट का उपयोग करता है जिस पर डेटा माइनिंग कलन विधि को प्रशिक्षित नहीं किया गया था। सीखे गए पैटर्न इस परीक्षण सेट पर लागू होते हैं, और परिणामस्वरूप आउटपुट की तुलना वांछित आउटपुट से की जाती है। उदाहरण के लिए, डेटा माइनिंग कलन विधि जो "स्पैम" को वैध "ई-मेल से अलग करने की कोशिश करता है, उसे नमूना ई-मेल के प्रशिक्षण सेट पर प्रशिक्षित किया जाएगा। एक बार प्रशिक्षित होने के बाद, सीखे हुए पैटर्न को उन ई-मेल के परीक्षण सेट पर लागू किया जाएगा जिन पर उसे प्रशिक्षित नहीं किया गया था। पैटर्न की सटीकता को तब मापा जा सकता है कि वे कितने ई-मेल को सही ढंग से वर्गीकृत करते हैं। कलन विधि का मूल्यांकन करने के लिए कई सांख्यिकीय विधियों का उपयोग किया जा सकता है, जैसे रिसीवर ऑपरेटिंग विशेषता।

यदि सीखे गए पैटर्न वांछित मानकों को पूरा नहीं करते हैं, तो पूर्व-प्रसंस्करण और डेटा माइनिंग चरणों का पुनर्मूल्यांकन और परिवर्तन करना आवश्यक है। यदि सीखे हुए पैटर्न वांछित मानकों को पूरा करते हैं, तो अंतिम चरण सीखे गए पैटर्न की व्याख्या करना और उन्हें ज्ञान में बदलना है।

अनुसंधान

नॉलेज डिस्कवरी एंड डेटा माइनिंग (सिग्केडीडी) पर संगणक तंत्र संस्था (एसीएम) विशेष हित समूह (एसआईजी ) इस क्षेत्र की प्रमुख पेशेवर संस्था है।[22][23] 1989 से, इस एसीएम, एसआईजी ने एक वार्षिक अंतर्राष्ट्रीय सम्मेलन की मेजबानी की है और इसकी कार्यवाही प्रकाशित की है,[24] 999 के बाद से इसने दो वार्षिक अकादमिक पत्रिका 'हस्ताक्षरित खोज' प्रकाशित की है।[25]

डाटा माइनिंग पर कंप्यूटर विज्ञान सम्मेलनों में सम्मिलित होता है।

  • सीआईकेएम सम्मेलन - सूचना और ज्ञान प्रबंधन पर एसीएम सम्मेलन
  • मशीन लर्निंग और डेटाबेस में ज्ञान खोज के सिद्धांतों और अभ्यास पर यूरोपीय सम्मेलन
  • केडीडी सम्मेलन - ज्ञान खोज और डेटा माइनिंग पर एसीएम एसआईजीकेडीडी सम्मेलन

डेटा माइनिंग के लिए कई डेटा प्रबंधन/डेटाबेस सम्मेलनों जैसे आईसीडीई सम्मेलन, सिग्मोड सम्मेलन और बहुत बड़े डेटा बेस पर अंतर्राष्ट्रीय सम्मेलन में डेटा माइनिंग विषय भी मौजूद हैं।

मानक

डेटा माइनिंग प्रक्रिया के लिए मानकों को परिभाषित करने के कुछ प्रयास किए गए हैं, उदाहरण के लिए 1999 में यूरोपीय डाटा माइनिंग के लिए क्रॉस इंडस्ट्री के लिए मानक प्रक्रिया (क्रिस-डीएम 1.0) और 2004 जावा डेटा माइनिंग मानक (जेडीएम 1.0)। इन प्रक्रियाओं के उत्तराधिकारियों पर विकास (क्रिस्प-डीएम 2.0 और जेडीएम 2.0) 2006 में सक्रिय रहा लेकिन तब से रुका हुआ है।.जेडीएम 2.0 को अंतिम मसौदे पर पहुंचने के बिना वापस ले लिया गया था।.

विशेष रूप से पूर्वानुमानित विश्लेषण में उपयोग के लिए निकाले गए मॉडलों के आदान-प्रदान के लिए-मुख्य मानक पूर्वानुमानित मॉडल मार्कअप लैंग्वेज (पीएमएमएल) है, जावा डाटा माइनिंग ग्रुप (डीएमजी) द्वारा विकसित एक एक्सएमएल-आधारित लैंग्वेज है और कई डेटा माइनिंग अनुप्रयोगों द्वारा विनिमय प्रारूप के रूप में समर्थित है। जैसा कि नाम से पता चलता है, यह केवल भविष्यवाणी मॉडल, व्यावसायिक अनुप्रयोगों के लिए उच्च महत्व के एक विशेष डेटा माइनिंग कार्य को कवर करता है। चूँकि, कवर करने के लिए विस्तार (उदाहरण के लिए) सबस्पेस क्लस्टरिंग डीएमजी से स्वतंत्र रूप से प्रस्तावित किया गया है।[26]

उल्लेखनीय उपयोग

आज जहाँ भी डिजिटल डेटा उपलब्ध है, डेटा माइनिंग का उपयोग किया जाता है। डाटा माइनिंग के उल्लेखनीय उदाहरण पूरे व्यापार, चिकित्सा, विज्ञान और निगरानी में पाए जा सकते हैं।

गोपनीयता चिंताएं और नैतिकता

जबकि डेटा माइनिंग शब्द का स्वयं कोई नैतिक निहितार्थ नहीं हो सकता है, परंतु यह बहुधा प्रयोक्ता व्यवहार विश्लेषण (नैतिक एवं अन्यथा) के संबंध में सूचना के माइनिंग के साथ संबद्ध होता है।।[27]

डेटा माइनिंग का उपयोग किस तरीके से किया जा सकता है। यह कुछ मामलों में और संदर्भों में गोपनीयता, वैधता और नैतिकता से संबंधित प्रश्न उठा सकते हैं।[28] विशेष रूप से, राष्ट्रीय सुरक्षा या कानून प्रवर्तन उद्देश्यों के लिए डेटा माइनिंग सरकार या वाणिज्यिक डेटा सेट, जैसे कुल सूचना जागरूकता कार्यक्रम या सलाह में, गोपनीयता संबंधी चिंताएं बढ़ी हैं।[29][30]

डेटा माइनिंग के लिए डेटा तैयार करने की आवश्यकता होती है जो गोपनीयता और डेटा गोपनीयता के दायित्वों के साथ समझौता करने वाली सूचनाओं या पैटर्न को उजागर करती है। ऐसा होने का एक सामान्य तरीका समग्र कार्य के माध्यम से होता है। डेटा एकत्रीकरण में डेटा को इस प्रकार से संयोजित करना सम्मिलित होता है (संभवतः विभिन्न स्रोतों से) जो विश्लेषण की सुविधा देता है (लेकिन यह निजी, व्यक्तिगत-स्तर के डेटा निगम्य या अन्यथा स्पष्ट रूप से उसकी पहचान हो सकती है)।[31] यह डेटा माइनिंग नहीं है, बल्कि विश्लेषण से पहले और उद्देश्यों के लिए डेटा तैयार करने का परिणाम है। एक व्यक्ति की गोपनीयता के लिए खतरा तब उत्पन्न होता है जब डेटा, एक बार संकलित, डेटा खनिक, या कोई भी जो नए संकलित डेटा सेट तक पहुँच रखता है, विशिष्ट व्यक्तियों की पहचान करने में सक्षम हो, विशेष रूप से जब डेटा मूल रूप से गुमनाम थे।[32]

इसकी सलाह दी जाती है[according to whom?] डेटा एकत्र करने से पहले निम्नलिखित के बारे में जागरूक होना[31]

  • डेटा संग्रह और किसी भी (ज्ञात) डेटा माइनिंग प्रोजेक्ट का उद्देश्य।
  • डेटा का उपयोग कैसे किया जाएगा।
  • जो डेटा को माइन करने और डेटा और उनके डेरिवेटिव का उपयोग करने में सक्षम होंगे।
  • डेटा तक पहुंच के आसपास सुरक्षा की स्थिति।
  • एकत्रित डेटा को कैसे अपडेट किया जा सकता है।

डेटा को गुमनाम बनाने के लिए संशोधित भी किया जा सकता है, ताकि व्यक्ति की पहचान को आसानी से न किया जा सके।[31]चूँकि, यहां तक ​​कि डेटा गुमनामी डेटा सेट में संभावित रूप से व्यक्तियों की पहचान की अनुमति देने के लिए पर्याप्त जानकारी हो सकती है, जैसा कि जब पत्रकार एओ द्वारा जारी किए गए खोज इतिहास के एक समूह के आधार पर अनेक व्यक्तियों को खोजने में सक्षम थे जो अनजाने में एओएल द्वारा जारी किए गए थे।[33]

प्रदाता के लिए अग्रणी व्यक्तिगत रूप से पहचान योग्य जानकारी का अनजाने रहस्योद्घाटन उचित सूचना प्रथाओं का उल्लंघन करता है। यह अविवेक वित्तीय कारण बन सकता है, संकेतित व्यक्ति को भावनात्मक, या शारीरिक नुकसान हो सकता है। गोपनीयता उल्लंघन के एक उदाहरण में, वालग्रीन्स के संरक्षकों ने 2011 में कंपनी के खिलाफ डेटा बेचने के लिए मुकदमा दायर किया। डेटा माइनिंग कंपनियों को जिन्होंने दवा कंपनियों को सूचनाएं उपलब्ध कराई।।[34]

यूरोप में स्थिति

यूरोपीय संघ में काफी मजबूत गोपनीयता कानून हैं, और उपभोक्ताओं के अधिकारों को और मजबूत करने के प्रयास चल रहे हैं। चूँकि, अंतरराष्ट्रीय सेफ हार्बर गोपनीयता सिद्धांत यू.एस.-ई.यू. 1998 और 2000 के बीच विकसित किया गया है। इस समय इसने यूरोपीय प्रयोक्ताओं को अमेरिकी कंपनियों द्वारा गोपनीयता शोषण का प्रभावी रूप से पर्दाफाश किया है। एडवर्ड स्नो डेन के वैश्विक निगरानी प्रकटीकरण के परिणामस्वरूप इस समझौते को रद्द करने पर चर्चा बढ़ गई है, विशेष रूप से आंकड़ों को पूरी तरह राष्ट्रीय सुरक्षा एजेंसी के सामने रखा जाएगा, और संयुक्त राज्य अमेरिका के साथ समझौते पर पहुँचने का प्रयास विफल हो गए हैं।[35]

विशेष रूप से यूनाइटेड किंगडम में ऐसे मामले सामने आए हैं जब निगमों ने डेटा माइनिंग का उपयोग ग्राहकों के कुछ समूहों को लक्षित करने के लिए किया, जिससे उन्हें अनुचित रूप से उच्च कीमतों का भुगतान करने के लिए मजबूर होना पड़ा। ये समूह निम्न सामाजिक-आर्थिक स्थिति के लोग होते हैं जो डिजिटल मार्केट स्थानों में उनका शोषण करने के तरीकों से परिचित नहीं होते हैं।[36]

संयुक्त राज्य अमेरिका में स्थिति

संयुक्त राज्य अमेरिका में, स्वास्थ्य बीमा सुवाह्यता और जवाबदेही अधिनियम (हिपा)) जैसे नियामक नियंत्रणों के पारित होने के माध्यम से अमेरिकी कांग्रेस द्वारा गोपनीयता चिंताओं को को दूर किया है। हिपा के लिए व्यक्तियों को उनके द्वारा प्रदान की जाने वाली जानकारी और इसके इच्छित वर्तमान और भविष्य के उपयोगों के संबंध में अपनी जानकारी दी जाने वाली सहमति देने की आवश्यकता होती है, जैसा कि एएचएचसी का कहना है, जैव प्रौद्योगिकी व्यापार सप्ताह में एक लेख के अनुसार, [i] एन अभ्यास, हिपा अनुसंधान क्षेत्र में लंबे समय से चल रहे नियमों से ज्यादा सुरक्षा प्रदान नहीं कर सकता है। सबसे महत्वपूर्ण बात यह है कि सूचित सहमति के माध्यम से सुरक्षा के नियम का लक्ष्य औसत व्यक्तियों के लिए समझ से बाहर का स्तर है[37] यह डेटा एकत्रीकरण और माइनिंग प्रथाओं में डेटा गुमनामी की आवश्यकता को रेखांकित करता है।

अमेरिकी सूचना गोपनीयता कानून जैसे हिपा और पारिवारिक शैक्षिक अधिकार और गोपनीयता अधिनियम (फेरपा) केवल उन विशिष्ट क्षेत्रों पर लागू होते हैं, जो ऐसे प्रत्येक कानून को संबोधित करते हैं। यू.एस. में अधिकांश व्यवसायों द्वारा डेटा माइनिंग का उपयोग किसी भी कानून द्वारा नियंत्रित नहीं किया जाता है।

कॉपीराइट कानून

यूरोप में स्थिति

यूरोपीय कॉपीराइट और डेटाबेस कानूनों के अनुसार कॉपीराइट स्वामी की अनुमति के बिना कॉपीराइट कार्यों (जैसे वेब माइनिंग द्वारा) के माइनिंग कानूनी नहीं है। जहां यूरोप में एक डेटाबेस शुद्ध डेटा है,, तो यह हो सकता है कि कोई कॉपीराइट नहीं है लेकिन डेटाबेस अधिकार मौजूद हो सकते हैं, इसलिए डेटा माइनिंग बौद्धिक संपदा मालिक के अधिकारों के अधीन हो जाता है, जो डेटाबेस निर्देश द्वारा संरक्षित हैं, हार्ग्रैव्स के पुनर्विलोकन की सिफारिश से ब्रिटेन की सरकार ने अपने कॉपीराइट कानून में 2014 में संशोधन किया ताकि सामग्री माइनिंग को एक सीमा और अपवाद के रूप में प्रदान किया जा सके। जापान के बाद यू.के. विश्व का दूसरा देश था जिसने 2009 में डेटा माइनिंग में एक अपवाद की घोषणा की। चूँकि, सूचना सोसायटी निर्देश (2001) के प्रतिबंध के कारण, यूके अपवाद केवल गैर-वाणिज्यिक उद्देश्यों के लिए सामग्री माइनिंग की अनुमति देता है। यूके कॉपीराइट कानून भी इस प्रावधान को संविदात्मक नियमों और शर्तों द्वारा ओवरराइड करने की अनुमति नहीं देता है। 2020 से लेकर स्विट्जरलैंड भी डाटा माइनिंग को विनियमित करने के लिए इसे कला के अनुसार निर्धारित शर्तों के अंतर्गत प्रदान किया गया है। स्विस कॉपीराइट अधिनियम के 24 डी में यह नया लेख 1 अप्रैल 2020 को लागू हुआ।[38]

यूरोपीय आयोग ने यूरोप के लिए लाइसेंस के अनुसार 2013 में पाठ और डेटा माइनिंग पर हितधारक चर्चा की सुविधा प्रदान की।[39] इस कानूनी मुद्दे के समाधान पर ध्यान केंद्रित करने के कारण विश्वविद्यालयों, अनुसंधानकर्ताओं, पुस्तकालयों, नागरिक समाज समूहों तथा ओपन एक्सेस प्रकाशकों के प्रतिनिधियों ने हितधारक संवाद मई, 2013 में छोड़ने के लिए प्रेरित किया।[40]

संयुक्त राज्य अमेरिका में स्थिति

संयुक्त राज्य अमेरिका का कॉपीराइट कानून और विशेष रूप से उचित उपयोग के लिए इसका प्रावधान अमेरिका में सामग्री माइनिंग की वैधता और इजरायल, ताइवान और दक्षिण कोरिया जैसे अन्य उचित उपयोग वाले देशों का समर्थन करता है। जैसे-जैसे माइनिंग रूपांतरकारी होता है, अर्थात यह मूल कार्य को प्रतिस्थापित नहीं करता है, इसलिए उसे उचित उपयोग में रखकर विधिमान्य माना जाता है। उदाहरण के लिए, गूगल बुक निपटान के भाग के रूप में इस मामले के पीठासीन न्यायाधीश ने निर्णय दिया कि कॉपीराइट रहित पुस्तकों की अंकरूपण परियोजना कानूनी रूप से सही थी, आंशिक रूप से अंकरूपण परियोजना जिसका अंकरूपण उपयोग हो रहा है, एक टेक्स्ट और डाटा माइनिंग है।.[41]

सॉफ्टवेयर


मुफ्त ओपनएनएन-सोर्स डेटा माइनिंग सॉफ्टवेयर और एप्लिकेशन

नि:शुल्क/ओपन-सोर्स लाइसेंस के अनुसार निम्नलिखित अनुप्रयोग उपलब्ध हैं। अनुप्रयोग स्रोत कोड तक सार्वजनिक पहुंच भी उपलब्ध है।

  • सीएआरआरओटी2: पाठ और खोज परिणाम क्लस्टरिंग फ्रेमवर्क।
  • रासायनिक संगठन: एक रासायनिक संरचना माइनर और वेब सर्च इंजन।
  • एल्की: जावा (प्रोग्रामिंग भाषा) भाषा में लिखे गए उन्नत क्लस्टर विश्लेषण और विसंगति का पता लगाने के तरीकों के साथ एक विश्वविद्यालय अनुसंधान परियोजना।
  • टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला: एक प्राकृतिक भाषा प्रसंस्करण और भाषा इंजीनियरिंग उपकरण।
  • केएनआईएमइ: कोंस्टांज इंफॉर्मेशन माइनर, एक उपयोगकर्ता के अनुकूल और व्यापक डेटा एनालिटिक्स फ्रेमवर्क।
  • एमओए (मैसिव ऑनलाइन एनालिसिस): मैसिव ऑनलाइन एनालिसिस (एमओए), जावा (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में कॉन्सेप्ट ड्रिफ्ट टूल के साथ रियल-टाइम बिग डेटा स्ट्रीम माइनिंग।
  • बहु अभिव्यक्ति प्रोग्रामिंग: जेनेटिक प्रोग्रामिंग वेरिएंट के आधार पर रिग्रेशन और वर्गीकरण समस्याओं के लिए क्रॉस-प्लेटफ़ॉर्म टूल।
  • एमएलपैक: सी++ भाषा में लिखे गए रेडी-टू-यूज़ मशीन लर्निंग कलन विधि का संग्रह।
  • एनएलटीके (प्राकृतिक भाषा टूलकिट): पायथन (प्रोग्रामिंग भाषा) भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक सूट।
  • ओपेनएनएन: ओपन न्यूरल नेटवर्क लाइब्रेरी।
  • ऑरेंज (सॉफ्टवेयर): एक घटक-आधारित डेटा माइनिंग और मशीन लर्निंग सॉफ्टवेयर सूट जो पायथन (प्रोग्रामिंग लैंग्वेज) भाषा में लिखा गया है।
  • पीएसपीपी: एसपीएसएस के समान जीएनयू परियोजना के अनुसार डेटा माइनिंग और स्टैटिस्टिक्स सॉफ़्टवेयर
  • आर (प्रोग्रामिंग भाषा): सांख्यिकी कंप्यूटिंग, डेटा माइनिंग और ग्राफिक्स के लिए एक प्रोग्रामिंग लैंग्वेज नारंगी (सॉफ्टवेयर) वातावरण। यह जीएनयू प्रोजेक्ट का हिस्सा है।
  • साइकिट-सीखें: पायथन प्रोग्रामिंग लैंग्वेज के लिए एक ओपन-सोर्स मशीन लर्निंग लाइब्रेरी
  • टॉर्च (मशीन लर्निंग): एक ओपन सोर्स मॉडल | लुआ (प्रोग्रामिंग भाषा) प्रोग्रामिंग लैंग्वेज और मशीन लर्निंग कलन विधि के लिए व्यापक समर्थन के साथ वैज्ञानिक कंप्यूटिंग फ्रेमवर्क के लिए ओपन-सोर्स ध्यान लगा के पढ़ना या सीखना लाइब्रेरी।
  • यूआईएमए: यूआईएमए असंरचित सूचना प्रबंधन वास्तुकला मूल रूप से आईबीएम द्वारा विकसित पाठ, ऑडियो और वीडियो जैसी असंरचित सामग्री का विश्लेषण करने के लिए एक घटक ढांचा है।
  • वीका (मशीन लर्निंग): जावा (प्रोग्रामिंग लैंग्वेज) प्रोग्रामिंग लैंग्वेज में लिखे गए मशीन लर्निंग सॉफ्टवेयर अनुप्रयोग का एक सूट है।

स्वामित्व डेटा-माइनिंग सॉफ्टवेयर और अनुप्रयोग

निम्नलिखित अनुप्रयोग स्वामित्व लाइसेंस के अनुसार उपलब्ध होते हैं।

  • एंगॉस नॉलेजस्टूडियो: डेटा माइनिंग टूल
  • लायन सॉल्वर: डेटा माइनिंग, व्यापार बुद्धिमत्ता और मॉडलिंग के लिए एक एकीकृत सॉफ्टवेयर अनुप्रयोग जो सीखना और बुद्धिमान अनुकूलन (लायन) दृष्टिकोण को लागू करता है।
  • बहुविश्लेषक: मेगाप्यूटर बुद्धिमत्ता द्वारा डेटा और टेक्स्ट माइनिंग सॉफ्टवेयर।
  • माइक्रोसॉफ्ट विश्लेषण सेवाएँ: माइक्रोसॉफ्ट द्वारा प्रदान किया गया डेटा माइनिंग सॉफ़्टवेयर।
  • नेटआउल: बहुभाषी टेक्स्ट और एंटिटी एनालिटिक्स उत्पादों का सूट जो डेटा माइनिंग को सक्षम बनाता है।
  • ओरेकल डेटा माइनिंग: ओरेकल कॉर्पोरेशन द्वारा डेटा माइनिंग सॉफ़्टवेयर।
  • पीसेवन: डेटाएडवांस द्वारा प्रदान किया गया अभियांत्रिकी सिमुलेशन और विश्लेषण, बहु-विषयक अनुकूलन और डेटा माइनिंग के स्वचालन के लिए मंच।
  • क्लोकोर ओमिक्स अन्वेषक: डेटा माइनिंग सॉफ्टवेयर।
  • रैपिडमाइनर: मशीन लर्निंग और डेटा माइनिंग प्रयोगों के लिए एक वातावरण।
  • एसएएस (सॉफ्टवेयर) घटक: एसएएस संस्थान द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
  • एसपीएसएस मॉडलर: आईबीएम द्वारा प्रदान किया गया डाटा माइनिंग सॉफ्टवेयर।
  • आंकड़े डेटा माइनर: स्टेटसॉफ्ट द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
  • तनाग्रा (मशीन लर्निंग): प्रत्योक्षकरण-ओरिएंटेड डेटा माइनिंग सॉफ़्टवेयर, शिक्षण के लिए भी।
  • वर्टिका: हेवलेट पैकर्ड द्वारा प्रदान किया गया डेटा माइनिंग सॉफ्टवेयर।
  • गूगल क्लाउड प्लेटफ़ॉर्म: गूगल द्वारा प्रबंधित स्वचालित कस्टम एमएल मॉडल।
  • अमेज़न सैजमेकर: कस्टम एमएल मॉडल बनाने और उत्पादन करने के लिए अमेजन डॉट कॉम द्वारा प्रदान की जाने वाली प्रबंधित सेवा।

यह भी देखें

तरीकों
  • एजेंट माइनिंग

विसंगति का पता लगाना, विसंगति/बाह्य/परिवर्तन का पता लगाना

  • एसोसिएशन रूल लर्निंग
  • बायेसियन नेटवर्क एस
  • सांख्यिकीय वर्गीकरण|वर्गीकरण
  • क्लस्टर विश्लेषण
  • निर्णय के पेड़
  • पहनावा सीखना
  • कारक विश्लेषण
  • आनुवंशिक कलन विधि
  • इरादा माइनिंग
  • लर्निंग क्लासिफायर सिस्टम
  • बहुरेखीय उप-स्थान सीखना
  • कृत्रिम तंत्रिका नेटवर्क|तंत्रिका नेटवर्क एस
  • प्रतिगमन विश्लेषण
  • अनुक्रम खनन
  • संरचित डेटा विश्लेषण (सांख्यिकी) | संरचित डेटा विश्लेषण
  • समर्थन वेक्टर मशीन
  • टेक्स्ट माइनिंग
  • समय श्रृंखला समय श्रृंखला विश्लेषण
एप्लिकेशन डोमेन
  • एनालिटिक्स
  • व्यवहार सूचना विज्ञान
  • बिग डेटा|बिग डेटा
  • जैव सूचना विज्ञान
  • व्यापारिक सूचना
  • डेटा विश्लेषण
  • डेटा वेयरहाउस
  • निर्णय समर्थन प्रणाली
  • डोमेन संचालित डेटा माइनिंग
  • दवाओं की खोज
  • अन्वेषणात्मक डेटा विश्लेषण
  • भविष्य बतानेवाला विश्लेषक
  • वेब माइनिंग
आवेदन के उदाहरण
  • यूनाइटेड किंगडम में स्वचालित नंबर प्लेट, पहचान डेटा माइनिंग, यूनाइटेड किंगडम में स्वचालित नंबर प्लेट पहचान
  • कस्टमर एनालिटिक्स डेटा माइनिंग कस्टमर एनालिटिक्स
  • शैक्षिक डाटा माइनिंग
  • राष्ट्रीय सुरक्षा एजेंसी डाटा माइनिंग राष्ट्रीय सुरक्षा एजेंसी
  • मात्रात्मक संरचना–गतिविधि संबंध डाटा माइनिंग दृष्टिकोण|मात्रात्मक संरचना गतिविधि संबंध
  • सर्विलांस डेटा माइनिंग और प्रोफाइलिंग सर्विलेंस / मास सर्विलांस डेटा माइनिंग मास सर्विलांस, (जैसे, स्टेलर विंड (कोड नाम)|स्टेलर विंड)
संबंधित विषय

डेटा से जानकारी निकालने के बारे में अधिक जानकारी के लिए (डेटा का विश्लेषण करने के विपरीत), देखें

  • डेटा एकीकरण
  • डेटा रूपांतरण
  • [इलेक्ट्रॉनिक खोज
  • सूचना निष्कर्षण
  • सूचना एकीकरण
  • नामित-निकाय पहचान
  • प्रोफाइलिंग (सूचना विज्ञान)
  • साइकोमेट्रिक्स
  • सोशल मीडिया माइनिंग
  • निगरानी पूंजीवाद
  • वेब स्क्रेपिंग
अन्य संसाधन
  • डेटा वेयरहाउसिंग और माइनिंग का अंतर्राष्ट्रीय जर्नल

संदर्भ

  1. 1.0 1.1 1.2 "डाटा माइनिंग पाठ्यक्रम". ACM SIGKDD. 2006-04-30. Retrieved 2014-01-27.
  2. Clifton, Christopher (2010). "एनसाइक्लोपीडिया ब्रिटानिका: डेटा माइनिंग की परिभाषा". Retrieved 2010-12-09.
  3. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "सांख्यिकीय सीखने के तत्व: डेटा खनन, अनुमान और भविष्यवाणी". Archived from the original on 2009-11-10. Retrieved 2012-08-07.
  4. Han, Jaiwei; Kamber, Micheline; Pei, Jian (2011). डाटा माइनिंग: अवधारणाएं और तकनीकें (3rd ed.). Morgan Kaufmann. ISBN 978-0-12-381479-1.
  5. 5.0 5.1 5.2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "डाटा माइनिंग से डाटाबेस में नॉलेज डिस्कवरी तक" (PDF). Archived (PDF) from the original on 2022-10-09. Retrieved 17 December 2008.
  6. Han, Jiawei; Kamber, Micheline (2001). डेटा खनन: अवधारणाएं और तकनीकें. Morgan Kaufmann. p. 5. ISBN 978-1-55860-489-6. इस प्रकार, डेटा माइनिंग को अधिक उचित रूप से "डेटा से नॉलेज माइनिंग" नाम दिया जाना चाहिए था, जो दुर्भाग्य से कुछ लंबा है
  7. OKAIRP 2005 Fall Conference, Arizona State University Archived 2014-02-01 at the Wayback Machine
  8. Witten, Ian H.; Frank, Eibe; Hall, Mark A. (2011). डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स (3 ed.). Elsevier. ISBN 978-0-12-374856-0.
  9. Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). "WEKA जावा ओपन-सोर्स प्रोजेक्ट के साथ अनुभव करता है". Journal of Machine Learning Research. 11: 2533–2541. मूल शीर्षक, "प्रैक्टिकल मशीन लर्निंग", बदल दिया गया था ... शब्द "डेटा माइनिंग" मुख्य रूप से मार्केटिंग कारणों से [जोड़ा गया] था।
  10. Olson, D. L. (2007). Data mining in business services. Service Business, 1(3), 181–193. doi:10.1007/s11628-006-0014-7
  11. Lovell, Michael C. (1983). "डेटा माइनिंग". The Review of Economics and Statistics. 65 (1): 1–12. doi:10.2307/1924403. JSTOR 1924403.
  12. Charemza, Wojciech W.; Deadman, Derek F. (1992). "Data Mining". अर्थमितीय अभ्यास में नई दिशाएँ. Aldershot: Edward Elgar. pp. 14–31. ISBN 1-85278-461-X.
  13. Mena, Jesús (2011). कानून प्रवर्तन, सुरक्षा और खुफिया जानकारी के लिए मशीन लर्निंग फोरेंसिक. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
  14. Piatetsky-Shapiro, Gregory; Parker, Gary (2011). "पाठ: डेटा माइनिंग, और नॉलेज डिस्कवरी: एक परिचय". Introduction to Data Mining. KD Nuggets. Retrieved 30 August 2012.
  15. Fayyad, Usama (15 June 1999). "प्रधान संपादक द्वारा पहला संपादकीय". SIGKDD Explorations. 13 (1): 102. doi:10.1145/2207243.2207269. S2CID 13314420. Retrieved 27 December 2010.
  16. Coenen, Frans (2011-02-07). "डेटा माइनिंग: अतीत, वर्तमान और भविष्य". The Knowledge Engineering Review (in English). 26 (1): 25–29. doi:10.1017/S0269888910000378. ISSN 0269-8889. S2CID 6487637.
  17. Kantardzic, Mehmed (2003). डेटा माइनिंग: कॉन्सेप्ट्स, मॉडल्स, मेथड्स और एल्गोरिदम. John Wiley & Sons. ISBN 978-0-471-22852-3. OCLC 50055336.
  18. Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll
  19. Lukasz Kurgan and Petr Musilek: "A survey of Knowledge Discovery and Data Mining process models". The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, doi:10.1017/S0269888906000737
  20. Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview Archived 2013-01-09 at the Wayback Machine. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185.
  21. Hawkins, Douglas M (2004). "ओवरफिटिंग की समस्या". Journal of Chemical Information and Computer Sciences. 44 (1): 1–12. doi:10.1021/ci0342472. PMID 14741005.
  22. "Microsoft अकादमिक खोज: डेटा माइनिंग में शीर्ष सम्मेलन". Microsoft Academic Search.
  23. "Google विद्वान: शीर्ष प्रकाशन - डेटा खनन और विश्लेषण". Google Scholar.
  24. Proceedings Archived 2010-04-30 at the Wayback Machine, International Conferences on Knowledge Discovery and Data Mining, ACM, New York.
  25. SIGKDD Explorations, ACM, New York.
  26. Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). "An extension of the PMML standard to subspace clustering models". प्रिडिक्टिव मार्कअप लैंग्वेज मॉडलिंग पर 2011 की कार्यशाला की कार्यवाही. p. 48. doi:10.1145/2023598.2023605. ISBN 978-1-4503-0837-3. S2CID 14967969.
  27. Seltzer, William (2005). "डेटा माइनिंग का वादा और नुकसान: नैतिक मुद्दे" (PDF). ASA Section on Government Statistics. American Statistical Association. Archived (PDF) from the original on 2022-10-09.
  28. Pitts, Chip (15 March 2007). "अवैध घरेलू जासूसी का अंत? इस पर भरोसा मत करो". Washington Spectator. Archived from the original on 2007-11-28.
  29. Taipale, Kim A. (15 December 2003). "डेटा माइनिंग एंड डोमेस्टिक सिक्योरिटी: कनेक्टिंग द डॉट्स टू मेक सेंस ऑफ डेटा". Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782. Archived from the original on 5 November 2014. Retrieved 21 April 2004.
  30. Resig, John. "माइनिंग इंस्टेंट मैसेजिंग सर्विसेज के लिए एक फ्रेमवर्क" (PDF). Archived (PDF) from the original on 2022-10-09. Retrieved 16 March 2018.
  31. 31.0 31.1 31.2 Think Before You Dig: Privacy Implications of Data Mining & Aggregation Archived 2008-12-17 at the Wayback Machine, NASCIO Research Brief, September 2004
  32. Ohm, Paul. "बर्बादी का डाटाबेस मत बनाओ". Harvard Business Review.
  33. AOL search data identified individuals, SecurityFocus, August 2006
  34. Kshetri, Nir (2014). "गोपनीयता, सुरक्षा और उपभोक्ता कल्याण पर बिग डेटा का प्रभाव" (PDF). Telecommunications Policy. 38 (11): 1134–1145. doi:10.1016/j.telpol.2014.10.002.
  35. Weiss, Martin A.; Archick, Kristin (19 May 2016). "यू.एस.-ई.यू. डेटा प्राइवेसी: सेफ हार्बर से प्राइवेसी शील्ड तक". Washington, D.C. Congressional Research Service. p. 6. R44257. Archived from the original (PDF) on 9 April 2020. Retrieved 9 April 2020. 6 अक्टूबर, 2015 को, CJEU ... issued a decision that invalidated Safe Harbor (effective immediately), as currently implemented.
  36. Parker, George (2018-09-30). "ब्रिटेन की कंपनियां ग्राहकों का शोषण करने के लिए बिग डेटा का इस्तेमाल कर रही हैं". Financial Times. Retrieved 2022-12-04.
  37. Biotech Business Week Editors (June 30, 2008); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research, Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic
  38. "फेडेक्स".
  39. "यूरोप के लिए लाइसेंस - संरचित हितधारक संवाद 2013". European Commission. Retrieved 14 November 2014.
  40. "पाठ और डेटा खनन: इसका महत्व और यूरोप में परिवर्तन की आवश्यकता". Association of European Research Libraries. Archived from the original on 29 November 2014. Retrieved 14 November 2014.
  41. "न्यायाधीश Google पुस्तकें के पक्ष में सारांश निर्णय देता है - एक उचित उपयोग जीत". Lexology.com. Antonelli Law Ltd. 19 November 2013. Retrieved 14 November 2014.


अग्रिम पठन


इस पेज में लापता आंतरिक लिंक की सूची

  • आंकड़े
  • डाटा प्रबंधन
  • मूलमंत्र
  • डेटा वेयरहाउस
  • कृत्रिम होशियारी
  • सूचना प्रक्रम
  • आंकड़ा संग्रहण
  • विपणनअभियान
  • एनालिटिक्स
  • संगठन नियम माइनिंग
  • असंगति का पता लगाये
  • भविष्य बतानेवाला विश्लेषक
  • एक प्राथमिक संभावना
  • जानकारी
  • तंत्रिका - तंत्र
  • एप्लाईड स्टैटस्टिक्स
  • आंकड़ों का बाजार
  • लापता आँकड़े
  • reproducibility
  • प्राप्तकर्ता परिचालन विशेषता
  • अकादमिक जर्नल
  • सीआईकेएम सम्मेलन
  • नॉलेज डिस्कवरी और डेटा माइनिंग पर सम्मेलन
  • मशीन लर्निंग एंड प्रिंसिपल्स एंड प्रैक्टिस ऑफ नॉलेज डिस्कवरी इन डेटाबेस में यूरोपीय सम्मेलन
  • सूचना और ज्ञान प्रबंधन पर सम्मेलन
  • प्रिडिक्टिव मॉडल मार्कअप लैंग्वेज
  • डेटा माइनिंग के उदाहरण
  • आचार विचार
  • कानून स्थापित करने वाली संस्था
  • कुल समारोह
  • डाटा प्राइवेसी
  • गोपनीयता का उल्लंघन
  • व्यक्तिगत पहचान की जानकारी
  • कॉपीराइट की सीमाएं और अपवाद
  • हरग्रेव्स समीक्षा
  • यूरोपीय संघ का कॉपीराइट कानून
  • Google पुस्तक खोज निपटान समझौता
  • एमओए (व्यापक ऑनलाइन विश्लेषण)
  • ओरेकल डाटा माइनिंग
  • Google क्लाउड प्लेटफ़ॉर्म
  • डेटा वेयरहाउसिंग और माइनिंग का अंतर्राष्ट्रीय जर्नल

बाहरी संबंध