लीकेज (मशीन लर्निंग)

सांख्यिकी और मशीन लर्निंग में, लीकेज जिसे डेटा लीकेज या टार्गेट लीकेज के रूप में जाना जाता है, जिसमें मॉडल प्रशिक्षण की प्रक्रिया में जानकारी का उपयोग किया जाता है, जो पूर्वानुमान समय में उपलब्ध होने की संभावना नहीं होती, जिससे पूर्वानुमान स्कोर उत्पादन वातावरण में चलने पर मॉडल के उपयोगिता का महत्व अधिक माना जाता है।^[1]

लीकेज प्रायः सूक्ष्म और अप्रत्यक्ष होता है, जिससे इसका पता लगाना और उसे निकालना कठिन होता है। यह लीकेज किसी सांख्यिकीय विशेषज्ञ या मॉडलर को एक उप-इष्टतम मॉडल का चयन करना पड़ सकता है जिसे लीकेज-मुक्त मॉडल द्वारा बेहतर प्रदर्शन किया जा सकता है।^[1]

लीकेज मोड

मशीन सीखने की प्रक्रिया में लीकेज कई चरणों में हो सकता है। लीकेज के कारणों को किसी मॉडल के लिए लीकेज के दो संभावित स्रोतों में उप-वर्गीकृत किया जा सकता है: सुविधाएँ और प्रशिक्षण उदाहरण।^[1]

फीचर लीकेज

फ़ीचर या कॉलम-वार लीकेज उन कॉलमों को सम्मिलित करने के कारण होता है जो निम्नलिखित में से एक हैं: एक डुप्लिकेट लेबल, लेबल के लिए एक प्रॉक्सी, या स्वयं लेबल। ये विशेषताएं, जिन्हें अनाक्रोनिस्म के रूप में जाना जाता है, पूर्वानुमान के लिए मॉडल का उपयोग होने पर उपलब्ध नहीं होते है, और इन्हें मॉडल को प्रशिक्षित करते समय सम्मिलित किया जाए तो लीकेज का कारण बन सकते हैं।^[2]

उदाहरण के रूप में, "YearlySalary" का पूर्वानुमान करते समय "MonthlySalary" स्तंभ को शामिल करना; या "IsLate" का पूर्वानुमान करते समय "MinutesLate" को शामिल करना; या सूक्ष्मता से, "ShouldGiveLoan" का पूर्वानुमान करते समय "NumOfLatePayments" को शामिल करना लीकेज का कारण बना सकता है।

प्रशिक्षण उदाहरण लीकेज

पंक्ति-वार लीकेज डेटा की पंक्तियों के बीच जानकारी के अनुचित आदान-प्रदान के कारण होता है। पंक्ति-वार लीकेज के प्रकारों में सम्मिलित हैं:

पूर्वाग्रहीत विशेषताओं का उपयोग; क्रॉस वैलिडेशन / ट्रेन / टेस्ट स्प्लिट से पहले पूर्वाग्रहीत विशेषताओं से लीकेज ट्रेन स्प्लिट पर केवल मिनमैक्स / एनग्राम / आदि पर फिट करें, और फिर टेस्ट सेट को ट्रांसफ़ॉर्म करें।
प्रशिक्षण/मान्यता/परीक्षण के बीच डुप्लिकेट पंक्तियों का होना उदाहरण के लिए, एक डेटासेट का ओवरसैम्पलिंग करके इसका आकार बढ़ाना, एकल इमेज के भिन्न परिवर्तन/वृद्धि, स्प्लिट करने से पहले बूटस्ट्रैप सैंपलिंग, या अल्पसंख्यक वर्ग के डेटा विश्लेषण में ओवरसैंपलिंग और अंडरसैंपलिंग के लिए पंक्तियों को डुप्लिकेट करना ।
गैर-आई.आई.डी. आंकड़े
- समय लीकेज (उदाहरण के लिए, ट्रेनटेस्ट स्प्लिट या रोलिंग-ऑरिजिन क्रॉस वैलिडेशन का उपयोग करके टाइम-सीरीज डेटासेट को यादृच्छिक रूप से विभाजित करना इसके बदले नएर डेटा को टेस्ट सेट में सम्मिलित करना।
- ग्रुप लीकेज -- समूह विभाजन स्तंभ को सम्मिलित न करना उदाहरण के लिए, एंड्रू एन्ग के समूह में 30 हजार रोगियों के 100 हजार एक्सरे की तस्वीरें थीं, अर्थात्, मॉडल ने पूरी तरह से नहीं, बल्कि आंशिक रूप से रोगियों को याद किया था, जिससे यह ठीक से छाती के एक्सरे में न्यूमोनिया की पहचान करने की जगह रोगियों को याद करने की कोशिश करता रहा।

समय-आधारित डेटासेटों के लिए, जिस प्रकार की प्रणाली की अध्ययन किया जा रही है, वह समय के साथ विकसित होती है अर्थात्, यह "गैर-स्थायी" होती है।

इससे प्रशिक्षण और मान्यता सेट्स के बीच सिद्धांतिक अंतर उत्पन्न हो सकता है। उदाहरण के रूप में, यदि किसी शेयर के मूल्य का पूर्वानुमान करने के लिए एक मॉडल को एक निश्चित पाँच-वर्षीय अवधि के डेटा पर प्रशिक्षित किया जाता है, तो उसे उसके बाद के पाँच-वर्षीय अवधि को एक ही प्रजनन से खिंचने के रूप में नहीं देखा जा सकता। एक और उदाहरण के रूप में, सोचें कि एक मॉडल विकसित किया गया है जो एक व्यक्ति को अगले वर्ष में एक विशेष बीमारी के निदान के लिए जोखिम का पूर्वानुमान करता है।

पहचान

यह भी देखें

ऑटोएमएल
क्रॉस-वैलिडेशन
ओवरफिटिंग
पुनः प्रतिचयन
पर्यवेक्षित अध्ययन
प्रशिक्षण, सत्यापन और परीक्षण सेट

संदर्भ

↑ ^1.0 ^1.1 ^1.2 Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). "Leakage in Data Mining: Formulation, Detection, and Avoidance". Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 6: 556–563. doi:10.1145/2020408.2020496. Retrieved 13 January 2020.
↑ Soumen Chakrabarti (2008). "9". Data Mining: Know it All. Morgan Kaufmann Publishers. p. 383. ISBN 978-0-12-374629-0. Anachronistic variables are a pernicious mining problem. However, they aren't any problem at all at deployment time—unless someone expects the model to work! Anachronistic variables are out of place in time. Specifically, at data modeling time, they carry information back from the future to the past.

This artificial intelligence-related article is a stub. You can help Wikipedia by expanding it.

[KaufmanKDD11-1] 1.0 ^1.1 ^1.2 Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). "Leakage in Data Mining: Formulation, Detection, and Avoidance". Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 6: 556–563. doi:10.1145/2020408.2020496. Retrieved 13 January 2020.

[2] Soumen Chakrabarti (2008). "9". Data Mining: Know it All. Morgan Kaufmann Publishers. p. 383. ISBN 978-0-12-374629-0. Anachronistic variables are a pernicious mining problem. However, they aren't any problem at all at deployment time—unless someone expects the model to work! Anachronistic variables are out of place in time. Specifically, at data modeling time, they carry information back from the future to the past.

[1]

[2]

Anonymous

Search

लीकेज (मशीन लर्निंग)

Namespaces

More

Page actions

Contents

लीकेज मोड

फीचर लीकेज

प्रशिक्षण उदाहरण लीकेज

पहचान

यह भी देखें

संदर्भ

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

लीकेज (मशीन लर्निंग)

लीकेज मोड

फीचर लीकेज

प्रशिक्षण उदाहरण लीकेज

पहचान

यह भी देखें

संदर्भ

Navigation

Wiki tools

Page tools

Other projects

Categories