लीकेज (मशीन लर्निंग): Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(4 intermediate revisions by 3 users not shown)
Line 11: Line 11:
फ़ीचर या कॉलम-वार लीकेज उन कॉलमों को सम्मिलित करने के कारण होता है जो निम्नलिखित में से एक हैं: एक डुप्लिकेट लेबल, लेबल के लिए एक प्रॉक्सी, या स्वयं लेबल। ये विशेषताएं, जिन्हें अनाक्रोनिस्म के रूप में जाना जाता है, पूर्वानुमान के लिए मॉडल का उपयोग होने पर उपलब्ध नहीं होते है, और इन्हें मॉडल को प्रशिक्षित करते समय सम्मिलित किया जाए तो लीकेज का कारण बन सकते हैं।<ref>{{cite book |author1=Soumen Chakrabarti |title=Data Mining: Know it All. |date=2008 |publisher=Morgan Kaufmann Publishers |isbn=978-0-12-374629-0 |page=383 |chapter=9 |quote=Anachronistic variables are a pernicious mining problem. However, they aren't any problem at all at deployment time—unless someone expects the model to work! Anachronistic variables are out of place in time. Specifically, at data modeling time, they carry information back from the future to the past.}}</ref>
फ़ीचर या कॉलम-वार लीकेज उन कॉलमों को सम्मिलित करने के कारण होता है जो निम्नलिखित में से एक हैं: एक डुप्लिकेट लेबल, लेबल के लिए एक प्रॉक्सी, या स्वयं लेबल। ये विशेषताएं, जिन्हें अनाक्रोनिस्म के रूप में जाना जाता है, पूर्वानुमान के लिए मॉडल का उपयोग होने पर उपलब्ध नहीं होते है, और इन्हें मॉडल को प्रशिक्षित करते समय सम्मिलित किया जाए तो लीकेज का कारण बन सकते हैं।<ref>{{cite book |author1=Soumen Chakrabarti |title=Data Mining: Know it All. |date=2008 |publisher=Morgan Kaufmann Publishers |isbn=978-0-12-374629-0 |page=383 |chapter=9 |quote=Anachronistic variables are a pernicious mining problem. However, they aren't any problem at all at deployment time—unless someone expects the model to work! Anachronistic variables are out of place in time. Specifically, at data modeling time, they carry information back from the future to the past.}}</ref>


उदाहरण के रूप में, "YearlySalary" का पूर्वानुमान करते समय "MonthlySalary" स्तंभ को शामिल करना; या "IsLate" का पूर्वानुमान करते समय "MinutesLate" को शामिल करना; या सूक्ष्मता से, "ShouldGiveLoan" का पूर्वानुमान करते समय "NumOfLatePayments" को शामिल करना लीकेज का कारण बना सकता है।
उदाहरण के रूप में, "इयरलीसैलरी" का पूर्वानुमान करते समय "मंथलीसैलरी" खंड को सम्मिलित करना; या "इजलेट" का पूर्वानुमान करते समय "मिनट्सलेट" को सम्मिलित करना; या सूक्ष्मता से, "शुडगीवलोन" का पूर्वानुमान करते समय "नमआफलेटपेमेंट" को सम्मिलित करना लीकेज का कारण बना सकता है।


===प्रशिक्षण उदाहरण लीकेज ===
===प्रशिक्षण उदाहरण लीकेज ===
Line 19: Line 19:
*गैर-आई.आई.डी. आंकड़े
*गैर-आई.आई.डी. आंकड़े
** समय लीकेज (उदाहरण के लिए, ट्रेनटेस्ट स्प्लिट या रोलिंग-ऑरिजिन क्रॉस वैलिडेशन का उपयोग करके टाइम-सीरीज डेटासेट को यादृच्छिक रूप से विभाजित करना इसके बदले नएर डेटा को टेस्ट सेट में सम्मिलित करना।
** समय लीकेज (उदाहरण के लिए, ट्रेनटेस्ट स्प्लिट या रोलिंग-ऑरिजिन क्रॉस वैलिडेशन का उपयोग करके टाइम-सीरीज डेटासेट को यादृच्छिक रूप से विभाजित करना इसके बदले नएर डेटा को टेस्ट सेट में सम्मिलित करना।
** ग्रुप लीकेज -- समूह विभाजन स्तंभ को सम्मिलित न करना उदाहरण के लिए, एंड्रू एन्ग के समूह में 30 हजार रोगियों के 100 हजार एक्सरे की तस्वीरें थीं, अर्थात्, मॉडल ने पूरी तरह से नहीं, बल्कि आंशिक रूप से रोगियों को याद किया था, जिससे यह ठीक से छाती के एक्सरे में न्यूमोनिया की पहचान करने की जगह रोगियों को याद करने की कोशिश करता रहा।
** ग्रुप लीकेज -- समूह विभाजन खंड  को सम्मिलित न करना उदाहरण के लिए, एंड्रू एन्ग के समूह में 30 हजार रोगियों के 100 हजार एक्सरे की तस्वीरें थीं, अर्थात्, मॉडल ने पूरी तरह से नहीं, बल्कि आंशिक रूप से रोगियों को याद किया था, जिससे यह ठीक से छाती के एक्सरे में न्यूमोनिया की पहचान करने की जगह रोगियों को याद करने की कोशिश करता रहा।


समय-निर्भर डेटासेट के लिए, अध्ययन की जा रही प्रणाली की संरचना समय के साथ विकसित होती है (यानी यह गैर-स्थिर है)। यह प्रशिक्षण और सत्यापन सेट के बीच व्यवस्थित अंतर पेश कर सकता है। उदाहरण के लिए, यदि शेयर बाजार की भविष्यवाणी के लिए एक मॉडल को एक निश्चित पांच साल की अवधि के लिए डेटा पर प्रशिक्षित किया जाता है, तो बाद की पांच साल की अवधि को उसी आबादी से आकर्षित मानना ​​अवास्तविक है। एक अन्य उदाहरण के रूप में, मान लीजिए कि अगले वर्ष के भीतर किसी विशेष बीमारी के चिकित्सीय निदान के लिए किसी व्यक्ति के जोखिम की भविष्यवाणी करने के लिए एक मॉडल विकसित किया गया है।
समय-आधारित डेटासेटों के लिए, जिस प्रकार की प्रणाली की अध्ययन किया जा रही है, वह समय के साथ विकसित होती है अर्थात्, यह "गैर-स्थायी" होती है।
 
इससे प्रशिक्षण और मान्यता सेट्स के बीच सिद्धांतिक अंतर उत्पन्न हो सकता है। उदाहरण के रूप में, यदि किसी शेयर के मूल्य का पूर्वानुमान करने के लिए एक मॉडल को एक निश्चित पाँच-वर्षीय अवधि के डेटा पर प्रशिक्षित किया जाता है, तो उसे उसके बाद के पाँच-वर्षीय अवधि को एक ही प्रजनन से खिंचने के रूप में नहीं देखा जा सकता। एक और उदाहरण के रूप में, सोचें कि एक मॉडल विकसित किया गया है जो एक व्यक्ति को अगले वर्ष में एक विशेष बीमारी के निदान के लिए जोखिम का पूर्वानुमान करता है।


==पहचान==
==पहचान==
{{Expand section|date=January 2020}}
{{Expand section|date=जनवरी 2020}}


==यह भी देखें==
==यह भी देखें==
* [[ऑटोएमएल]]
* [[ऑटोएमएल]]
* क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन
* क्रॉस-वैलिडेशन  
* [[ओवरफिटिंग]]
* [[ओवरफिटिंग]]
* [[पुन: नमूनाकरण (सांख्यिकी)]]
* [[पुन: नमूनाकरण (सांख्यिकी)|पुनः प्रतिचयन]]
* [[पर्यवेक्षित अध्ययन]]
* [[पर्यवेक्षित अध्ययन]]
* प्रशिक्षण, सत्यापन और परीक्षण सेट
* प्रशिक्षण, सत्यापन और परीक्षण सेट
Line 36: Line 38:
==संदर्भ==
==संदर्भ==
{{Reflist}}
{{Reflist}}
[[Category: यंत्र अधिगम]] [[Category: सांख्यिकीय वर्गीकरण]]
 


{{compu-ai-stub}}
{{compu-ai-stub}}


 
[[Category:All stub articles]]
 
[[Category:Articles using small message boxes]]
[[Category: Machine Translated Page]]
[[Category:Artificial intelligence stubs]]
[[Category:Created On 26/07/2023]]
[[Category:Created On 26/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Templates Translated in Hindi]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:यंत्र अधिगम]]
[[Category:सांख्यिकीय वर्गीकरण]]

Latest revision as of 10:30, 14 August 2023

सांख्यिकी और मशीन लर्निंग में, लीकेज जिसे डेटा लीकेज या टार्गेट लीकेज के रूप में जाना जाता है, जिसमें मॉडल प्रशिक्षण की प्रक्रिया में जानकारी का उपयोग किया जाता है, जो पूर्वानुमान समय में उपलब्ध होने की संभावना नहीं होती, जिससे पूर्वानुमान स्कोर उत्पादन वातावरण में चलने पर मॉडल के उपयोगिता का महत्व अधिक माना जाता है।[1]

लीकेज प्रायः सूक्ष्म और अप्रत्यक्ष होता है, जिससे इसका पता लगाना और उसे निकालना कठिन होता है। यह लीकेज किसी सांख्यिकीय विशेषज्ञ या मॉडलर को एक उप-इष्टतम मॉडल का चयन करना पड़ सकता है जिसे लीकेज-मुक्त मॉडल द्वारा बेहतर प्रदर्शन किया जा सकता है।[1]

लीकेज मोड

मशीन सीखने की प्रक्रिया में लीकेज कई चरणों में हो सकता है। लीकेज के कारणों को किसी मॉडल के लिए लीकेज के दो संभावित स्रोतों में उप-वर्गीकृत किया जा सकता है: सुविधाएँ और प्रशिक्षण उदाहरण।[1]

फीचर लीकेज

फ़ीचर या कॉलम-वार लीकेज उन कॉलमों को सम्मिलित करने के कारण होता है जो निम्नलिखित में से एक हैं: एक डुप्लिकेट लेबल, लेबल के लिए एक प्रॉक्सी, या स्वयं लेबल। ये विशेषताएं, जिन्हें अनाक्रोनिस्म के रूप में जाना जाता है, पूर्वानुमान के लिए मॉडल का उपयोग होने पर उपलब्ध नहीं होते है, और इन्हें मॉडल को प्रशिक्षित करते समय सम्मिलित किया जाए तो लीकेज का कारण बन सकते हैं।[2]

उदाहरण के रूप में, "इयरलीसैलरी" का पूर्वानुमान करते समय "मंथलीसैलरी" खंड को सम्मिलित करना; या "इजलेट" का पूर्वानुमान करते समय "मिनट्सलेट" को सम्मिलित करना; या सूक्ष्मता से, "शुडगीवलोन" का पूर्वानुमान करते समय "नमआफलेटपेमेंट" को सम्मिलित करना लीकेज का कारण बना सकता है।

प्रशिक्षण उदाहरण लीकेज

पंक्ति-वार लीकेज डेटा की पंक्तियों के बीच जानकारी के अनुचित आदान-प्रदान के कारण होता है। पंक्ति-वार लीकेज के प्रकारों में सम्मिलित हैं:

  • पूर्वाग्रहीत विशेषताओं का उपयोग; क्रॉस वैलिडेशन / ट्रेन / टेस्ट स्प्लिट से पहले पूर्वाग्रहीत विशेषताओं से लीकेज ट्रेन स्प्लिट पर केवल मिनमैक्स / एनग्राम / आदि पर फिट करें, और फिर टेस्ट सेट को ट्रांसफ़ॉर्म करें।
  • प्रशिक्षण/मान्यता/परीक्षण के बीच डुप्लिकेट पंक्तियों का होना उदाहरण के लिए, एक डेटासेट का ओवरसैम्पलिंग करके इसका आकार बढ़ाना, एकल इमेज के भिन्न परिवर्तन/वृद्धि, स्प्लिट करने से पहले बूटस्ट्रैप सैंपलिंग, या अल्पसंख्यक वर्ग के डेटा विश्लेषण में ओवरसैंपलिंग और अंडरसैंपलिंग के लिए पंक्तियों को डुप्लिकेट करना ।
  • गैर-आई.आई.डी. आंकड़े
    • समय लीकेज (उदाहरण के लिए, ट्रेनटेस्ट स्प्लिट या रोलिंग-ऑरिजिन क्रॉस वैलिडेशन का उपयोग करके टाइम-सीरीज डेटासेट को यादृच्छिक रूप से विभाजित करना इसके बदले नएर डेटा को टेस्ट सेट में सम्मिलित करना।
    • ग्रुप लीकेज -- समूह विभाजन खंड को सम्मिलित न करना उदाहरण के लिए, एंड्रू एन्ग के समूह में 30 हजार रोगियों के 100 हजार एक्सरे की तस्वीरें थीं, अर्थात्, मॉडल ने पूरी तरह से नहीं, बल्कि आंशिक रूप से रोगियों को याद किया था, जिससे यह ठीक से छाती के एक्सरे में न्यूमोनिया की पहचान करने की जगह रोगियों को याद करने की कोशिश करता रहा।

समय-आधारित डेटासेटों के लिए, जिस प्रकार की प्रणाली की अध्ययन किया जा रही है, वह समय के साथ विकसित होती है अर्थात्, यह "गैर-स्थायी" होती है।

इससे प्रशिक्षण और मान्यता सेट्स के बीच सिद्धांतिक अंतर उत्पन्न हो सकता है। उदाहरण के रूप में, यदि किसी शेयर के मूल्य का पूर्वानुमान करने के लिए एक मॉडल को एक निश्चित पाँच-वर्षीय अवधि के डेटा पर प्रशिक्षित किया जाता है, तो उसे उसके बाद के पाँच-वर्षीय अवधि को एक ही प्रजनन से खिंचने के रूप में नहीं देखा जा सकता। एक और उदाहरण के रूप में, सोचें कि एक मॉडल विकसित किया गया है जो एक व्यक्ति को अगले वर्ष में एक विशेष बीमारी के निदान के लिए जोखिम का पूर्वानुमान करता है।

पहचान

यह भी देखें

संदर्भ

  1. 1.0 1.1 1.2 Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). "Leakage in Data Mining: Formulation, Detection, and Avoidance". Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 6: 556–563. doi:10.1145/2020408.2020496. Retrieved 13 January 2020.
  2. Soumen Chakrabarti (2008). "9". Data Mining: Know it All. Morgan Kaufmann Publishers. p. 383. ISBN 978-0-12-374629-0. Anachronistic variables are a pernicious mining problem. However, they aren't any problem at all at deployment time—unless someone expects the model to work! Anachronistic variables are out of place in time. Specifically, at data modeling time, they carry information back from the future to the past.