लीकेज (मशीन लर्निंग): Difference between revisions

From Vigyanwiki
No edit summary
Line 2: Line 2:
{{Machine learning bar}}
{{Machine learning bar}}


सांख्यिकी और [[ यंत्र अधिगम ]] में, लीकेज (डेटा लीकेज या टारगेट लीकेज के रूप में भी जाना जाता है) मॉडल प्रशिक्षण प्रक्रिया में [[जानकारी]] का उपयोग होता है, जिसके [[भविष्यवाणी]] समय पर उपलब्ध होने की उम्मीद नहीं की जाती है, जिससे उत्पादन वातावरण में चलने पर पूर्वानुमानित स्कोर (मेट्रिक्स) मॉडल की उपयोगिता को कम कर देते हैं।<ref name="KaufmanKDD11"/>
सांख्यिकी और मशीन लर्निंग में, '''लीकेज''' जिसे डेटा लीकेज या टार्गेट लीकेज के रूप में जाना जाता है, जिसमें मॉडल प्रशिक्षण की प्रक्रिया में [[जानकारी]] का उपयोग किया जाता है, जो [[भविष्यवाणी|पूर्वानुमान]] समय में उपलब्ध होने की संभावना नहीं होती, जिससे पूर्वानुमान स्कोर उत्पादन वातावरण में चलने पर मॉडल के उपयोगिता का महत्व अधिक माना जाता है।<ref name="KaufmanKDD11">{{cite journal |author1=Shachar Kaufman |author2=Saharon Rosset |author3=Claudia Perlich |title=Leakage in Data Mining: Formulation, Detection, and Avoidance |journal=Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining |date=January 2011 |volume=6 |pages=556–563 |doi=10.1145/2020408.2020496 |url=https://www.researchgate.net/publication/221653692 |access-date=13 January 2020}}</ref>


रिसाव अक्सर सूक्ष्म और अप्रत्यक्ष होता है, जिससे इसका पता लगाना और समाप्त करना कठिन हो जाता है। रिसाव के कारण सांख्यिकीविद् या मॉडलर को एक उप-इष्टतम मॉडल का चयन करना पड़ सकता है, जिसे रिसाव-मुक्त मॉडल द्वारा बेहतर प्रदर्शन किया जा सकता है।<ref name="KaufmanKDD11">{{cite journal |author1=Shachar Kaufman |author2=Saharon Rosset |author3=Claudia Perlich |title=Leakage in Data Mining: Formulation, Detection, and Avoidance |journal=Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining |date=January 2011 |volume=6 |pages=556–563 |doi=10.1145/2020408.2020496 |url=https://www.researchgate.net/publication/221653692 |access-date=13 January 2020}}</ref>
लीकेज प्रायः सूक्ष्म और अप्रत्यक्ष होता है, जिससे इसका पता लगाना और उसे निकालना कठिन होता है। यह लीकेज किसी सांख्यिकीय विशेषज्ञ या मॉडलर को एक उप-इष्टतम मॉडल का चयन करना पड़ सकता है जिसे लीकेज-मुक्त मॉडल द्वारा बेहतर प्रदर्शन किया जा सकता है।<ref name="KaufmanKDD11" />
==लीकेज  मोड==
मशीन सीखने की प्रक्रिया में लीकेज कई चरणों में हो सकता है। लीकेज  के कारणों को किसी मॉडल के लिए लीकेज के दो संभावित स्रोतों में उप-वर्गीकृत किया जा सकता है: सुविधाएँ और प्रशिक्षण उदाहरण।<ref name="KaufmanKDD11"/>


== फीचर लीकेज ==
फ़ीचर या कॉलम-वार लीकेज उन कॉलमों को सम्मिलित करने के कारण होता है जो निम्नलिखित में से एक हैं: एक डुप्लिकेट लेबल, लेबल के लिए एक प्रॉक्सी, या स्वयं लेबल। ये विशेषताएं, जिन्हें अनाक्रोनिस्म के रूप में जाना जाता है, पूर्वानुमान के लिए मॉडल का उपयोग होने पर उपलब्ध नहीं होते है, और इन्हें मॉडल को प्रशिक्षित करते समय सम्मिलित किया जाए तो लीकेज का कारण बन सकते हैं।<ref>{{cite book |author1=Soumen Chakrabarti |title=Data Mining: Know it All. |date=2008 |publisher=Morgan Kaufmann Publishers |isbn=978-0-12-374629-0 |page=383 |chapter=9 |quote=Anachronistic variables are a pernicious mining problem. However, they aren't any problem at all at deployment time—unless someone expects the model to work! Anachronistic variables are out of place in time. Specifically, at data modeling time, they carry information back from the future to the past.}}</ref>


==रिसाव मोड==
उदाहरण के रूप में, "YearlySalary" का पूर्वानुमान करते समय "MonthlySalary" स्तंभ को शामिल करना; या "IsLate" का पूर्वानुमान करते समय "MinutesLate" को शामिल करना; या सूक्ष्मता से, "ShouldGiveLoan" का पूर्वानुमान करते समय "NumOfLatePayments" को शामिल करना लीकेज का कारण बना सकता है।
मशीन सीखने की प्रक्रिया में रिसाव कई चरणों में हो सकता है। रिसाव के कारणों को किसी मॉडल के लिए रिसाव के दो संभावित स्रोतों में उप-वर्गीकृत किया जा सकता है: सुविधाएँ और प्रशिक्षण उदाहरण।<ref name="KaufmanKDD11"/>


 
===प्रशिक्षण उदाहरण लीकेज ===
 
पंक्ति-वार लीकेज डेटा की पंक्तियों के बीच जानकारी के अनुचित आदान-प्रदान के कारण होता है। पंक्ति-वार लीकेज के प्रकारों में सम्मिलित हैं:
===फीचर लीकेज===
* पूर्वाग्रहीत विशेषताओं का उपयोग; क्रॉस वैलिडेशन / ट्रेन / टेस्ट स्प्लिट से पहले पूर्वाग्रहीत विशेषताओं से लीकेज ट्रेन स्प्लिट पर केवल मिनमैक्स / एनग्राम / आदि पर फिट करें, और फिर टेस्ट सेट को ट्रांसफ़ॉर्म करें।
फ़ीचर या कॉलम-वार रिसाव उन कॉलमों को शामिल करने के कारण होता है जो निम्न में से एक हैं: एक डुप्लिकेट लेबल, लेबल के लिए एक प्रॉक्सी, या स्वयं लेबल। ये सुविधाएँ, जिन्हें एनाक्रोनिज़्म के रूप में जाना जाता है, तब उपलब्ध नहीं होंगी जब मॉडल का उपयोग भविष्यवाणियों के लिए किया जाता है, और यदि मॉडल को प्रशिक्षित किया जाता है तो शामिल होने पर रिसाव हो सकता है।<ref>{{cite book |author1=Soumen Chakrabarti |title=Data Mining: Know it All. |date=2008 |publisher=Morgan Kaufmann Publishers |isbn=978-0-12-374629-0 |page=383 |chapter=9 |quote=Anachronistic variables are a pernicious mining problem. However, they aren't any problem at all at deployment time—unless someone expects the model to work! Anachronistic variables are out of place in time. Specifically, at data modeling time, they carry information back from the future to the past.}}</ref>
* प्रशिक्षण/मान्यता/परीक्षण के बीच डुप्लिकेट पंक्तियों का होना उदाहरण के लिए, एक डेटासेट का ओवरसैम्पलिंग करके इसका आकार बढ़ाना, एकल इमेज के भिन्न परिवर्तन/वृद्धि, स्प्लिट करने से पहले बूटस्ट्रैप सैंपलिंग, या अल्पसंख्यक वर्ग के [[डेटा विश्लेषण में ओवरसैंपलिंग और अंडरसैंपलिंग]] के लिए पंक्तियों को डुप्लिकेट करना
उदाहरण के लिए, वार्षिक वेतन की भविष्यवाणी करते समय मासिक वेतन कॉलम शामिल करना; या IsLate की भविष्यवाणी करते समय MinutesLate ; या अधिक सूक्ष्मता से NumOfLatePayments, जब ShodGiveLoan की भविष्यवाणी करते हैं।
*गैर-आई.आई.डी. आंकड़े
 
** समय लीकेज (उदाहरण के लिए, ट्रेनटेस्ट स्प्लिट या रोलिंग-ऑरिजिन क्रॉस वैलिडेशन का उपयोग करके टाइम-सीरीज डेटासेट को यादृच्छिक रूप से विभाजित करना इसके बदले नएर डेटा को टेस्ट सेट में सम्मिलित करना।
===प्रशिक्षण उदाहरण रिसाव===
** ग्रुप लीकेज -- समूह विभाजन स्तंभ को सम्मिलित न करना उदाहरण के लिए, एंड्रू एन्ग के समूह में 30 हजार रोगियों के 100 हजार एक्सरे की तस्वीरें थीं, अर्थात्, मॉडल ने पूरी तरह से नहीं, बल्कि आंशिक रूप से रोगियों को याद किया था, जिससे यह ठीक से छाती के एक्सरे में न्यूमोनिया की पहचान करने की जगह रोगियों को याद करने की कोशिश करता रहा।
पंक्ति-वार रिसाव डेटा की पंक्तियों के बीच जानकारी के अनुचित आदान-प्रदान के कारण होता है। पंक्ति-वार रिसाव के प्रकारों में शामिल हैं:
* समय से पहले [[फ़ीचर इंजीनियरिंग]]; क्रॉस-वैलिडेशन (सांख्यिकी)/ट्रेन/टेस्ट स्प्लिट से पहले समय से पहले फीचराइजेशन से लीक होना (केवल ट्रेन स्प्लिट पर मिनमैक्स/एनग्राम/आदि फिट होना चाहिए, फिर टेस्ट सेट को बदलना चाहिए)
* ट्रेन/सत्यापन/परीक्षण के बीच पंक्तियों को डुप्लिकेट करें (उदाहरण के लिए विभाजन से पहले इसके आकार को पैड करने के लिए डेटासेट को ओवरसैंपलिंग करना; उदाहरण के लिए एक ही छवि के विभिन्न घुमाव/संवर्द्धन; विभाजन से पहले बूटस्ट्रैपिंग (आंकड़े); या अल्पसंख्यक वर्ग के [[डेटा विश्लेषण में ओवरसैंपलिंग और अंडरसैंपलिंग]] के लिए पंक्तियों को डुप्लिकेट करना)
* स्वतंत्र और समान रूप से वितरित यादृच्छिक चर|गैर-आई.आई.डी. आंकड़े
** समय रिसाव (उदाहरण के लिए ट्रेनटेस्ट स्प्लिट या रोलिंग-ओरिजिन क्रॉस वैलिडेशन का उपयोग करके परीक्षण सेट में नए डेटा के बजाय समय-श्रृंखला डेटासेट को यादृच्छिक रूप से विभाजित करना)
** ग्रुप लीकेज - इसमें ग्रुपिंग स्प्लिट कॉलम शामिल नहीं है (उदाहरण के लिए [[एंड्रयू एनजी]] के समूह में 30k रोगियों के 100k एक्स-रे थे, जिसका अर्थ है प्रति मरीज ~ 3 छवियां। पेपर ने यह सुनिश्चित करने के बजाय यादृच्छिक विभाजन का उपयोग किया कि एक मरीज की सभी छवियां एक ही विभाजन में थीं। इसलिए मॉडल ने छाती के एक्स-रे में निमोनिया को पहचानना सीखने के बजाय रोगियों को आंशिक रूप से याद किया।<ref name=GutsAIUkraineConfTalk18>{{cite conference |url=https://www.youtube.com/watch?v=dWhdWxgt5SU |title=यूरी हिम्मत. मशीन लर्निंग में लक्ष्य रिसाव|last1=Guts |first1=Yuriy |date=30 October 2018 |location=Ukraine |conference=AI Ukraine Conference |format=Talk |via=YouTube}}
*{{cite web |author=Yuriy Guts |title=Target Leakage in ML |website=AI Ukraine Online Conference |url=https://aiukraine.com/wp-content/uploads/2018/09/12_00-Yuriy-Guts-Target-Leakage-in-Machine-Learning-.pdf}}</ref><ref>{{cite web |last1=Nick |first1=Roberts |title=Replying to @AndrewYNg @pranavrajpurkar and 2 others |url=https://twitter.com/nizkroberts/status/931121395748270080 |publisher=Twitter |access-date=13 January 2020 |archive-url=https://web.archive.org/web/20180610093107/https://twitter.com/nizkroberts/status/931121395748270080 |archive-date=10 June 2018 |location=Brooklyn, NY, USA |date=16 November 2017 |quote=Replying to  @AndrewYNg  @pranavrajpurkar  and 2 others ... Were you concerned that the network could memorize patient anatomy since patients cross train and validation?  "ChestX-ray14 dataset contains 112,120 frontal-view X-ray images of 30,805 unique patients. We randomly split the entire dataset into 80% training, and 20% validation." |url-status=live }}</ref>)


समय-निर्भर डेटासेट के लिए, अध्ययन की जा रही प्रणाली की संरचना समय के साथ विकसित होती है (यानी यह गैर-स्थिर है)। यह प्रशिक्षण और सत्यापन सेट के बीच व्यवस्थित अंतर पेश कर सकता है। उदाहरण के लिए, यदि शेयर बाजार की भविष्यवाणी के लिए एक मॉडल को एक निश्चित पांच साल की अवधि के लिए डेटा पर प्रशिक्षित किया जाता है, तो बाद की पांच साल की अवधि को उसी आबादी से आकर्षित मानना ​​अवास्तविक है। एक अन्य उदाहरण के रूप में, मान लीजिए कि अगले वर्ष के भीतर किसी विशेष बीमारी के चिकित्सीय निदान के लिए किसी व्यक्ति के जोखिम की भविष्यवाणी करने के लिए एक मॉडल विकसित किया गया है।
समय-निर्भर डेटासेट के लिए, अध्ययन की जा रही प्रणाली की संरचना समय के साथ विकसित होती है (यानी यह गैर-स्थिर है)। यह प्रशिक्षण और सत्यापन सेट के बीच व्यवस्थित अंतर पेश कर सकता है। उदाहरण के लिए, यदि शेयर बाजार की भविष्यवाणी के लिए एक मॉडल को एक निश्चित पांच साल की अवधि के लिए डेटा पर प्रशिक्षित किया जाता है, तो बाद की पांच साल की अवधि को उसी आबादी से आकर्षित मानना ​​अवास्तविक है। एक अन्य उदाहरण के रूप में, मान लीजिए कि अगले वर्ष के भीतर किसी विशेष बीमारी के चिकित्सीय निदान के लिए किसी व्यक्ति के जोखिम की भविष्यवाणी करने के लिए एक मॉडल विकसित किया गया है।

Revision as of 18:29, 5 August 2023

सांख्यिकी और मशीन लर्निंग में, लीकेज जिसे डेटा लीकेज या टार्गेट लीकेज के रूप में जाना जाता है, जिसमें मॉडल प्रशिक्षण की प्रक्रिया में जानकारी का उपयोग किया जाता है, जो पूर्वानुमान समय में उपलब्ध होने की संभावना नहीं होती, जिससे पूर्वानुमान स्कोर उत्पादन वातावरण में चलने पर मॉडल के उपयोगिता का महत्व अधिक माना जाता है।[1]

लीकेज प्रायः सूक्ष्म और अप्रत्यक्ष होता है, जिससे इसका पता लगाना और उसे निकालना कठिन होता है। यह लीकेज किसी सांख्यिकीय विशेषज्ञ या मॉडलर को एक उप-इष्टतम मॉडल का चयन करना पड़ सकता है जिसे लीकेज-मुक्त मॉडल द्वारा बेहतर प्रदर्शन किया जा सकता है।[1]

लीकेज मोड

मशीन सीखने की प्रक्रिया में लीकेज कई चरणों में हो सकता है। लीकेज के कारणों को किसी मॉडल के लिए लीकेज के दो संभावित स्रोतों में उप-वर्गीकृत किया जा सकता है: सुविधाएँ और प्रशिक्षण उदाहरण।[1]

फीचर लीकेज

फ़ीचर या कॉलम-वार लीकेज उन कॉलमों को सम्मिलित करने के कारण होता है जो निम्नलिखित में से एक हैं: एक डुप्लिकेट लेबल, लेबल के लिए एक प्रॉक्सी, या स्वयं लेबल। ये विशेषताएं, जिन्हें अनाक्रोनिस्म के रूप में जाना जाता है, पूर्वानुमान के लिए मॉडल का उपयोग होने पर उपलब्ध नहीं होते है, और इन्हें मॉडल को प्रशिक्षित करते समय सम्मिलित किया जाए तो लीकेज का कारण बन सकते हैं।[2]

उदाहरण के रूप में, "YearlySalary" का पूर्वानुमान करते समय "MonthlySalary" स्तंभ को शामिल करना; या "IsLate" का पूर्वानुमान करते समय "MinutesLate" को शामिल करना; या सूक्ष्मता से, "ShouldGiveLoan" का पूर्वानुमान करते समय "NumOfLatePayments" को शामिल करना लीकेज का कारण बना सकता है।

प्रशिक्षण उदाहरण लीकेज

पंक्ति-वार लीकेज डेटा की पंक्तियों के बीच जानकारी के अनुचित आदान-प्रदान के कारण होता है। पंक्ति-वार लीकेज के प्रकारों में सम्मिलित हैं:

  • पूर्वाग्रहीत विशेषताओं का उपयोग; क्रॉस वैलिडेशन / ट्रेन / टेस्ट स्प्लिट से पहले पूर्वाग्रहीत विशेषताओं से लीकेज ट्रेन स्प्लिट पर केवल मिनमैक्स / एनग्राम / आदि पर फिट करें, और फिर टेस्ट सेट को ट्रांसफ़ॉर्म करें।
  • प्रशिक्षण/मान्यता/परीक्षण के बीच डुप्लिकेट पंक्तियों का होना उदाहरण के लिए, एक डेटासेट का ओवरसैम्पलिंग करके इसका आकार बढ़ाना, एकल इमेज के भिन्न परिवर्तन/वृद्धि, स्प्लिट करने से पहले बूटस्ट्रैप सैंपलिंग, या अल्पसंख्यक वर्ग के डेटा विश्लेषण में ओवरसैंपलिंग और अंडरसैंपलिंग के लिए पंक्तियों को डुप्लिकेट करना ।
  • गैर-आई.आई.डी. आंकड़े
    • समय लीकेज (उदाहरण के लिए, ट्रेनटेस्ट स्प्लिट या रोलिंग-ऑरिजिन क्रॉस वैलिडेशन का उपयोग करके टाइम-सीरीज डेटासेट को यादृच्छिक रूप से विभाजित करना इसके बदले नएर डेटा को टेस्ट सेट में सम्मिलित करना।
    • ग्रुप लीकेज -- समूह विभाजन स्तंभ को सम्मिलित न करना उदाहरण के लिए, एंड्रू एन्ग के समूह में 30 हजार रोगियों के 100 हजार एक्सरे की तस्वीरें थीं, अर्थात्, मॉडल ने पूरी तरह से नहीं, बल्कि आंशिक रूप से रोगियों को याद किया था, जिससे यह ठीक से छाती के एक्सरे में न्यूमोनिया की पहचान करने की जगह रोगियों को याद करने की कोशिश करता रहा।

समय-निर्भर डेटासेट के लिए, अध्ययन की जा रही प्रणाली की संरचना समय के साथ विकसित होती है (यानी यह गैर-स्थिर है)। यह प्रशिक्षण और सत्यापन सेट के बीच व्यवस्थित अंतर पेश कर सकता है। उदाहरण के लिए, यदि शेयर बाजार की भविष्यवाणी के लिए एक मॉडल को एक निश्चित पांच साल की अवधि के लिए डेटा पर प्रशिक्षित किया जाता है, तो बाद की पांच साल की अवधि को उसी आबादी से आकर्षित मानना ​​अवास्तविक है। एक अन्य उदाहरण के रूप में, मान लीजिए कि अगले वर्ष के भीतर किसी विशेष बीमारी के चिकित्सीय निदान के लिए किसी व्यक्ति के जोखिम की भविष्यवाणी करने के लिए एक मॉडल विकसित किया गया है।

पहचान

यह भी देखें

संदर्भ

  1. 1.0 1.1 1.2 Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). "Leakage in Data Mining: Formulation, Detection, and Avoidance". Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 6: 556–563. doi:10.1145/2020408.2020496. Retrieved 13 January 2020.
  2. Soumen Chakrabarti (2008). "9". Data Mining: Know it All. Morgan Kaufmann Publishers. p. 383. ISBN 978-0-12-374629-0. Anachronistic variables are a pernicious mining problem. However, they aren't any problem at all at deployment time—unless someone expects the model to work! Anachronistic variables are out of place in time. Specifically, at data modeling time, they carry information back from the future to the past.