लीकेज (मशीन लर्निंग)

सांख्यिकी और यंत्र अधिगम में, लीकेज (डेटा लीकेज या टारगेट लीकेज के रूप में भी जाना जाता है) मॉडल प्रशिक्षण प्रक्रिया में जानकारी का उपयोग होता है, जिसके भविष्यवाणी समय पर उपलब्ध होने की उम्मीद नहीं की जाती है, जिससे उत्पादन वातावरण में चलने पर पूर्वानुमानित स्कोर (मेट्रिक्स) मॉडल की उपयोगिता को कम कर देते हैं।^[1]

रिसाव अक्सर सूक्ष्म और अप्रत्यक्ष होता है, जिससे इसका पता लगाना और समाप्त करना कठिन हो जाता है। रिसाव के कारण सांख्यिकीविद् या मॉडलर को एक उप-इष्टतम मॉडल का चयन करना पड़ सकता है, जिसे रिसाव-मुक्त मॉडल द्वारा बेहतर प्रदर्शन किया जा सकता है।^[1]

रिसाव मोड

मशीन सीखने की प्रक्रिया में रिसाव कई चरणों में हो सकता है। रिसाव के कारणों को किसी मॉडल के लिए रिसाव के दो संभावित स्रोतों में उप-वर्गीकृत किया जा सकता है: सुविधाएँ और प्रशिक्षण उदाहरण।^[1]

फीचर लीकेज

फ़ीचर या कॉलम-वार रिसाव उन कॉलमों को शामिल करने के कारण होता है जो निम्न में से एक हैं: एक डुप्लिकेट लेबल, लेबल के लिए एक प्रॉक्सी, या स्वयं लेबल। ये सुविधाएँ, जिन्हें एनाक्रोनिज़्म के रूप में जाना जाता है, तब उपलब्ध नहीं होंगी जब मॉडल का उपयोग भविष्यवाणियों के लिए किया जाता है, और यदि मॉडल को प्रशिक्षित किया जाता है तो शामिल होने पर रिसाव हो सकता है।^[2] उदाहरण के लिए, वार्षिक वेतन की भविष्यवाणी करते समय मासिक वेतन कॉलम शामिल करना; या IsLate की भविष्यवाणी करते समय MinutesLate ; या अधिक सूक्ष्मता से NumOfLatePayments, जब ShodGiveLoan की भविष्यवाणी करते हैं।

प्रशिक्षण उदाहरण रिसाव

पंक्ति-वार रिसाव डेटा की पंक्तियों के बीच जानकारी के अनुचित आदान-प्रदान के कारण होता है। पंक्ति-वार रिसाव के प्रकारों में शामिल हैं:

समय से पहले फ़ीचर इंजीनियरिंग; क्रॉस-वैलिडेशन (सांख्यिकी)/ट्रेन/टेस्ट स्प्लिट से पहले समय से पहले फीचराइजेशन से लीक होना (केवल ट्रेन स्प्लिट पर मिनमैक्स/एनग्राम/आदि फिट होना चाहिए, फिर टेस्ट सेट को बदलना चाहिए)
ट्रेन/सत्यापन/परीक्षण के बीच पंक्तियों को डुप्लिकेट करें (उदाहरण के लिए विभाजन से पहले इसके आकार को पैड करने के लिए डेटासेट को ओवरसैंपलिंग करना; उदाहरण के लिए एक ही छवि के विभिन्न घुमाव/संवर्द्धन; विभाजन से पहले बूटस्ट्रैपिंग (आंकड़े); या अल्पसंख्यक वर्ग के डेटा विश्लेषण में ओवरसैंपलिंग और अंडरसैंपलिंग के लिए पंक्तियों को डुप्लिकेट करना)
स्वतंत्र और समान रूप से वितरित यादृच्छिक चर|गैर-आई.आई.डी. आंकड़े
- समय रिसाव (उदाहरण के लिए ट्रेनटेस्ट स्प्लिट या रोलिंग-ओरिजिन क्रॉस वैलिडेशन का उपयोग करके परीक्षण सेट में नए डेटा के बजाय समय-श्रृंखला डेटासेट को यादृच्छिक रूप से विभाजित करना)
- ग्रुप लीकेज - इसमें ग्रुपिंग स्प्लिट कॉलम शामिल नहीं है (उदाहरण के लिए एंड्रयू एनजी के समूह में 30k रोगियों के 100k एक्स-रे थे, जिसका अर्थ है प्रति मरीज ~ 3 छवियां। पेपर ने यह सुनिश्चित करने के बजाय यादृच्छिक विभाजन का उपयोग किया कि एक मरीज की सभी छवियां एक ही विभाजन में थीं। इसलिए मॉडल ने छाती के एक्स-रे में निमोनिया को पहचानना सीखने के बजाय रोगियों को आंशिक रूप से याद किया।^[3]^[4])

समय-निर्भर डेटासेट के लिए, अध्ययन की जा रही प्रणाली की संरचना समय के साथ विकसित होती है (यानी यह गैर-स्थिर है)। यह प्रशिक्षण और सत्यापन सेट के बीच व्यवस्थित अंतर पेश कर सकता है। उदाहरण के लिए, यदि शेयर बाजार की भविष्यवाणी के लिए एक मॉडल को एक निश्चित पांच साल की अवधि के लिए डेटा पर प्रशिक्षित किया जाता है, तो बाद की पांच साल की अवधि को उसी आबादी से आकर्षित मानना अवास्तविक है। एक अन्य उदाहरण के रूप में, मान लीजिए कि अगले वर्ष के भीतर किसी विशेष बीमारी के चिकित्सीय निदान के लिए किसी व्यक्ति के जोखिम की भविष्यवाणी करने के लिए एक मॉडल विकसित किया गया है।

पहचान

यह भी देखें

ऑटोएमएल
क्रॉस-वैलिडेशन (सांख्यिकी)|क्रॉस-वैलिडेशन
ओवरफिटिंग
पुन: नमूनाकरण (सांख्यिकी)
पर्यवेक्षित अध्ययन
प्रशिक्षण, सत्यापन और परीक्षण सेट

संदर्भ

↑ ^1.0 ^1.1 ^1.2 Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). "Leakage in Data Mining: Formulation, Detection, and Avoidance". Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 6: 556–563. doi:10.1145/2020408.2020496. Retrieved 13 January 2020.
↑ Soumen Chakrabarti (2008). "9". Data Mining: Know it All. Morgan Kaufmann Publishers. p. 383. ISBN 978-0-12-374629-0. Anachronistic variables are a pernicious mining problem. However, they aren't any problem at all at deployment time—unless someone expects the model to work! Anachronistic variables are out of place in time. Specifically, at data modeling time, they carry information back from the future to the past.
↑
Guts, Yuriy (30 October 2018). यूरी हिम्मत. मशीन लर्निंग में लक्ष्य रिसाव (Talk). AI Ukraine Conference. Ukraine – via YouTube.
- Yuriy Guts. "Target Leakage in ML" (PDF). AI Ukraine Online Conference.
↑ Nick, Roberts (16 November 2017). "Replying to @AndrewYNg @pranavrajpurkar and 2 others". Brooklyn, NY, USA: Twitter. Archived from the original on 10 June 2018. Retrieved 13 January 2020. Replying to @AndrewYNg @pranavrajpurkar and 2 others ... Were you concerned that the network could memorize patient anatomy since patients cross train and validation? "ChestX-ray14 dataset contains 112,120 frontal-view X-ray images of 30,805 unique patients. We randomly split the entire dataset into 80% training, and 20% validation."

This artificial intelligence-related article is a stub. You can help Wikipedia by expanding it.

[KaufmanKDD11-1] 1.0 ^1.1 ^1.2 Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). "Leakage in Data Mining: Formulation, Detection, and Avoidance". Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 6: 556–563. doi:10.1145/2020408.2020496. Retrieved 13 January 2020.

[2] Soumen Chakrabarti (2008). "9". Data Mining: Know it All. Morgan Kaufmann Publishers. p. 383. ISBN 978-0-12-374629-0. Anachronistic variables are a pernicious mining problem. However, they aren't any problem at all at deployment time—unless someone expects the model to work! Anachronistic variables are out of place in time. Specifically, at data modeling time, they carry information back from the future to the past.

[GutsAIUkraineConfTalk18-3] Guts, Yuriy (30 October 2018). यूरी हिम्मत. मशीन लर्निंग में लक्ष्य रिसाव (Talk). AI Ukraine Conference. Ukraine – via YouTube.
Yuriy Guts. "Target Leakage in ML" (PDF). AI Ukraine Online Conference.

[4] Yuriy Guts. "Target Leakage in ML" (PDF). AI Ukraine Online Conference.

[4] Nick, Roberts (16 November 2017). "Replying to @AndrewYNg @pranavrajpurkar and 2 others". Brooklyn, NY, USA: Twitter. Archived from the original on 10 June 2018. Retrieved 13 January 2020. Replying to @AndrewYNg @pranavrajpurkar and 2 others ... Were you concerned that the network could memorize patient anatomy since patients cross train and validation? "ChestX-ray14 dataset contains 112,120 frontal-view X-ray images of 30,805 unique patients. We randomly split the entire dataset into 80% training, and 20% validation."

[1]

[2]

[3]

[4]

Anonymous

Search

लीकेज (मशीन लर्निंग)

Namespaces

More

Page actions

Contents

रिसाव मोड

फीचर लीकेज

प्रशिक्षण उदाहरण रिसाव

पहचान

यह भी देखें

संदर्भ

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

लीकेज (मशीन लर्निंग)

रिसाव मोड

फीचर लीकेज

प्रशिक्षण उदाहरण रिसाव

पहचान

यह भी देखें

संदर्भ

Navigation

Wiki tools

Page tools

Other projects

Categories