प्रशिक्षण, सत्यापन और परीक्षण डेटा सेट
Part of a series on |
Machine learning and data mining |
---|
यंत्र अधिगम में, एक सामान्य कार्य कलन विधि का अध्ययन और निर्माण है जो डेटा से सीख सकता है और भविष्यवाणी कर सकता है।[1] इस तरह के एल्गोरिदम डेटा-संचालित भविष्यवाणियां या निर्णय लेकर कार्य करते हैं,[2] इनपुट डेटा से गणितीय मॉडल बनाकर। मॉडल बनाने के लिए उपयोग किए जाने वाले ये इनपुट डेटा सामान्यतः कई डेटा सेटों में विभाजित होते हैं। विशेष रूप से, तीन डेटा समुच्चय सामान्यतः मॉडल के निर्माण के विभिन्न चरणों में उपयोग किए जाते हैं: प्रशिक्षण, सत्यापन और परीक्षण समुच्चय ।
मॉडल शुरू में एक प्रशिक्षण डेटा समुच्चय पर फिट होता है,[3] जो मॉडल के मापदंडों (जैसे कृत्रिम तंत्रिका नेटवर्क में न्यूरॉन्स के बीच कनेक्शन के भार) को फिट करने के लिए उपयोग किए जाने वाले उदाहरणों का एक समुच्चय है।[4] मॉडल (उदाहरण के लिए एक भोली बेयस क्लासिफायरियर) को पर्यवेक्षित शिक्षण पद्धति का उपयोग करके प्रशिक्षण डेटा समुच्चय पर प्रशिक्षित किया जाता है, उदाहरण के लिए ढतला हुआ वंश या स्टोकेस्टिक ग्रेडिएंट डिसेंट जैसे अनुकूलन विधियों का उपयोग करना। व्यवहार में, प्रशिक्षण डेटा समुच्चय में अक्सर एक इनपुट ऐरे डेटा संरचना (या स्केलर) और संबंधित आउटपुट वेक्टर (या स्केलर) के जोड़े होते हैं, जहां उत्तर कुंजी को सामान्यतः लक्ष्य (या लेबल) के रूप में दर्शाया जाता है। वर्तमान मॉडल प्रशिक्षण डेटा समुच्चय के साथ चलाया जाता है और एक परिणाम उत्पन्न करता है, जिसे प्रशिक्षण डेटा समुच्चय में प्रत्येक इनपुट वेक्टर के लिए लक्ष्य के साथ तुलना की जाती है। तुलना के परिणाम और उपयोग किए जा रहे विशिष्ट शिक्षण एल्गोरिदम के आधार पर, मॉडल के मापदंडों को समायोजित किया जाता है। मॉडल फिटिंग में फीचर चयन और पैरामीटर अनुमान सिद्धांत दोनों सम्मिलित हो सकते हैं।
क्रमिक रूप से, फिट किए गए मॉडल का उपयोग दूसरे डेटा समुच्चय में टिप्पणियों के लिए प्रतिक्रियाओं की भविष्यवाणी करने के लिए किया जाता है जिसे 'सत्यापन डेटा समुच्चय ' कहा जाता है।[3]सत्यापन डेटा समुच्चय मॉडल के हाइपरपरमीटर (मशीन लर्निंग) को ट्यून करते समय प्रशिक्षण डेटा समुच्चय पर फिट होने वाले मॉडल का निष्पक्ष मूल्यांकन प्रदान करता है।[5] (उदाहरण के लिए एक तंत्रिका नेटवर्क में छिपी हुई इकाइयों-परतों और परत की चौड़ाई-की संख्या[4]). सत्यापन डेटासेट का उपयोग नियमितकरण (गणित) के लिए जल्दी रोक कर किया जा सकता है (सत्यापन डेटा समुच्चय पर त्रुटि बढ़ने पर प्रशिक्षण रोकना, क्योंकि यह overfitting का संकेत है। प्रशिक्षण डेटा समुच्चय के लिए ओवर-फिटिंग)।[6] यह सरल प्रक्रिया व्यवहार में इस तथ्य से जटिल है कि प्रशिक्षण के दौरान सत्यापन डेटासेट की त्रुटि में उतार-चढ़ाव हो सकता है, जिससे कई स्थानीय मिनीमा उत्पन्न हो सकते हैं। इस जटिलता ने निर्णय लेने के लिए कई तदर्थ नियमों का निर्माण किया है कि ओवर-फिटिंग वास्तव में कब शुरू हुई है।[6]
अंत में, परीक्षण डेटा समुच्चय एक डेटा समुच्चय है जिसका उपयोग प्रशिक्षण डेटा समुच्चय पर फिट होने वाले 'अंतिम' मॉडल का निष्पक्ष मूल्यांकन प्रदान करने के लिए किया जाता है।[5]यदि परीक्षण डेटा समुच्चय में डेटा का उपयोग प्रशिक्षण में कभी नहीं किया गया है (उदाहरण के लिए क्रॉस-सत्यापन (सांख्यिकी) | क्रॉस-सत्यापन में), तो परीक्षण डेटा समुच्चय को होल्डआउट डेटा समुच्चय भी कहा जाता है। शब्द सत्यापन समुच्चय का उपयोग कभी-कभी कुछ साहित्य में परीक्षण समुच्चय के बजाय किया जाता है (उदाहरण के लिए, यदि मूल डेटा समुच्चय को केवल दो सबसेट में विभाजित किया गया था, तो परीक्षण समुच्चय को सत्यापन समुच्चय के रूप में संदर्भित किया जा सकता है)।[5]
प्रशिक्षण, परीक्षण और सत्यापन समुच्चय में डेटा समुच्चय डिवीजन के लिए आकार और रणनीति तय करना समस्या और उपलब्ध डेटा पर बहुत निर्भर करता है।[7]
प्रशिक्षण डेटा समुच्चय
एक प्रशिक्षण डेटा समुच्चय सीखने की प्रक्रिया के दौरान उपयोग किए जाने वाले उदाहरणों का एक डाटासेट है और इसका उपयोग क्लासिफायरियर (मशीन लर्निंग) के मापदंडों (जैसे, वजन) को फिट करने के लिए किया जाता है।[8][9] वर्गीकरण कार्यों के लिए, एक पर्यवेक्षित शिक्षण एल्गोरिथ्म चर के इष्टतम संयोजनों को निर्धारित करने या सीखने के लिए निर्धारित प्रशिक्षण डेटा को देखता है जो एक अच्छा भविष्य कहनेवाला मॉडलिंग उत्पन्न करेगा।[10] लक्ष्य एक प्रशिक्षित (फिट) मॉडल तैयार करना है जो नए, अज्ञात डेटा को अच्छी तरह से सामान्यीकृत करता है।[11] नए डेटा को वर्गीकृत करने में मॉडल की सटीकता का अनुमान लगाने के लिए आयोजित किए गए डेटासेट (सत्यापन और परीक्षण डेटासेट) से "नए" उदाहरणों का उपयोग करके फिट किए गए मॉडल का मूल्यांकन किया जाता है।[5]ओवर-फिटिंग जैसे मुद्दों के जोखिम को कम करने के लिए, मॉडल को प्रशिक्षित करने के लिए सत्यापन और परीक्षण डेटासेट के उदाहरणों का उपयोग नहीं किया जाना चाहिए।[5]
अनुभवजन्य संबंधों के लिए प्रशिक्षण डेटा के माध्यम से खोज करने वाले अधिकांश दृष्टिकोण डेटा से अधिक हो जाते हैं, जिसका अर्थ है कि वे प्रशिक्षण डेटा में स्पष्ट संबंधों की पहचान कर सकते हैं और उनका फायदा उठा सकते हैं जो सामान्य रूप से पकड़ में नहीं आते हैं।
सत्यापन डेटा समुच्चय
एक सत्यापन डेटा समुच्चय एक डेटासेट है। उदाहरणों का डेटा-समुच्चय एक क्लासिफायरियर के हाइपरपैरामीटर (मशीन लर्निंग) (यानी आर्किटेक्चर) को ट्यून करने के लिए उपयोग किया जाता है। इसे कभी-कभी विकास समुच्चय या देव समुच्चय भी कहा जाता है।[12] कृत्रिम तंत्रिका नेटवर्क के लिए एक हाइपरपैरामीटर के उदाहरण में प्रत्येक परत में छिपी हुई इकाइयों की संख्या सम्मिलित है।[8][9]यह, साथ ही साथ परीक्षण समुच्चय (जैसा कि नीचे उल्लेख किया गया है), प्रशिक्षण डेटा समुच्चय के समान संभाव्यता वितरण का पालन करना चाहिए।
ओवरफिटिंग से बचने के लिए, जब किसी सांख्यिकीय वर्गीकरण पैरामीटर को समायोजित करने की आवश्यकता होती है, तो प्रशिक्षण और परीक्षण डेटासेट के अलावा एक सत्यापन डेटा समुच्चय होना आवश्यक है। उदाहरण के लिए, यदि समस्या के लिए सबसे उपयुक्त क्लासिफायरियर की मांग की जाती है, तो प्रशिक्षण डेटा समुच्चय का उपयोग विभिन्न उम्मीदवारों के क्लासिफायर को प्रशिक्षित करने के लिए किया जाता है, सत्यापन डेटा समुच्चय का उपयोग उनके प्रदर्शन की तुलना करने और यह तय करने के लिए किया जाता है कि कौन सा लेना है और अंत में, टेस्ट डेटा समुच्चय का उपयोग प्रदर्शन विशेषताओं जैसे सटीकता, संवेदनशीलता और विशिष्टता, संवेदनशीलता और विशिष्टता, परिशुद्धता और रिकॉल #F-measure|F-माप, और इसी तरह प्राप्त करने के लिए किया जाता है। सत्यापन डेटा समुच्चय हाइब्रिड के रूप में कार्य करता है: यह परीक्षण के लिए उपयोग किया जाने वाला प्रशिक्षण डेटा है, लेकिन न तो निम्न-स्तरीय प्रशिक्षण के भाग के रूप में और न ही अंतिम परीक्षण के भाग के रूप में।
मॉडल चयन के लिए सत्यापन डेटा समुच्चय (प्रशिक्षण डेटा समुच्चय , सत्यापन डेटा समुच्चय और परीक्षण डेटा समुच्चय के भाग के रूप में) का उपयोग करने की मूल प्रक्रिया है:[9][13]
Since our goal is to find the network having the best performance on new data, the simplest approach to the comparison of different networks is to evaluate the error function using data which is independent of that used for training. Various networks are trained by minimization of an appropriate error function defined with respect to a training data set. The performance of the networks is then compared by evaluating the error function using an independent validation set, and the network having the smallest error with respect to the validation set is selected. This approach is called the hold out method. Since this procedure can itself lead to some overfitting to the validation set, the performance of the selected network should be confirmed by measuring its performance on a third independent set of data called a test set.
इस प्रक्रिया का एक अनुप्रयोग प्रारंभिक रोक में है, जहां उम्मीदवार मॉडल एक ही नेटवर्क के लगातार पुनरावृत्तियों होते हैं, और सत्यापन समुच्चय पर त्रुटि बढ़ने पर प्रशिक्षण बंद हो जाता है, पिछले मॉडल (न्यूनतम त्रुटि वाला एक) का चयन करना।
टेस्ट डेटा समुच्चय
एक परीक्षण डेटा समुच्चय एक डेटासेट है जो प्रशिक्षण डेटा समुच्चय की स्वतंत्रता (संभावना सिद्धांत) है, लेकिन यह प्रशिक्षण डेटा समुच्चय के समान संभाव्यता वितरण का अनुसरण करता है। यदि प्रशिक्षण डेटा समुच्चय के लिए कोई मॉडल फिट बैठता है, तो परीक्षण डेटा समुच्चय भी अच्छी तरह से फिट बैठता है, न्यूनतम ओवरफिटिंग हुई है (नीचे चित्र देखें)। परीक्षण डेटा समुच्चय के विपरीत प्रशिक्षण डेटा समुच्चय की बेहतर फिटिंग सामान्यतः ओवर-फिटिंग की ओर इशारा करती है।
एक परीक्षण समुच्चय इसलिए उदाहरणों का एक समुच्चय है जिसका उपयोग केवल पूर्ण रूप से निर्दिष्ट क्लासिफायरियर के प्रदर्शन (यानी सामान्यीकरण) का आकलन करने के लिए किया जाता है।[8][9]ऐसा करने के लिए, परीक्षण समुच्चय में उदाहरणों के वर्गीकरण की भविष्यवाणी करने के लिए अंतिम मॉडल का उपयोग किया जाता है। मॉडल की सटीकता का आकलन करने के लिए उन भविष्यवाणियों की तुलना उदाहरणों के सही वर्गीकरण से की जाती है।[10]
ऐसे परिदृश्य में जहां सत्यापन और परीक्षण डेटासेट दोनों का उपयोग किया जाता है, परीक्षण डेटा समुच्चय का उपयोग सामान्यतः सत्यापन प्रक्रिया के दौरान चुने गए अंतिम मॉडल का आकलन करने के लिए किया जाता है। ऐसे मामले में जहां मूल डेटा समुच्चय को दो सबसेट (प्रशिक्षण और परीक्षण डेटासेट) में विभाजित किया जाता है, परीक्षण डेटा समुच्चय केवल एक बार मॉडल का आकलन कर सकता है (उदाहरण के लिए, होल्डआउट विधि में)।[14] ध्यान दें कि कुछ स्रोत ऐसी विधि के विरुद्ध सलाह देते हैं।[11]हालांकि, क्रॉस-सत्यापन (सांख्यिकी) | क्रॉस-सत्यापन जैसी विधि का उपयोग करते समय, दो विभाजन पर्याप्त और प्रभावी हो सकते हैं क्योंकि पूर्वाग्रह और परिवर्तनशीलता को कम करने में मदद करने के लिए मॉडल प्रशिक्षण और परीक्षण के बार-बार दौर के बाद परिणाम औसत होते हैं।[5][11]
शब्दावली में भ्रम
परीक्षण इसके बारे में कुछ पता लगाने की कोशिश कर रहा है (सबूत देने के लिए; अंग्रेजी के सहयोगी अंतर्राष्ट्रीय शब्दकोश के अनुसार प्रयोग द्वारा सत्य, वास्तविकता या गुणवत्ता साबित करने के लिए) और मान्य करने के लिए यह साबित करना है कि कुछ मान्य है (पुष्टि करने के लिए; अंग्रेजी के वैध सहयोगात्मक अंतर्राष्ट्रीय शब्दकोश को प्रस्तुत करने के लिए)। इस परिप्रेक्ष्य में, परीक्षण समुच्चय और सत्यापन समुच्चय की शर्तों का सबसे आम उपयोग यहां वर्णित एक है। हालांकि, उद्योग और शिक्षा दोनों में, उन्हें कभी-कभी इंटरचेंज किया जाता है, यह देखते हुए कि आंतरिक प्रक्रिया में सुधार के लिए विभिन्न मॉडलों का परीक्षण किया जा रहा है (विकास समुच्चय के रूप में परीक्षण समुच्चय ) और अंतिम मॉडल वह है जिसे वास्तविक उपयोग से पहले मान्य करने की आवश्यकता है एक अनदेखा डेटा (सत्यापन समुच्चय )। मशीन लर्निंग पर साहित्य अक्सर 'सत्यापन' और 'परीक्षण' समुच्चय के अर्थ को उलट देता है।मशीन लर्निंग (एमएल) में, एक मौलिक कार्य एल्गोरिथम मॉडल का विकास है जो परिदृश्यों का विश्लेषण करता है और भविष्यवाणियां करता है। इस काम के दौरान, विश्लेषक विभिन्न उदाहरणों को प्रशिक्षण, सत्यापन और परीक्षण डेटासेट में जोड़ते हैं। नीचे, हम प्रत्येक फ़ंक्शन के बीच के अंतरों की समीक्षा करते हैं। यह शब्दावली भ्रम का सबसे स्पष्ट उदाहरण है जो कृत्रिम बुद्धिमत्ता अनुसंधान में व्याप्त है।प्रारंभ में, विकास पद्धति में निर्दिष्ट परियोजना मापदंडों के भीतर प्रारंभिक इनपुट सम्मिलित होते हैं। प्रक्रिया को एमएल मॉडल या अनुमानक * के भीतर तथाकथित न्यूरॉन्स के विभिन्न कनेक्शनों के बीच भार की विशेषज्ञ सेटिंग की भी आवश्यकता होती है।
इस पहले डेटासेट की शुरुआत के बाद, डेवलपर्स परिणामी आउटपुट की तुलना लक्षित उत्तरों से करते हैं। अगला, वे आवश्यकतानुसार मॉडल के पैरामीटर, भार और कार्यक्षमता को समायोजित करते हैं। [15] फिर भी, जो महत्वपूर्ण अवधारणा रखी जानी चाहिए वह यह है कि अंतिम समुच्चय , जिसे परीक्षण या सत्यापन कहा जाता है, केवल अंतिम प्रयोग में ही उपयोग किया जाना चाहिए।
क्रॉस-सत्यापन
अधिक स्थिर परिणाम प्राप्त करने और प्रशिक्षण के लिए सभी मूल्यवान डेटा का उपयोग करने के लिए, डेटा समुच्चय को बार-बार कई प्रशिक्षण और सत्यापन डेटासेट में विभाजित किया जा सकता है। इसे क्रॉस-वैलिडेशन (सांख्यिकी) | क्रॉस-वैलिडेशन के रूप में जाना जाता है। मॉडल के प्रदर्शन की पुष्टि करने के लिए, क्रॉस-सत्यापन से आयोजित एक अतिरिक्त परीक्षण डेटा समुच्चय का सामान्य रूप से उपयोग किया जाता है।
यह भी देखें
- सांख्यिकीय वर्गीकरण
- मशीन लर्निंग रिसर्च के लिए डेटासेट की सूची
- पदानुक्रमित वर्गीकरण
संदर्भ
- ↑ Ron Kohavi; Foster Provost (1998). "पारिभाषिक शब्दावली". Machine Learning. 30: 271–274. doi:10.1023/A:1007411609915.
- ↑ Bishop, Christopher M. (2006). पैटर्न मान्यता और मशीन प्रवीणता. New York: Springer. p. vii. ISBN 0-387-31073-8.
Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science. However, these activities can be viewed as two facets of the same field, and together they have undergone substantial development over the past ten years.
- ↑ 3.0 3.1 James, Gareth (2013). An Introduction to Statistical Learning: with Applications in R. Springer. p. 176. ISBN 978-1461471370.
- ↑ 4.0 4.1 Ripley, Brian (1996). पैटर्न पहचान और तंत्रिका नेटवर्क. Cambridge University Press. p. 354. ISBN 978-0521717700.
- ↑ 5.0 5.1 5.2 5.3 5.4 5.5 Brownlee, Jason (2017-07-13). "What is the Difference Between Test and Validation Datasets?". Retrieved 2017-10-12.
- ↑ 6.0 6.1 Prechelt, Lutz; Geneviève B. Orr (2012-01-01). "Early Stopping — But When?". In Grégoire Montavon; Klaus-Robert Müller (eds.). तंत्रिका नेटवर्क: व्यापार के गुर. Lecture Notes in Computer Science. Springer Berlin Heidelberg. pp. 53–67. doi:10.1007/978-3-642-35289-8_5. ISBN 978-3-642-35289-8.
- ↑ "Machine learning - Is there a rule-of-thumb for how to divide a dataset into training and validation sets?". Stack Overflow. Retrieved 2021-08-12.
- ↑ 8.0 8.1 8.2 Ripley, B.D. (1996) Pattern Recognition and Neural Networks, Cambridge: Cambridge University Press, p. 354
- ↑ 9.0 9.1 9.2 9.3 "Subject: What are the population, sample, training set, design set, validation set, and test set?", Neural Network FAQ, part 1 of 7: Introduction (txt), comp.ai.neural-nets, Sarle, W.S., ed. (1997, last modified 2002-05-17)
- ↑ 10.0 10.1 Larose, D. T.; Larose, C. D. (2014). Discovering knowledge in data : an introduction to data mining. Hoboken: Wiley. doi:10.1002/9781118874059. ISBN 978-0-470-90874-7. OCLC 869460667.
- ↑ 11.0 11.1 11.2 Xu, Yun; Goodacre, Royston (2018). "On Splitting Training and Validation Set: A Comparative Study of Cross-Validation, Bootstrap and Systematic Sampling for Estimating the Generalization Performance of Supervised Learning". Journal of Analysis and Testing. Springer Science and Business Media LLC. 2 (3): 249–262. doi:10.1007/s41664-018-0068-2. ISSN 2096-241X. PMC 6373628. PMID 30842888.
- ↑ "ध्यान लगा के पढ़ना या सीखना". Coursera (in English). Retrieved 2021-05-18.
- ↑ Bishop, C.M. (1995), Neural Networks for Pattern Recognition, Oxford: Oxford University Press, p. 372
- ↑ Kohavi, Ron (2001-03-03). "सटीकता अनुमान और मॉडल चयन के लिए क्रॉस-वैलिडेशन और बूटस्ट्रैप का अध्ययन". 14.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Ripley, Brian D. (2009). पैटर्न पहचान और तंत्रिका नेटवर्क. Cambridge Univ. Press. pp. Glossary. ISBN 9780521717700. OCLC 601063414.