ऑनलाइन मशीन लर्निंग: Difference between revisions
No edit summary |
No edit summary |
||
(4 intermediate revisions by 3 users not shown) | |||
Line 2: | Line 2: | ||
{{short description|Method of machine learning}} | {{short description|Method of machine learning}} | ||
{{Machine learning|Problems}} | {{Machine learning|Problems}} | ||
[[कंप्यूटर विज्ञान]] में ऑनलाइन [[ यंत्र अधिगम |यंत्र अधिगम]] मशीन लर्निंग की एक विधि है जिसमें डेटा अनुक्रमिक क्रम में उपलब्ध हो जाता है और प्रत्येक | [[कंप्यूटर विज्ञान]] में ऑनलाइन [[ यंत्र अधिगम |यंत्र अधिगम]] मशीन लर्निंग की एक विधि है जिसमें डेटा अनुक्रमिक क्रम में उपलब्ध हो जाता है और प्रत्येक फेज पर भविष्य के डेटा के लिए सर्वोत्तम भविष्यवक्ता को अपडेट करने के लिए उपयोग किया जाता है, बैच लर्निंग तकनीकों के विपरीत जो एक ही बार में संपूर्ण प्रशिक्षण डेटा समुच्चय पर सीखकर सर्वोत्तम भविष्यवक्ता उत्पन्न करता है। ऑनलाइन लर्निंग मशीन लर्निंग के क्षेत्रों में उपयोग की जाने वाली एक सामान्य तकनीक है जहां संपूर्ण डेटासेट पर प्रशिक्षण देना कम्प्यूटेशनल रूप से संभव नहीं है, जिसके लिए [[बाहर के कोर|आउट ऑफ़ कोर]] एल्गोरिदम की आवश्यकता होती है। इसका उपयोग उन स्थितियों में भी किया जाता है जहां एल्गोरिदम के लिए डेटा में नए पैटर्न को डायनामिक रूप से अनुकूलित करना आवश्यक होता है, या जब डेटा स्वयं समय के एक फलन के रूप में उत्पन्न होता है, उदाहरण के लिए, स्टॉक मार्केट पूर्वानुमान ऑनलाइन शिक्षण एल्गोरिदम में [[विनाशकारी हस्तक्षेप|कैटेस्ट्रोफिक इंटरफेरेंस]] का खतरा हो सकता है, एक समस्या जिसे इंक्रीमेंटल शिक्षण दृष्टिकोण द्वारा संबोधित किया जा सकता है। | ||
== परिचय == | == परिचय == | ||
पर्यवेक्षित शिक्षण की सेटिंग में, <math> f : X \to Y</math> का एक फलन सीखा जाना है, जहां <math>X</math> को इनपुट के स्थान के रूप में और <math>Y</math> को एक स्थान के रूप में माना जाता है आउटपुट का, जो उन उदाहरणों पर अच्छी तरह से पूर्वानुमान करता है जो <math>X \times Y</math> पर संयुक्त संभाव्यता वितरण <math>p(x,y)</math> से निकाले गए हैं। वास्तव में, सीखने वाले को कभी भी उदाहरणों पर सही वितरण <math>p(x,y)</math> का पता नहीं चलता है। इसके अतिरिक्त, शिक्षार्थी के पास समान्यत: उदाहरणों <math>(x_1, y_1), \ldots, (x_n, y_n)</math> के प्रशिक्षण समुच्चय तक पहुंच होती है। इस सेटिंग में, हानि फलन को <math>V : Y \times Y \to \mathbb{R}</math> के रूप में दिया गया है, जैसे कि <math> V(f(x), y)</math> अनुमानित मान <math>f(x)</math> और वास्तविक मान के | पर्यवेक्षित शिक्षण की सेटिंग में, <math> f : X \to Y</math> का एक फलन सीखा जाना है, जहां <math>X</math> को इनपुट के स्थान के रूप में और <math>Y</math> को एक स्थान के रूप में माना जाता है आउटपुट का, जो उन उदाहरणों पर अच्छी तरह से पूर्वानुमान करता है जो <math>X \times Y</math> पर संयुक्त संभाव्यता वितरण <math>p(x,y)</math> से निकाले गए हैं। वास्तव में, सीखने वाले को कभी भी उदाहरणों पर सही वितरण <math>p(x,y)</math> का पता नहीं चलता है। इसके अतिरिक्त, शिक्षार्थी के पास समान्यत: उदाहरणों <math>(x_1, y_1), \ldots, (x_n, y_n)</math> के प्रशिक्षण समुच्चय तक पहुंच होती है। इस सेटिंग में, हानि फलन को <math>V : Y \times Y \to \mathbb{R}</math> के रूप में दिया गया है, जैसे कि <math> V(f(x), y)</math> अनुमानित मान <math>f(x)</math> और वास्तविक मान के मध्य अंतर को मापता है जो की <math>y</math> आदर्श लक्ष्य एक फलन <math>f \in \mathcal{H}</math> का चयन करना है, जहां <math>\mathcal{H}</math> फलन का एक स्थान है जिसे परिकल्पना स्थान कहा जाता है, जिससे कुल हानि की कुछ धारणा कम से कम हो। मॉडल के प्रकार (सांख्यिकीय या प्रतिकूल) के आधार पर, कोई हानि की विभिन्न धारणाओं को तैयार कर सकता है, जो विभिन्न शिक्षण एल्गोरिदम को उत्पन्न करता है। | ||
== ऑनलाइन शिक्षण का सांख्यिकीय दृष्टिकोण == | == ऑनलाइन शिक्षण का सांख्यिकीय दृष्टिकोण == | ||
Line 28: | Line 28: | ||
: <math>y_j \in \mathbb{R} </math>. | : <math>y_j \in \mathbb{R} </math>. | ||
मान लीजिए कि <math>X</math> <math> i \times d </math> डेटा आव्यूह है और <math>y \in \mathbb{R}^i</math> पहले <math>i</math> डेटा बिंदुओं के आने के | मान लीजिए कि <math>X</math> <math> i \times d </math> डेटा आव्यूह है और <math>y \in \mathbb{R}^i</math> पहले <math>i</math> डेटा बिंदुओं के आने के पश्चात् लक्ष्य मानों का स्तम्भ सदिश है। यह मानते हुए कि सहप्रसरण आव्यूह <math> \Sigma_i = X^T X</math> विपरीत है (अन्यथा अधिमान्य नियमितीकरण के साथ इसी तरह से आगे बढ़ना उत्तम है), रैखिक न्यूनतम वर्ग समस्या का सबसे अच्छा समाधान <math> f^*(x) = \langle w^*, x \rangle </math> इस प्रकार दिया गया है | ||
: <math> w^* = (X^TX)^{-1}X^T y = \Sigma_i^{-1} \sum_{j=1}^{i} x_j y_j </math>. | : <math> w^* = (X^TX)^{-1}X^T y = \Sigma_i^{-1} \sum_{j=1}^{i} x_j y_j </math>. | ||
अब, सहप्रसरण आव्यूह <math> \Sigma_i = \sum_{j=1}^{i} x_j x_j^T </math>की गणना करने में समय लगता है <math> O(id^2) </math>, <math>d \times d</math> आव्यूह को व्युत्क्रम में समय लगता है जबकि <math>O(d^3)</math> शेष गुणन में समय | |||
अब, सहप्रसरण आव्यूह <math> \Sigma_i = \sum_{j=1}^{i} x_j x_j^T </math>की गणना करने में समय लगता है <math> O(id^2) </math>, <math>d \times d</math> आव्यूह को व्युत्क्रम में समय लगता है जबकि <math>O(d^3)</math> शेष गुणन में समय <math>O(d^2)</math> लगता है , जिससे कुल समय मिलता है जब <math>O(id^2 + d^3)</math> डेटासेट में <math>n</math> कुल बिंदु होते हैं, तो प्रत्येक डेटापॉइंट <math>i=1, \ldots, n</math> के आने के पश्चात् समाधान की पुन: गणना करने के लिए, अनुभवहीन दृष्टिकोण में कुल सम्मिश्र्ता <math>O(n^2d^2 + nd^3)</math> होगी। ध्यान दें कि जब आव्यूह <math> \Sigma_i </math> को संग्रहीत किया जाता है, तो प्रत्येक फेज में इसे अपडेट करने के लिए केवल <math> x_{i+1}x_{i+1}^T </math> जोड़ने की आवश्यकता होती है, जिसमें <math> O(d^2) </math> समय लगता है, जिससे कुल समय घटकर <math>O(nd^2 + nd^3) = O(nd^3)</math> हो जाता है, किंतु अतिरिक्त संचयन स्थान के साथ <math> O(d^2) </math> संग्रह <math> \Sigma_i </math>.करता है <ref name="lorenzo">L. Rosasco, T. Poggio, Machine Learning: a Regularization Approach, MIT-9.520 Lectures Notes, Manuscript, Dec. 2015. Chapter 7 - Online Learning</ref> | |||
Line 41: | Line 42: | ||
उपरोक्त पुनरावृत्ति एल्गोरिथ्म को <math> i </math> इंडक्शन ऑन का उपयोग करके सिद्ध किया जा सकता है .<ref>{{cite book|last1=Yin|first1=Harold J. Kushner, G. George|title=स्टोकेस्टिक सन्निकटन और पुनरावर्ती एल्गोरिदम और अनुप्रयोग|url=https://archive.org/details/stochasticapprox00yinh|url-access=limited|date=2003|publisher=Springer|location=New York|isbn=978-0-387-21769-7|pages=[https://archive.org/details/stochasticapprox00yinh/page/n30 8]–12|edition=Second}}</ref> प्रमाण यह भी दर्शाता है कि <math> \Gamma_i = \Sigma_i^{-1} </math>. कोई आरएलएस को अनुकूली फिल्टर के संदर्भ में भी देख सकता है ([[पुनरावर्ती न्यूनतम वर्ग]] देखें)। | उपरोक्त पुनरावृत्ति एल्गोरिथ्म को <math> i </math> इंडक्शन ऑन का उपयोग करके सिद्ध किया जा सकता है .<ref>{{cite book|last1=Yin|first1=Harold J. Kushner, G. George|title=स्टोकेस्टिक सन्निकटन और पुनरावर्ती एल्गोरिदम और अनुप्रयोग|url=https://archive.org/details/stochasticapprox00yinh|url-access=limited|date=2003|publisher=Springer|location=New York|isbn=978-0-387-21769-7|pages=[https://archive.org/details/stochasticapprox00yinh/page/n30 8]–12|edition=Second}}</ref> प्रमाण यह भी दर्शाता है कि <math> \Gamma_i = \Sigma_i^{-1} </math>. कोई आरएलएस को अनुकूली फिल्टर के संदर्भ में भी देख सकता है ([[पुनरावर्ती न्यूनतम वर्ग]] देखें)। | ||
इस एल्गोरिथम के <math>n</math> चरणों की सम्मिश्रता <math>O(nd^2)</math> है, जो संबंधित बैच सीखने की सम्मिश्रता की तुलना में तेज़ परिमाण का एक क्रम है। यहां प्रत्येक | इस एल्गोरिथम के <math>n</math> चरणों की सम्मिश्रता <math>O(nd^2)</math> है, जो संबंधित बैच सीखने की सम्मिश्रता की तुलना में तेज़ परिमाण का एक क्रम है। यहां प्रत्येक फेज <math>i</math> पर संचयन की आवश्यकता आव्यूह <math>\Gamma_i</math> को संग्रहीत करने की है, जो <math>O(d^2)</math> पर स्थिर है। उस स्थिति के लिए जब <math> \Sigma_i </math> विपरीत नहीं है, समस्या हानि फलन <math> \sum_{j=1}^{n} (x_j^Tw - y_j)^2 + \lambda || w ||_2^2 </math> के नियमित वर्जन पर विचार करें। फिर, यह दिखाना सरल है कि वही एल्गोरिदम <math> \Gamma_0 = (I + \lambda I)^{-1} </math> के साथ कार्य करता है, और पुनरावृत्तियां <math> \Gamma_i = (\Sigma_i + \lambda I)^{-1} </math> देने के लिए आगे बढ़ती हैं।<ref name="lorenzo" /> | ||
===स्टोकेस्टिक ग्रेडिएंट डिसेंट=== | ===स्टोकेस्टिक ग्रेडिएंट डिसेंट=== | ||
{{Main|स्टोकेस्टिक ग्रेडिएंट डिसेंट}} | {{Main|स्टोकेस्टिक ग्रेडिएंट डिसेंट}} | ||
जब यह | जब यह | ||
: <math>\textstyle w_i = w_{i-1}-\Gamma_ix_i(x_i^T w_{i-1}-y_i)</math> द्वारा प्रतिस्थापित किया जाता है | : <math>\textstyle w_i = w_{i-1}-\Gamma_ix_i(x_i^T w_{i-1}-y_i)</math> द्वारा प्रतिस्थापित किया जाता है | ||
: <math> \textstyle w_i = w_{i-1}-\gamma_i x_i(x_i^T w_{i-1}-y_i) = w_{i-1} - \gamma_i \nabla V(\langle w_{i-1}, x_i \rangle, y_i)</math> या <math>\Gamma_i \in \mathbb{R}^{d\times d}</math> द्वारा<math>\gamma_i \in \mathbb{R}</math>, यह स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम बन जाता है। इस स्थिति में, इस एल्गोरिथ्म के <math>n</math> चरणों की सम्मिश्र्ता घटकर <math>O(nd)</math> हो जाती है। प्रत्येक | : <math> \textstyle w_i = w_{i-1}-\gamma_i x_i(x_i^T w_{i-1}-y_i) = w_{i-1} - \gamma_i \nabla V(\langle w_{i-1}, x_i \rangle, y_i)</math> या <math>\Gamma_i \in \mathbb{R}^{d\times d}</math> द्वारा<math>\gamma_i \in \mathbb{R}</math>, यह स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम बन जाता है। इस स्थिति में, इस एल्गोरिथ्म के <math>n</math> चरणों की सम्मिश्र्ता घटकर <math>O(nd)</math> हो जाती है। प्रत्येक फेज पर संचयन आवश्यकताएँ <math>i</math><math>O(d)</math> पर स्थिर हैं। | ||
चूँकि , अपेक्षित आपत्तिपूर्ण न्यूनीकरण समस्या को हल करने के लिए | चूँकि , अपेक्षित आपत्तिपूर्ण न्यूनीकरण समस्या को हल करने के लिए फेज आकार <math>\gamma_i</math> को सावधानी से चुनने की आवश्यकता है, जैसा कि ऊपर बताया गया है। एक क्षयकारी फेज आकार <math> \gamma_i \approx \frac{1}{\sqrt{i}}, </math> चुनकर कोई औसत पुनरावृत्त <math> \overline{w}_n = \frac{1}{n} \sum_{i=1}^{n} w_i </math> के अभिसरण को सिद्ध कर सकता है। यह सेटिंग स्टोकेस्टिक अनुकूलन का एक विशेष स्थिति है, जो अनुकूलन में एक प्रसिद्ध समस्या है।<ref name="lorenzo" /> | ||
=== | ===इंक्रीमेंटल स्टोकेस्टिक ग्रेडिएंट डिसेंट === | ||
वास्तव में, कोई डेटा पर अनेक स्टोकेस्टिक ग्रेडिएंट पास (जिन्हें चक्र या युग भी कहा जाता है) निष्पादित कर सकता है। इस प्रकार प्राप्त एल्गोरिदम है | वास्तव में, कोई डेटा पर अनेक स्टोकेस्टिक ग्रेडिएंट पास (जिन्हें चक्र या युग भी कहा जाता है) निष्पादित कर सकता है। इस प्रकार प्राप्त एल्गोरिदम है इंक्रीमेंटल ग्रेडिएंट विधि कहलाती है और एक पुनरावृत्ति से मेल खाती है | ||
: <math> \textstyle w_i = w_{i-1} - \gamma_i \nabla V(\langle w_{i-1}, x_{t_i} \rangle, y_{t_i})</math> | : <math> \textstyle w_i = w_{i-1} - \gamma_i \nabla V(\langle w_{i-1}, x_{t_i} \rangle, y_{t_i})</math> | ||
:स्टोकेस्टिक ग्रेडिएंट विधि के साथ मुख्य अंतर यह है कि यहां एक अनुक्रम <math> t_i </math> को यह तय करने के लिए चुना जाता है कि <math> i </math>-वां | :स्टोकेस्टिक ग्रेडिएंट विधि के साथ मुख्य अंतर यह है कि यहां एक अनुक्रम <math> t_i </math> को यह तय करने के लिए चुना जाता है कि <math> i </math>-वां फेज में किस प्रशिक्षण बिंदु का दौरा किया जाता है। ऐसा क्रम स्टोकेस्टिक या नियतिवादी हो सकता है। फिर पुनरावृत्तियों की संख्या को अंकों की संख्या से अलग कर दिया जाता है (प्रत्येक बिंदु पर एक से अधिक बार विचार किया जा सकता है)। अनुभवजन्य आपत्तिपूर्ण को न्यूनतम प्रदान करने के लिए इंक्रीमेंटल स्लोप विधि को दिखाया जा सकता है।<ref name="bertsekas">Bertsekas, D. P. (2011). Incremental gradient, subgradient, and proximal methods for convex optimization: a survey. Optimization for Machine Learning, 85.</ref> अनेक शब्दों के योग से बने वस्तुनिष्ठ कार्यों पर विचार करते समय इंक्रीमेंटल तकनीकें लाभान्वित हो सकती हैं। एक बहुत बड़े डेटासेट से संबंधित एक अनुभवजन्य त्रुटि है।<ref name="lorenzo" /> | ||
===कर्नेल विधियाँ=== | ===कर्नेल विधियाँ=== | ||
{{See also|कर्नेल विधियाँ}} | {{See also|कर्नेल विधियाँ}} | ||
उपरोक्त एल्गोरिदम को गैर-पैरामीट्रिक मॉडल (या ऐसे मॉडल जहां मापदंड एक अनंत आयामी स्थान बनाते हैं) तक विस्तारित करने के लिए कर्नेल का उपयोग किया जा सकता है। संबंधित प्रक्रिया अब वास्तव में ऑनलाइन नहीं होगी और इसमें सभी डेटा बिंदुओं को संग्रहीत करना सम्मिलित होगा, किंतु यह अभी भी ब्रूट फोर्स विधि से तेज़ है। यह चर्चा वर्ग हानि के स्थिति तक ही सीमित है, चूँकि इसे किसी भी उत्तल हानि तक बढ़ाया जा सकता है। इसे एक आसान प्रेरण द्वारा दिखाया जा सकता है<ref name="lorenzo" /> कि यदि <math> X_i </math> डेटा आव्यूह है और <math> w_i </math> SGD एल्गोरिदम के <math> i </math> चरणों के पश्चात् आउटपुट है, तो, | |||
उपरोक्त एल्गोरिदम को गैर-पैरामीट्रिक मॉडल (या ऐसे मॉडल जहां | |||
: <math> w_i = X_i^T c_i </math> | : <math> w_i = X_i^T c_i </math> | ||
:जहाँ <math> \textstyle c_i = ((c_i)_1, (c_i)_2, ..., (c_i)_i) \in \mathbb{R}^i</math> और क्रम <math> c_i </math> प्रत्यावर्तन को संतुष्ट करता है: | :जहाँ <math> \textstyle c_i = ((c_i)_1, (c_i)_2, ..., (c_i)_i) \in \mathbb{R}^i</math> और क्रम <math> c_i </math> प्रत्यावर्तन को संतुष्ट करता है: | ||
Line 73: | Line 73: | ||
: <math> (c_i)_i = \gamma_i \Big(y_i - \sum_{j=1}^{i-1}(c_{i-1})_j K(x_j,x_i) \Big)</math> | : <math> (c_i)_i = \gamma_i \Big(y_i - \sum_{j=1}^{i-1}(c_{i-1})_j K(x_j,x_i) \Big)</math> | ||
उपरोक्त अभिव्यक्ति को <math> c_i </math> को अद्यतन करने के लिए सभी डेटा संग्रहीत करने की आवश्यकता है। <math> n </math>-वें डेटापॉइंट के लिए मूल्यांकन करते समय रिकर्सन के लिए कुल समय सम्मिश्र्ता<math> O(n^2 d k) </math> है, जहां के बिंदुओं की एक जोड़ी पर कर्नेल का मूल्यांकन करने की निवेश है।<ref name="lorenzo" /> इस प्रकार, कर्नेल के उपयोग ने एक परिमित आयामी | उपरोक्त अभिव्यक्ति को <math> c_i </math> को अद्यतन करने के लिए सभी डेटा संग्रहीत करने की आवश्यकता है। <math> n </math>-वें डेटापॉइंट के लिए मूल्यांकन करते समय रिकर्सन के लिए कुल समय सम्मिश्र्ता<math> O(n^2 d k) </math> है, जहां के बिंदुओं की एक जोड़ी पर कर्नेल का मूल्यांकन करने की निवेश है।<ref name="lorenzo" /> इस प्रकार, कर्नेल के उपयोग ने एक परिमित आयामी मापदंड स्पेस <math> \textstyle w_{i} \in \mathbb{R}^d </math> से संभवतः अनंत आयामी सुविधा तक आंदोलन की अनुमति दी है, जो कि कर्नेल <math> K </math> द्वारा दर्शाया गया है, इसके अतिरिक्त पैरामीटर्स <math> \textstyle c_{i} \in \mathbb{R}^i </math> के स्थान पर रिकर्सन निष्पादित किया गया है, जिसका आयाम समान है प्रशिक्षण डेटासेट के आकार के रूप में। सामान्य रूप से यह निरूपक प्रमेय का परिणाम है।<ref name="lorenzo" /> | ||
=== ऑनलाइन उत्तल अनुकूलन === | === ऑनलाइन उत्तल अनुकूलन === | ||
ऑनलाइन उत्तल अनुकूलन (OCO) <ref>{{Cite book | ऑनलाइन उत्तल अनुकूलन (OCO) <ref>{{Cite book | ||
Line 91: | Line 91: | ||
*सीखने वाले को हानि होता है <math>v_t(w_t)</math> और वह अपने मॉडल को अपडेट करता है | *सीखने वाले को हानि होता है <math>v_t(w_t)</math> और वह अपने मॉडल को अपडेट करता है | ||
लक्ष्य पछतावे को कम करना है, या संचयी हानि और सर्वोत्तम निश्चित बिंदु <math> u \in S</math> की हानि के | लक्ष्य पछतावे को कम करना है, या संचयी हानि और सर्वोत्तम निश्चित बिंदु <math> u \in S</math> की हानि के मध्य अंतर को कम करना है। उदाहरण के रूप से, ऑनलाइन न्यूनतम वर्ग रैखिक प्रतिगमन के स्थिति पर विचार करें। यहां, भार सदिश उत्तल समुच्चय <math> S = \mathbb{R}^d </math> से आते हैं, और प्रकृति उत्तल हानि फलन <math> v_t(w) = ( \langle w,x_t \rangle - y_t )^2 </math> को वापस भेजती है। यहां ध्यान दें कि <math> y_t </math> को स्पष्ट रूप से <math> v_t </math> के साथ भेजा गया है। | ||
चूँकि , कुछ ऑनलाइन पूर्वानुमान समस्याएं OCO के फ्रेम वर्क में स्थित नहीं हो सकती हैं। उदाहरण के लिए, ऑनलाइन वर्गीकरण में, पूर्वानुमान डोमेन और हानि फलन उत्तल नहीं होते हैं। ऐसे परिदृश्यों में, [[अवतलीकरण]] के लिए दो सरल तकनीकों का उपयोग किया जाता है: [[यादृच्छिकीकरण]] और सरोगेट लॉस फलन है | चूँकि , कुछ ऑनलाइन पूर्वानुमान समस्याएं OCO के फ्रेम वर्क में स्थित नहीं हो सकती हैं। उदाहरण के लिए, ऑनलाइन वर्गीकरण में, पूर्वानुमान डोमेन और हानि फलन उत्तल नहीं होते हैं। ऐसे परिदृश्यों में, [[अवतलीकरण]] के लिए दो सरल तकनीकों का उपयोग किया जाता है: [[यादृच्छिकीकरण]] और सरोगेट लॉस फलन है . | ||
कुछ सरल ऑनलाइन उत्तल अनुकूलन एल्गोरिदम हैं: | कुछ सरल ऑनलाइन उत्तल अनुकूलन एल्गोरिदम हैं: | ||
==== लीडर का अनुसरण करें (एफटीएल)==== | ==== लीडर का अनुसरण करें (एफटीएल)==== | ||
सीखने का सबसे सरल नियम यह है कि (वर्तमान | सीखने का सबसे सरल नियम यह है कि (वर्तमान फेज में) उस परिकल्पना का चयन किया जाए जिसमें पिछले सभी अवधि की तुलना में सबसे कम हानि हो। इस एल्गोरिदम को फॉलो द लीडर कहा जाता है, और इसे बस राउंड <math> t </math> दिया जाता है द्वारा: | ||
: <math> w_t = \operatorname{arg\,min}_{w \in S} \sum_{i=1}^{t-1} v_i(w) </math> | : <math> w_t = \operatorname{arg\,min}_{w \in S} \sum_{i=1}^{t-1} v_i(w) </math> | ||
इस प्रकार इस पद्धति को एक ग्रीडी एल्गोरिदम के रूप में देखा जा सकता है। ऑनलाइन द्विघात अनुकूलन के स्थिति में (जहां हानि फलन <math> v_t(w) = || w - x_t ||_2^2 </math> है), कोई एक रिग्रेट सीमा दिखा सकता है जो <math> \log(T) </math> के रूप में बढ़ती है। चूँकि, ऑनलाइन रैखिक अनुकूलन जैसे मॉडलों के अन्य महत्वपूर्ण परिवारों के लिए एफटीएल एल्गोरिदम के लिए समान सीमाएं प्राप्त नहीं की जा सकती हैं। ऐसा करने के लिए, कोई नियमितीकरण जोड़कर एफटीएल को संशोधित करता है। | इस प्रकार इस पद्धति को एक ग्रीडी एल्गोरिदम के रूप में देखा जा सकता है। ऑनलाइन द्विघात अनुकूलन के स्थिति में (जहां हानि फलन <math> v_t(w) = || w - x_t ||_2^2 </math> है), कोई एक रिग्रेट सीमा दिखा सकता है जो <math> \log(T) </math> के रूप में बढ़ती है। चूँकि, ऑनलाइन रैखिक अनुकूलन जैसे मॉडलों के अन्य महत्वपूर्ण परिवारों के लिए एफटीएल एल्गोरिदम के लिए समान सीमाएं प्राप्त नहीं की जा सकती हैं। ऐसा करने के लिए, कोई नियमितीकरण जोड़कर एफटीएल को संशोधित करता है। | ||
Line 105: | Line 105: | ||
यह एफटीएल का एक प्राकृतिक संशोधन है जिसका उपयोग एफटीएल समाधानों को स्थिर करने और उत्तम रिग्रेट सीमाएं प्राप्त करने के लिए किया जाता है। एक नियमितीकरण फलन <math> R : S \rightarrow \mathbb{R} </math> चुना जाता है और सीखने का कार्य {{mvar|t}} चक्र में किया जाता है निम्नलिखित अनुसार: | यह एफटीएल का एक प्राकृतिक संशोधन है जिसका उपयोग एफटीएल समाधानों को स्थिर करने और उत्तम रिग्रेट सीमाएं प्राप्त करने के लिए किया जाता है। एक नियमितीकरण फलन <math> R : S \rightarrow \mathbb{R} </math> चुना जाता है और सीखने का कार्य {{mvar|t}} चक्र में किया जाता है निम्नलिखित अनुसार: | ||
: <math> w_t = \operatorname{arg\,min}_{w \in S} \sum_{i=1}^{t-1}v_i(w) + R(w) </math> | : <math> w_t = \operatorname{arg\,min}_{w \in S} \sum_{i=1}^{t-1}v_i(w) + R(w) </math> | ||
एक विशेष उदाहरण के रूप में, ऑनलाइन रैखिक अनुकूलन के स्थिति पर विचार करें, जहां प्रकृति रूप <math> v_t(w) = \langle w,z_t \rangle </math> के हानि कार्यों को वापस भेजती है। इसके अतिरिक्त | एक विशेष उदाहरण के रूप में, ऑनलाइन रैखिक अनुकूलन के स्थिति पर विचार करें, जहां प्रकृति रूप <math> v_t(w) = \langle w,z_t \rangle </math> के हानि कार्यों को वापस भेजती है। इसके अतिरिक्त <math> S = \mathbb{R}^d </math> मान लीजिए कि नियमितीकरण फलन <math> R(w) = \frac{1}{2 \eta} ||w||_2^2 </math> को कुछ धनात्मक संख्या <math> \eta </math> के लिए चुना गया है। फिर, कोई यह दिखा सकता है कि रिग्रेट कम से कम पुनरावृत्ति बन जाता है | ||
: <math > w_{t+1} = - \eta \sum_{i=1}^{t} z_i = w_t - \eta z_t</math> | : <math > w_{t+1} = - \eta \sum_{i=1}^{t} z_i = w_t - \eta z_t</math> | ||
ध्यान दें कि इसे <math> w_{t+1} = w_t - \eta \nabla v_t(w_t) </math> के रूप में फिर से लिखा जा सकता है, जो बिल्कुल ऑनलाइन ग्रेडिएंट डिसेंट जैसा दिखता है। | ध्यान दें कि इसे <math> w_{t+1} = w_t - \eta \nabla v_t(w_t) </math> के रूप में फिर से लिखा जा सकता है, जो बिल्कुल ऑनलाइन ग्रेडिएंट डिसेंट जैसा दिखता है। | ||
यदि S इसके अतिरिक्त <math> \mathbb{R}^d </math> का कुछ उत्तल उपस्थान है, तो S को प्रक्षेपित करने की आवश्यकता होगी, जिससे संशोधित अद्यतन नियम प्राप्त होगा | यदि S इसके अतिरिक्त <math> \mathbb{R}^d </math> का कुछ उत्तल उपस्थान है, तो S को प्रक्षेपित करने की आवश्यकता होगी, जिससे संशोधित अद्यतन नियम प्राप्त होगा | ||
Line 118: | Line 118: | ||
=== ऑनलाइन सबग्रेडिएंट डिसेंट (ओएसडी) === | === ऑनलाइन सबग्रेडिएंट डिसेंट (ओएसडी) === | ||
{{See also|उपग्रेडिएंट विधि}} | {{See also|उपग्रेडिएंट विधि}} | ||
उपरोक्त रैखिक हानि फलन <math> v_t(w) = \langle w, z_t \rangle </math>के लिए खेदजनक सिद्ध हुआ। किसी भी उत्तल हानि फलन के लिए एल्गोरिदम को सामान्यीकृत करने के लिए ,<math> \partial v_t(w_t) </math>के सबग्रेडिएंट <math> v_t </math> का उपयोग <math> v_t </math> के पास <math> w_t </math> के रैखिक सन्निकटन के रूप में किया जाता है, जिससे ऑनलाइन सबग्रेडिएंट डिसेंट एल्गोरिदम बनता है: | उपरोक्त रैखिक हानि फलन <math> v_t(w) = \langle w, z_t \rangle </math>के लिए खेदजनक सिद्ध हुआ। किसी भी उत्तल हानि फलन के लिए एल्गोरिदम को सामान्यीकृत करने के लिए ,<math> \partial v_t(w_t) </math>के सबग्रेडिएंट <math> v_t </math> का उपयोग <math> v_t </math> के पास <math> w_t </math> के रैखिक सन्निकटन के रूप में किया जाता है, जिससे ऑनलाइन सबग्रेडिएंट डिसेंट एल्गोरिदम बनता है: | ||
प्रारंभिक | प्रारंभिक मापदंड <math> \eta, w_1 = 0 </math> | ||
<math> t = 1,2,...,T </math> के लिए | <math> t = 1,2,...,T </math> के लिए | ||
Line 136: | Line 135: | ||
==[[निरंतर सीखना]]== | ==[[निरंतर सीखना]]== | ||
निरंतर सीखने का अर्थ है निरंतर प्रसंस्करण करके सीखे गए मॉडल में निरंतर सुधार करना है जिसमे सूचना की धाराएँ.<ref>{{Cite journal|last=Parisi|first=German I.|last2=Kemker|first2=Ronald|last3=Part|first3=Jose L.|last4=Kanan|first4=Christopher|last5=Wermter|first5=Stefan|date=2019|title=Continual lifelong learning with neural networks: A review|url=http://dx.doi.org/10.1016/j.neunet.2019.01.012|journal=Neural Networks|volume=113|pages=54–71|doi=10.1016/j.neunet.2019.01.012|issn=0893-6080|arxiv=1802.07569}}</ref> निरंतर | निरंतर सीखने का अर्थ है निरंतर प्रसंस्करण करके सीखे गए मॉडल में निरंतर सुधार करना है जिसमे सूचना की धाराएँ.<ref>{{Cite journal|last=Parisi|first=German I.|last2=Kemker|first2=Ronald|last3=Part|first3=Jose L.|last4=Kanan|first4=Christopher|last5=Wermter|first5=Stefan|date=2019|title=Continual lifelong learning with neural networks: A review|url=http://dx.doi.org/10.1016/j.neunet.2019.01.012|journal=Neural Networks|volume=113|pages=54–71|doi=10.1016/j.neunet.2019.01.012|issn=0893-6080|arxiv=1802.07569}}</ref> निरंतर परिवर्तन वास्तविक विश्व में परस्पर क्रिया करने वाले सॉफ़्टवेयर सिस्टम और स्वायत्त एजेंटों के लिए निरंतर सीखने की क्षमताएं आवश्यक हैं। चूँकि, गैर-स्थिर डेटा वितरण से इंक्रीमेंटल रूप से उपलब्ध जानकारी के निरंतर अधिग्रहण के पश्चात् से निरंतर सीखना मशीन लर्निंग और तंत्रिका नेटवर्क मॉडल के लिए एक चुनौती है। समान्यत: कैटास्ट्रोफिक फोर्गेत्टिंग की ओर ले जाता है। | ||
समान्यत: कैटास्ट्रोफिक फोर्गेत्टिंग की ओर ले जाता है। | |||
== ऑनलाइन शिक्षण की व्याख्या == | == ऑनलाइन शिक्षण की व्याख्या == | ||
Line 155: | Line 153: | ||
}}</ref> इसलिए , डेटा की अनंत धारा के स्थिति में, चूंकि उदाहरण <math>(x_1, y_1), (x_2, y_2), \ldots </math> को आई.आई.डी. द्वारा खींचा गया माना जाता है। वितरण <math>p(x,y)</math> से, उपरोक्त पुनरावृत्ति में <math>V(\cdot, \cdot)</math> के ग्रेडिएंट का क्रम एक i.i.d है। अपेक्षित आपत्तिपूर्ण <math>I[w]</math> के ग्रेडिएंट के स्टोकेस्टिक अनुमानों का नमूना और इसलिए कोई विचलन <math>I[w_t] - I[w^\ast]</math> को सीमित करने के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि के लिए सम्मिश्रता परिणाम प्रयुक्त कर सकता है, जहां <math>w^\ast</math> <math>I[w]</math> का न्यूनतम है।<ref name="kushneryin">''Stochastic Approximation Algorithms and Applications'', Harold J. Kushner and G. George Yin, New York: Springer-Verlag, 1997. {{ISBN|0-387-94916-X}}; 2nd ed., titled ''Stochastic Approximation and Recursive Algorithms and Applications'', 2003, {{ISBN|0-387-00894-2}}.</ref> यह व्याख्या एक सीमित प्रशिक्षण सेट के स्थिति में भी मान्य है; चूँकि डेटा के माध्यम से एकाधिक पास के साथ ग्रेडिएंट अब स्वतंत्र नहीं हैं, फिर भी विशेष स्थितियों में सम्मिश्रता परिणाम प्राप्त किए जा सकते हैं। | }}</ref> इसलिए , डेटा की अनंत धारा के स्थिति में, चूंकि उदाहरण <math>(x_1, y_1), (x_2, y_2), \ldots </math> को आई.आई.डी. द्वारा खींचा गया माना जाता है। वितरण <math>p(x,y)</math> से, उपरोक्त पुनरावृत्ति में <math>V(\cdot, \cdot)</math> के ग्रेडिएंट का क्रम एक i.i.d है। अपेक्षित आपत्तिपूर्ण <math>I[w]</math> के ग्रेडिएंट के स्टोकेस्टिक अनुमानों का नमूना और इसलिए कोई विचलन <math>I[w_t] - I[w^\ast]</math> को सीमित करने के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि के लिए सम्मिश्रता परिणाम प्रयुक्त कर सकता है, जहां <math>w^\ast</math> <math>I[w]</math> का न्यूनतम है।<ref name="kushneryin">''Stochastic Approximation Algorithms and Applications'', Harold J. Kushner and G. George Yin, New York: Springer-Verlag, 1997. {{ISBN|0-387-94916-X}}; 2nd ed., titled ''Stochastic Approximation and Recursive Algorithms and Applications'', 2003, {{ISBN|0-387-00894-2}}.</ref> यह व्याख्या एक सीमित प्रशिक्षण सेट के स्थिति में भी मान्य है; चूँकि डेटा के माध्यम से एकाधिक पास के साथ ग्रेडिएंट अब स्वतंत्र नहीं हैं, फिर भी विशेष स्थितियों में सम्मिश्रता परिणाम प्राप्त किए जा सकते हैं। | ||
दूसरी व्याख्या एक परिमित प्रशिक्षण समुच्चय के स्थिति पर प्रयुक्त होती है और एसजीडी एल्गोरिदम को | दूसरी व्याख्या एक परिमित प्रशिक्षण समुच्चय के स्थिति पर प्रयुक्त होती है और एसजीडी एल्गोरिदम को इंक्रीमेंटल ग्रेडिएंट डीसेंट विधि का एक उदाहरण मानती है।<ref name="bertsekas" /> इस स्थिति में, कोई इसके अतिरिक्त अनुभवजन्य आपत्तिपूर्ण को देखता है: | ||
: <math>I_n[w] = \frac{1}{n}\sum_{i = 1}^nV(\langle w,x_i \rangle, y_i) \ .</math> | : <math>I_n[w] = \frac{1}{n}\sum_{i = 1}^nV(\langle w,x_i \rangle, y_i) \ .</math> | ||
चूँकि | चूँकि इंक्रीमेंटल ग्रेडिएंट डिसेंट पुनरावृत्तियों में <math>V(\cdot, \cdot)</math> के ग्रेडिएंट भी <math>I_n[w]</math> के ग्रेडिएंट के स्टोकेस्टिक अनुमान हैं, यह व्याख्या स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि से भी संबंधित है, किंतु इसे न्यूनतम करने के लिए प्रयुक्त किया जाता है अपेक्षित आपत्तिपूर्ण के विपरीत अनुभवजन्य आपत्तिपूर्ण है । चूंकि यह व्याख्या अनुभवजन्य आपत्तिपूर्ण की चिंता करती है जिसमे न कि अपेक्षित आपत्तिपूर्ण की, इसलिए डेटा के माध्यम से कई बार गुजरने की सरलता से अनुमति दी जाती है और वास्तव में विचलन <math>I_n[w_t] - I_n[w^\ast_n]</math> पर कड़ी सीमाएं प्रयुक्त होती हैं। , जहां <math>w^\ast_n</math> , <math>I_n[w]</math>का न्यूनतम है। | ||
== कार्यान्वयन == | == कार्यान्वयन == | ||
Line 164: | Line 162: | ||
** वर्गीकरण: [[परसेप्ट्रॉन]], स्टोकेस्टिक ग्रेडिएंट डिसेंट, [[नाइव बेयस क्लासिफायरियर]] | ** वर्गीकरण: [[परसेप्ट्रॉन]], स्टोकेस्टिक ग्रेडिएंट डिसेंट, [[नाइव बेयस क्लासिफायरियर]] | ||
** प्रतिगमन: एसजीडी प्रतिगामी, निष्क्रिय आक्रामक प्रतिगामी। | ** प्रतिगमन: एसजीडी प्रतिगामी, निष्क्रिय आक्रामक प्रतिगामी। | ||
** क्लस्टरिंग: | ** क्लस्टरिंग: मिनी-बैच के-मीन्स। | ||
** फ़ीचर निष्कर्षण: | ** फ़ीचर निष्कर्षण: मिनी-बैच शब्दकोश सीखना, प्रमुख घटक विश्लेषण। | ||
==यह भी देखें== | ==यह भी देखें== | ||
सीखने के प्रतिमान | सीखने के प्रतिमान | ||
* | * इंक्रीमेंटल शिक्षा | ||
* लेजी लर्निंग | * लेजी लर्निंग | ||
* ऑफ़लाइन शिक्षण, विपरीत मॉडल | * ऑफ़लाइन शिक्षण, विपरीत मॉडल | ||
Line 195: | Line 193: | ||
==बाहरी संबंध== | ==बाहरी संबंध== | ||
*[https://www.mit.edu/~rakhlin/6.883/ 6.883: Online Methods in Machine Learning: Theory and Applications. Alexander Rakhlin. MIT] | *[https://www.mit.edu/~rakhlin/6.883/ 6.883: Online Methods in Machine Learning: Theory and Applications. Alexander Rakhlin. MIT] | ||
[[Category: | [[Category:Articles with hatnote templates targeting a nonexistent page]] | ||
[[Category:Created On 25/07/2023]] | [[Category:Created On 25/07/2023]] | ||
[[Category:Lua-based templates]] | |||
[[Category:Machine Translated Page]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Short description with empty Wikidata description]] | |||
[[Category:Templates Translated in Hindi]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates that add a tracking category]] | |||
[[Category:Templates that generate short descriptions]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:मशीन लर्निंग एल्गोरिदम]] |
Latest revision as of 11:27, 11 August 2023
Part of a series on |
Machine learning and data mining |
---|
कंप्यूटर विज्ञान में ऑनलाइन यंत्र अधिगम मशीन लर्निंग की एक विधि है जिसमें डेटा अनुक्रमिक क्रम में उपलब्ध हो जाता है और प्रत्येक फेज पर भविष्य के डेटा के लिए सर्वोत्तम भविष्यवक्ता को अपडेट करने के लिए उपयोग किया जाता है, बैच लर्निंग तकनीकों के विपरीत जो एक ही बार में संपूर्ण प्रशिक्षण डेटा समुच्चय पर सीखकर सर्वोत्तम भविष्यवक्ता उत्पन्न करता है। ऑनलाइन लर्निंग मशीन लर्निंग के क्षेत्रों में उपयोग की जाने वाली एक सामान्य तकनीक है जहां संपूर्ण डेटासेट पर प्रशिक्षण देना कम्प्यूटेशनल रूप से संभव नहीं है, जिसके लिए आउट ऑफ़ कोर एल्गोरिदम की आवश्यकता होती है। इसका उपयोग उन स्थितियों में भी किया जाता है जहां एल्गोरिदम के लिए डेटा में नए पैटर्न को डायनामिक रूप से अनुकूलित करना आवश्यक होता है, या जब डेटा स्वयं समय के एक फलन के रूप में उत्पन्न होता है, उदाहरण के लिए, स्टॉक मार्केट पूर्वानुमान ऑनलाइन शिक्षण एल्गोरिदम में कैटेस्ट्रोफिक इंटरफेरेंस का खतरा हो सकता है, एक समस्या जिसे इंक्रीमेंटल शिक्षण दृष्टिकोण द्वारा संबोधित किया जा सकता है।
परिचय
पर्यवेक्षित शिक्षण की सेटिंग में, का एक फलन सीखा जाना है, जहां को इनपुट के स्थान के रूप में और को एक स्थान के रूप में माना जाता है आउटपुट का, जो उन उदाहरणों पर अच्छी तरह से पूर्वानुमान करता है जो पर संयुक्त संभाव्यता वितरण से निकाले गए हैं। वास्तव में, सीखने वाले को कभी भी उदाहरणों पर सही वितरण का पता नहीं चलता है। इसके अतिरिक्त, शिक्षार्थी के पास समान्यत: उदाहरणों के प्रशिक्षण समुच्चय तक पहुंच होती है। इस सेटिंग में, हानि फलन को के रूप में दिया गया है, जैसे कि अनुमानित मान और वास्तविक मान के मध्य अंतर को मापता है जो की आदर्श लक्ष्य एक फलन का चयन करना है, जहां फलन का एक स्थान है जिसे परिकल्पना स्थान कहा जाता है, जिससे कुल हानि की कुछ धारणा कम से कम हो। मॉडल के प्रकार (सांख्यिकीय या प्रतिकूल) के आधार पर, कोई हानि की विभिन्न धारणाओं को तैयार कर सकता है, जो विभिन्न शिक्षण एल्गोरिदम को उत्पन्न करता है।
ऑनलाइन शिक्षण का सांख्यिकीय दृष्टिकोण
सांख्यिकीय शिक्षण मॉडल में, प्रशिक्षण नमूना को वास्तविक वितरण से लिया गया माना जाता है और इसका उद्देश्य अपेक्षित "खतरा" को कम करना है।
इस स्थिति में एक सामान्य प्रतिमान अनुभवजन्य आपत्तिपूर्ण न्यूनतमकरण या नियमित अनुभवजन्य आपत्तिपूर्ण न्यूनतमकरण (समान्यत: तिखोनोव नियमितीकरण) के माध्यम से एक फलन का अनुमान लगाना है। यहां हानि फलन का विकल्प अनेक प्रसिद्ध शिक्षण एल्गोरिदम को उत्पन्न करता है जैसे कि नियमित न्यूनतम वर्ग और समर्थन सदिश मशीनें इस श्रेणी में एक विशुद्ध रूप से ऑनलाइन मॉडल केवल नए इनपुट , वर्तमान सर्वोत्तम भविष्यवक्ता और कुछ अतिरिक्त संग्रहीत जानकारी (जिसमें समान्यत: प्रशिक्षण डेटा आकार से स्वतंत्र संचयन आवश्यकताओं की अपेक्षा की जाती है) के आधार पर सीखेगा अनेक फॉर्मूलेशन के लिए, उदाहरण के लिए नॉनलाइनियर कर्नेल विधियां, वास्तविक ऑनलाइन सीखना संभव नहीं है, चूँकि पुनरावर्ती एल्गोरिदम के साथ हाइब्रिड ऑनलाइन सीखने का एक रूप उपयोग किया जा सकता है जहां को और सभी पिछले डेटा पर निर्भर होने की अनुमति है अंक इस स्थिति में, स्थान की आवश्यकताओं के स्थिर रहने की अब आश्वासन नहीं है क्योंकि इसके लिए सभी पिछले डेटा बिंदुओं को संग्रहीत करने की आवश्यकता होती है, किंतु बैच सीखने की तकनीकों की तुलना में समाधान में नए डेटा बिंदु को जोड़ने के साथ गणना करने में कम समय लग सकता है।
उपरोक्त उद्देश्यों पर नियंत्रण पाने के लिए एक सामान्य रणनीति मिनी-बैचों का उपयोग करके सीखना है, जो एक समय में डेटा बिंदुओं के एक छोटे बैच को संसाधित करता है, इसे प्रशिक्षण की कुल संख्या से बहुत कम के लिए छद्म-ऑनलाइन शिक्षण माना जा सकता है। अंक. मशीन लर्निंग एल्गोरिदम के अनुकूलित आउट-ऑफ-कोर वर्जन प्राप्त करने के लिए प्रशिक्षण डेटा को बार-बार पास करने के साथ मिनी-बैच तकनीकों का उपयोग किया जाता है, उदाहरण के लिए, स्टोकेस्टिक ग्रेडिएंट डिसेंट बैकप्रॉपैगेशन के साथ संयुक्त होने पर, यह वर्तमान में कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण के लिए वास्तविक प्रशिक्षण पद्धति है।
उदाहरण: रैखिक न्यूनतम वर्ग
ऑनलाइन शिक्षण में विभिन्न प्रकार के विचारों को समझाने के लिए रैखिक न्यूनतम वर्गों का सरल उदाहरण उपयोग किया जाता है। विचार इतने सामान्य हैं कि उन्हें अन्य सेटिंग्स पर प्रयुक्त किया जा सकता है, उदाहरण के लिए अन्य उत्तल हानि कार्यों के साथ है।
बैच लर्निंग
के साथ पर्यवेक्षित शिक्षण की सेटिंग पर विचार करें, जो कि सीखा जाने वाला एक रैखिक कार्य है:
जहां इनपुट (डेटा बिंदु) का एक सदिश है और एक रैखिक फ़िल्टर सदिश है। लक्ष्य फ़िल्टर सदिश की गणना करना है। इस प्रयोजन के लिए, एक वर्ग हानि फलन है
सदिश की गणना करने के लिए उपयोग किया जाता है जो अनुभवजन्य हानि को कम करता है
- कहाँ
- .
मान लीजिए कि डेटा आव्यूह है और पहले डेटा बिंदुओं के आने के पश्चात् लक्ष्य मानों का स्तम्भ सदिश है। यह मानते हुए कि सहप्रसरण आव्यूह विपरीत है (अन्यथा अधिमान्य नियमितीकरण के साथ इसी तरह से आगे बढ़ना उत्तम है), रैखिक न्यूनतम वर्ग समस्या का सबसे अच्छा समाधान इस प्रकार दिया गया है
- .
अब, सहप्रसरण आव्यूह की गणना करने में समय लगता है , आव्यूह को व्युत्क्रम में समय लगता है जबकि शेष गुणन में समय लगता है , जिससे कुल समय मिलता है जब डेटासेट में कुल बिंदु होते हैं, तो प्रत्येक डेटापॉइंट के आने के पश्चात् समाधान की पुन: गणना करने के लिए, अनुभवहीन दृष्टिकोण में कुल सम्मिश्र्ता होगी। ध्यान दें कि जब आव्यूह को संग्रहीत किया जाता है, तो प्रत्येक फेज में इसे अपडेट करने के लिए केवल जोड़ने की आवश्यकता होती है, जिसमें समय लगता है, जिससे कुल समय घटकर हो जाता है, किंतु अतिरिक्त संचयन स्थान के साथ संग्रह .करता है [1]
ऑनलाइन शिक्षण: पुनरावर्ती न्यूनतम वर्ग
पुनरावर्ती न्यूनतम वर्ग (आरएलएस) एल्गोरिदम न्यूनतम वर्ग समस्या के लिए एक ऑनलाइन दृष्टिकोण पर विचार करता है। यह दिखाया जा सकता है कि और को आरंभ करके, पिछले अनुभाग में दी गई रैखिक न्यूनतम वर्ग समस्या का समाधान निम्नलिखित पुनरावृत्ति द्वारा गणना की जा सकती है:
उपरोक्त पुनरावृत्ति एल्गोरिथ्म को इंडक्शन ऑन का उपयोग करके सिद्ध किया जा सकता है .[2] प्रमाण यह भी दर्शाता है कि . कोई आरएलएस को अनुकूली फिल्टर के संदर्भ में भी देख सकता है (पुनरावर्ती न्यूनतम वर्ग देखें)।
इस एल्गोरिथम के चरणों की सम्मिश्रता है, जो संबंधित बैच सीखने की सम्मिश्रता की तुलना में तेज़ परिमाण का एक क्रम है। यहां प्रत्येक फेज पर संचयन की आवश्यकता आव्यूह को संग्रहीत करने की है, जो पर स्थिर है। उस स्थिति के लिए जब विपरीत नहीं है, समस्या हानि फलन के नियमित वर्जन पर विचार करें। फिर, यह दिखाना सरल है कि वही एल्गोरिदम के साथ कार्य करता है, और पुनरावृत्तियां देने के लिए आगे बढ़ती हैं।[1]
स्टोकेस्टिक ग्रेडिएंट डिसेंट
जब यह
- द्वारा प्रतिस्थापित किया जाता है
- या द्वारा, यह स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम बन जाता है। इस स्थिति में, इस एल्गोरिथ्म के चरणों की सम्मिश्र्ता घटकर हो जाती है। प्रत्येक फेज पर संचयन आवश्यकताएँ पर स्थिर हैं।
चूँकि , अपेक्षित आपत्तिपूर्ण न्यूनीकरण समस्या को हल करने के लिए फेज आकार को सावधानी से चुनने की आवश्यकता है, जैसा कि ऊपर बताया गया है। एक क्षयकारी फेज आकार चुनकर कोई औसत पुनरावृत्त के अभिसरण को सिद्ध कर सकता है। यह सेटिंग स्टोकेस्टिक अनुकूलन का एक विशेष स्थिति है, जो अनुकूलन में एक प्रसिद्ध समस्या है।[1]
इंक्रीमेंटल स्टोकेस्टिक ग्रेडिएंट डिसेंट
वास्तव में, कोई डेटा पर अनेक स्टोकेस्टिक ग्रेडिएंट पास (जिन्हें चक्र या युग भी कहा जाता है) निष्पादित कर सकता है। इस प्रकार प्राप्त एल्गोरिदम है इंक्रीमेंटल ग्रेडिएंट विधि कहलाती है और एक पुनरावृत्ति से मेल खाती है
- स्टोकेस्टिक ग्रेडिएंट विधि के साथ मुख्य अंतर यह है कि यहां एक अनुक्रम को यह तय करने के लिए चुना जाता है कि -वां फेज में किस प्रशिक्षण बिंदु का दौरा किया जाता है। ऐसा क्रम स्टोकेस्टिक या नियतिवादी हो सकता है। फिर पुनरावृत्तियों की संख्या को अंकों की संख्या से अलग कर दिया जाता है (प्रत्येक बिंदु पर एक से अधिक बार विचार किया जा सकता है)। अनुभवजन्य आपत्तिपूर्ण को न्यूनतम प्रदान करने के लिए इंक्रीमेंटल स्लोप विधि को दिखाया जा सकता है।[3] अनेक शब्दों के योग से बने वस्तुनिष्ठ कार्यों पर विचार करते समय इंक्रीमेंटल तकनीकें लाभान्वित हो सकती हैं। एक बहुत बड़े डेटासेट से संबंधित एक अनुभवजन्य त्रुटि है।[1]
कर्नेल विधियाँ
उपरोक्त एल्गोरिदम को गैर-पैरामीट्रिक मॉडल (या ऐसे मॉडल जहां मापदंड एक अनंत आयामी स्थान बनाते हैं) तक विस्तारित करने के लिए कर्नेल का उपयोग किया जा सकता है। संबंधित प्रक्रिया अब वास्तव में ऑनलाइन नहीं होगी और इसमें सभी डेटा बिंदुओं को संग्रहीत करना सम्मिलित होगा, किंतु यह अभी भी ब्रूट फोर्स विधि से तेज़ है। यह चर्चा वर्ग हानि के स्थिति तक ही सीमित है, चूँकि इसे किसी भी उत्तल हानि तक बढ़ाया जा सकता है। इसे एक आसान प्रेरण द्वारा दिखाया जा सकता है[1] कि यदि डेटा आव्यूह है और SGD एल्गोरिदम के चरणों के पश्चात् आउटपुट है, तो,
- जहाँ और क्रम प्रत्यावर्तन को संतुष्ट करता है:
- और
ध्यान दें कि यहां केवल पर मानक कर्नेल है, और भविष्यवक्ता रूप का है
- .
अब, यदि इसके स्थान पर एक सामान्य कर्नेल प्रस्तुत किया जाता है और भविष्यवक्ता को रहने दिया जाता है
फिर वही प्रमाण यह भी दिखाएगा कि उपरोक्त रिकर्सन को बदलकर कम से कम वर्ग हानि को कम करने वाला भविष्यवक्ता प्राप्त किया जाता है
उपरोक्त अभिव्यक्ति को को अद्यतन करने के लिए सभी डेटा संग्रहीत करने की आवश्यकता है। -वें डेटापॉइंट के लिए मूल्यांकन करते समय रिकर्सन के लिए कुल समय सम्मिश्र्ता है, जहां के बिंदुओं की एक जोड़ी पर कर्नेल का मूल्यांकन करने की निवेश है।[1] इस प्रकार, कर्नेल के उपयोग ने एक परिमित आयामी मापदंड स्पेस से संभवतः अनंत आयामी सुविधा तक आंदोलन की अनुमति दी है, जो कि कर्नेल द्वारा दर्शाया गया है, इसके अतिरिक्त पैरामीटर्स के स्थान पर रिकर्सन निष्पादित किया गया है, जिसका आयाम समान है प्रशिक्षण डेटासेट के आकार के रूप में। सामान्य रूप से यह निरूपक प्रमेय का परिणाम है।[1]
ऑनलाइन उत्तल अनुकूलन
ऑनलाइन उत्तल अनुकूलन (OCO) [4] निर्णय लेने के लिए एक सामान्य रूपरेखा है जो कुशल एल्गोरिदम की अनुमति देने के लिए उत्तल अनुकूलन का लाभ उठाती है। बार-बार गेम खेलने की रूपरेखा इस प्रकार है:
के लिए
- शिक्षार्थी को इनपुट प्राप्त होता है
- शिक्षार्थी एक निश्चित उत्तल समुच्चय से आउटपुट देता है।
- प्रकृति एक उत्तल हानि फलन वापस भेजती है .
- सीखने वाले को हानि होता है और वह अपने मॉडल को अपडेट करता है
लक्ष्य पछतावे को कम करना है, या संचयी हानि और सर्वोत्तम निश्चित बिंदु की हानि के मध्य अंतर को कम करना है। उदाहरण के रूप से, ऑनलाइन न्यूनतम वर्ग रैखिक प्रतिगमन के स्थिति पर विचार करें। यहां, भार सदिश उत्तल समुच्चय से आते हैं, और प्रकृति उत्तल हानि फलन को वापस भेजती है। यहां ध्यान दें कि को स्पष्ट रूप से के साथ भेजा गया है।
चूँकि , कुछ ऑनलाइन पूर्वानुमान समस्याएं OCO के फ्रेम वर्क में स्थित नहीं हो सकती हैं। उदाहरण के लिए, ऑनलाइन वर्गीकरण में, पूर्वानुमान डोमेन और हानि फलन उत्तल नहीं होते हैं। ऐसे परिदृश्यों में, अवतलीकरण के लिए दो सरल तकनीकों का उपयोग किया जाता है: यादृच्छिकीकरण और सरोगेट लॉस फलन है .
कुछ सरल ऑनलाइन उत्तल अनुकूलन एल्गोरिदम हैं:
लीडर का अनुसरण करें (एफटीएल)
सीखने का सबसे सरल नियम यह है कि (वर्तमान फेज में) उस परिकल्पना का चयन किया जाए जिसमें पिछले सभी अवधि की तुलना में सबसे कम हानि हो। इस एल्गोरिदम को फॉलो द लीडर कहा जाता है, और इसे बस राउंड दिया जाता है द्वारा:
इस प्रकार इस पद्धति को एक ग्रीडी एल्गोरिदम के रूप में देखा जा सकता है। ऑनलाइन द्विघात अनुकूलन के स्थिति में (जहां हानि फलन है), कोई एक रिग्रेट सीमा दिखा सकता है जो के रूप में बढ़ती है। चूँकि, ऑनलाइन रैखिक अनुकूलन जैसे मॉडलों के अन्य महत्वपूर्ण परिवारों के लिए एफटीएल एल्गोरिदम के लिए समान सीमाएं प्राप्त नहीं की जा सकती हैं। ऐसा करने के लिए, कोई नियमितीकरण जोड़कर एफटीएल को संशोधित करता है।
नियमित लीडर का अनुसरण करें (एफटीआरएल)
यह एफटीएल का एक प्राकृतिक संशोधन है जिसका उपयोग एफटीएल समाधानों को स्थिर करने और उत्तम रिग्रेट सीमाएं प्राप्त करने के लिए किया जाता है। एक नियमितीकरण फलन चुना जाता है और सीखने का कार्य t चक्र में किया जाता है निम्नलिखित अनुसार:
एक विशेष उदाहरण के रूप में, ऑनलाइन रैखिक अनुकूलन के स्थिति पर विचार करें, जहां प्रकृति रूप के हानि कार्यों को वापस भेजती है। इसके अतिरिक्त मान लीजिए कि नियमितीकरण फलन को कुछ धनात्मक संख्या के लिए चुना गया है। फिर, कोई यह दिखा सकता है कि रिग्रेट कम से कम पुनरावृत्ति बन जाता है
ध्यान दें कि इसे के रूप में फिर से लिखा जा सकता है, जो बिल्कुल ऑनलाइन ग्रेडिएंट डिसेंट जैसा दिखता है।
यदि S इसके अतिरिक्त का कुछ उत्तल उपस्थान है, तो S को प्रक्षेपित करने की आवश्यकता होगी, जिससे संशोधित अद्यतन नियम प्राप्त होगा
इस एल्गोरिदम को आलसी प्रक्षेपण के रूप में जाना जाता है, क्योंकि सदिश ग्रेडिएंट्स को जमा करता है। इसे नेस्टरोव के दोहरे औसत एल्गोरिथ्म के रूप में भी जाना जाता है। रैखिक हानि कार्यों और द्विघात नियमितीकरण के इस परिदृश्य में, रिग्रेट से घिरा है, और इस प्रकार वांछित के अनुसार औसत रिग्रेट 0 हो जाता है।
ऑनलाइन सबग्रेडिएंट डिसेंट (ओएसडी)
उपरोक्त रैखिक हानि फलन के लिए खेदजनक सिद्ध हुआ। किसी भी उत्तल हानि फलन के लिए एल्गोरिदम को सामान्यीकृत करने के लिए ,के सबग्रेडिएंट का उपयोग के पास के रैखिक सन्निकटन के रूप में किया जाता है, जिससे ऑनलाइन सबग्रेडिएंट डिसेंट एल्गोरिदम बनता है:
प्रारंभिक मापदंड
के लिए
- का उपयोग करके पूर्वानुमान करें, प्रकृति से प्राप्त करें।
- चुनना
- यदि , के रूप में अद्यतन करें
- यदि , तो संचयी ग्रेडिएंट्स को अथार्त पर प्रोजेक्ट करें।
वर्गीकरण के लिए एसवीएम के ऑनलाइन वर्जन के लिए अफसोस सीमा प्राप्त करने के लिए कोई ओएसडी एल्गोरिथ्म का उपयोग कर सकता है, जो हिंज लॉस का उपयोग करता है।
अन्य एल्गोरिदम
जैसा कि ऊपर वर्णित है, द्विघात रूप से नियमित किए गए एफटीआरएल एल्गोरिदम आलसी प्रक्षेपित ग्रेडिएंट एल्गोरिदम की ओर ले जाते हैं। इच्छित रूप से उत्तल कार्यों और नियमितकर्ताओं के लिए उपरोक्त का उपयोग करने के लिए, कोई ऑनलाइन मिरर डीसेंट का उपयोग करता है। रैखिक हानि कार्यों के लिए पश्चदृष्टि में इष्टतम नियमितीकरण प्राप्त किया जा सकता है, यह एडाग्रैड एल्गोरिथ्म की ओर ले जाता है। यूक्लिडियन नियमितीकरण के लिए, कोई व्यक्ति की रिग्रेट सीमा दिखा सकता है, जिसे दृढ़ता से उत्तल और एक्सप-अवतल हानि कार्यों के लिए तक और उत्तम बनाया जा सकता है।
निरंतर सीखना
निरंतर सीखने का अर्थ है निरंतर प्रसंस्करण करके सीखे गए मॉडल में निरंतर सुधार करना है जिसमे सूचना की धाराएँ.[5] निरंतर परिवर्तन वास्तविक विश्व में परस्पर क्रिया करने वाले सॉफ़्टवेयर सिस्टम और स्वायत्त एजेंटों के लिए निरंतर सीखने की क्षमताएं आवश्यक हैं। चूँकि, गैर-स्थिर डेटा वितरण से इंक्रीमेंटल रूप से उपलब्ध जानकारी के निरंतर अधिग्रहण के पश्चात् से निरंतर सीखना मशीन लर्निंग और तंत्रिका नेटवर्क मॉडल के लिए एक चुनौती है। समान्यत: कैटास्ट्रोफिक फोर्गेत्टिंग की ओर ले जाता है।
ऑनलाइन शिक्षण की व्याख्या
ऑनलाइन शिक्षण के प्रतिमान की शिक्षण मॉडल की इच्छा के आधार पर अलग-अलग व्याख्याएं हैं, जिनमें से प्रत्येक के कार्यों के अनुक्रम की पूर्वानुमानित गुणवत्ता के बारे में अलग-अलग निहितार्थ हैं। इस विचार के लिए प्रोटोटाइपिकल स्टोचैस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग किया जाता है। जैसा कि ऊपर उल्लेख किया गया है, इसकी पुनरावृत्ति द्वारा दी गई है
पहली व्याख्या स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि पर विचार करती है जैसा कि ऊपर परिभाषित अपेक्षित आपत्तिपूर्ण को कम करने की समस्या पर प्रयुक्त होता है।[6] इसलिए , डेटा की अनंत धारा के स्थिति में, चूंकि उदाहरण को आई.आई.डी. द्वारा खींचा गया माना जाता है। वितरण से, उपरोक्त पुनरावृत्ति में के ग्रेडिएंट का क्रम एक i.i.d है। अपेक्षित आपत्तिपूर्ण के ग्रेडिएंट के स्टोकेस्टिक अनुमानों का नमूना और इसलिए कोई विचलन को सीमित करने के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि के लिए सम्मिश्रता परिणाम प्रयुक्त कर सकता है, जहां का न्यूनतम है।[7] यह व्याख्या एक सीमित प्रशिक्षण सेट के स्थिति में भी मान्य है; चूँकि डेटा के माध्यम से एकाधिक पास के साथ ग्रेडिएंट अब स्वतंत्र नहीं हैं, फिर भी विशेष स्थितियों में सम्मिश्रता परिणाम प्राप्त किए जा सकते हैं।
दूसरी व्याख्या एक परिमित प्रशिक्षण समुच्चय के स्थिति पर प्रयुक्त होती है और एसजीडी एल्गोरिदम को इंक्रीमेंटल ग्रेडिएंट डीसेंट विधि का एक उदाहरण मानती है।[3] इस स्थिति में, कोई इसके अतिरिक्त अनुभवजन्य आपत्तिपूर्ण को देखता है:
चूँकि इंक्रीमेंटल ग्रेडिएंट डिसेंट पुनरावृत्तियों में के ग्रेडिएंट भी के ग्रेडिएंट के स्टोकेस्टिक अनुमान हैं, यह व्याख्या स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि से भी संबंधित है, किंतु इसे न्यूनतम करने के लिए प्रयुक्त किया जाता है अपेक्षित आपत्तिपूर्ण के विपरीत अनुभवजन्य आपत्तिपूर्ण है । चूंकि यह व्याख्या अनुभवजन्य आपत्तिपूर्ण की चिंता करती है जिसमे न कि अपेक्षित आपत्तिपूर्ण की, इसलिए डेटा के माध्यम से कई बार गुजरने की सरलता से अनुमति दी जाती है और वास्तव में विचलन पर कड़ी सीमाएं प्रयुक्त होती हैं। , जहां , का न्यूनतम है।
कार्यान्वयन
- वोवपल वैबिट: ओपन-सोर्स फास्ट आउट-ऑफ-कोर ऑनलाइन लर्निंग सिस्टम जो अनेक मशीन लर्निंग रिडक्शन , महत्व भार और विभिन्न हानि कार्यों और अनुकूलन एल्गोरिदम के चयन का समर्थन करने के लिए उल्लेखनीय है। यह प्रशिक्षण डेटा की मात्रा से स्वतंत्र सुविधाओं के समुच्चय के आकार को सीमित करने के लिए फ़ीचर हैशिंग का उपयोग करता है।
- स्किकिट-लर्न: एल्गोरिदम के आउट-ऑफ-कोर कार्यान्वयन प्रदान करता है
- वर्गीकरण: परसेप्ट्रॉन, स्टोकेस्टिक ग्रेडिएंट डिसेंट, नाइव बेयस क्लासिफायरियर
- प्रतिगमन: एसजीडी प्रतिगामी, निष्क्रिय आक्रामक प्रतिगामी।
- क्लस्टरिंग: मिनी-बैच के-मीन्स।
- फ़ीचर निष्कर्षण: मिनी-बैच शब्दकोश सीखना, प्रमुख घटक विश्लेषण।
यह भी देखें
सीखने के प्रतिमान
- इंक्रीमेंटल शिक्षा
- लेजी लर्निंग
- ऑफ़लाइन शिक्षण, विपरीत मॉडल
- सुदृढीकरण सीखना
- बहु-सशस्त्र बैंडिट
- पर्यवेक्षित अध्ययन
सामान्य एल्गोरिदम
- ऑनलाइन एल्गोरिदम
- ऑनलाइन अनुकूलन
- स्ट्रीमिंग एल्गोरिदम
- स्टोकेस्टिक ग्रेडिएंट डिसेंट
सीखने के मॉडल
- अनुकूली अनुनाद सिद्धांत
- पदानुक्रमित लौकिक मेमोरी
- k-निकटतम समीप एल्गोरिथ्म
- सदिश परिमाणीकरण सीखना
- परसेप्ट्रॉन
संदर्भ
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 L. Rosasco, T. Poggio, Machine Learning: a Regularization Approach, MIT-9.520 Lectures Notes, Manuscript, Dec. 2015. Chapter 7 - Online Learning
- ↑ Yin, Harold J. Kushner, G. George (2003). स्टोकेस्टिक सन्निकटन और पुनरावर्ती एल्गोरिदम और अनुप्रयोग (Second ed.). New York: Springer. pp. 8–12. ISBN 978-0-387-21769-7.
{{cite book}}
: CS1 maint: multiple names: authors list (link) - ↑ 3.0 3.1 Bertsekas, D. P. (2011). Incremental gradient, subgradient, and proximal methods for convex optimization: a survey. Optimization for Machine Learning, 85.
- ↑ Hazan, Elad (2015). Introduction to Online Convex Optimization (PDF). Foundations and Trends in Optimization.
- ↑ Parisi, German I.; Kemker, Ronald; Part, Jose L.; Kanan, Christopher; Wermter, Stefan (2019). "Continual lifelong learning with neural networks: A review". Neural Networks. 113: 54–71. arXiv:1802.07569. doi:10.1016/j.neunet.2019.01.012. ISSN 0893-6080.
- ↑ Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.
- ↑ Stochastic Approximation Algorithms and Applications, Harold J. Kushner and G. George Yin, New York: Springer-Verlag, 1997. ISBN 0-387-94916-X; 2nd ed., titled Stochastic Approximation and Recursive Algorithms and Applications, 2003, ISBN 0-387-00894-2.