ऑनलाइन मशीन लर्निंग: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 2: Line 2:
{{short description|Method of machine learning}}
{{short description|Method of machine learning}}
{{Machine learning|Problems}}
{{Machine learning|Problems}}
[[कंप्यूटर विज्ञान]] में ऑनलाइन [[ यंत्र अधिगम ]] मशीन लर्निंग की एक विधि है जिसमें डेटा अनुक्रमिक क्रम में उपलब्ध हो जाता है और प्रत्येक चरण पर भविष्य के डेटा के लिए सर्वोत्तम भविष्यवक्ता को अपडेट करने के लिए उपयोग किया जाता है, बैच लर्निंग तकनीकों के विपरीत जो एक ही बार में संपूर्ण प्रशिक्षण डेटा सेट पर सीखकर सर्वोत्तम भविष्यवक्ता उत्पन्न करता है। ऑनलाइन लर्निंग मशीन लर्निंग के क्षेत्रों में उपयोग की जाने वाली एक सामान्य तकनीक है जहां संपूर्ण डेटासेट पर प्रशिक्षण देना कम्प्यूटेशनल रूप से संभव नहीं है, जिसके लिए [[बाहर के कोर|आउट ऑफ़ कोर]] एल्गोरिदम की आवश्यकता होती है। इसका उपयोग उन स्थितियों में भी किया जाता है जहां एल्गोरिदम के लिए डेटा में नए पैटर्न को गतिशील रूप से अनुकूलित करना आवश्यक होता है, या जब डेटा स्वयं समय के एक फ़ंक्शन के रूप में उत्पन्न होता है, उदाहरण के लिए, स्टॉक मार्केट भविष्यवाणी ऑनलाइन शिक्षण एल्गोरिदम में [[विनाशकारी हस्तक्षेप|कैटेस्ट्रोफिक इंटरफेरेंस]] का खतरा हो सकता है, एक समस्या जिसे वृद्धिशील शिक्षण दृष्टिकोण द्वारा संबोधित किया जा सकता है।
[[कंप्यूटर विज्ञान]] में ऑनलाइन [[ यंत्र अधिगम ]] मशीन लर्निंग की एक विधि है जिसमें डेटा अनुक्रमिक क्रम में उपलब्ध हो जाता है और प्रत्येक चरण पर भविष्य के डेटा के लिए सर्वोत्तम भविष्यवक्ता को अपडेट करने के लिए उपयोग किया जाता है, बैच लर्निंग तकनीकों के विपरीत जो एक ही बार में संपूर्ण प्रशिक्षण डेटा सेट पर सीखकर सर्वोत्तम भविष्यवक्ता उत्पन्न करता है। ऑनलाइन लर्निंग मशीन लर्निंग के क्षेत्रों में उपयोग की जाने वाली एक सामान्य तकनीक है जहां संपूर्ण डेटासेट पर प्रशिक्षण देना कम्प्यूटेशनल रूप से संभव नहीं है, जिसके लिए [[बाहर के कोर|आउट ऑफ़ कोर]] एल्गोरिदम की आवश्यकता होती है। इसका उपयोग उन स्थितियों में भी किया जाता है जहां एल्गोरिदम के लिए डेटा में नए पैटर्न को गतिशील रूप से अनुकूलित करना आवश्यक होता है, या जब डेटा स्वयं समय के एक फलन के रूप में उत्पन्न होता है, उदाहरण के लिए, स्टॉक मार्केट भविष्यवाणी ऑनलाइन शिक्षण एल्गोरिदम में [[विनाशकारी हस्तक्षेप|कैटेस्ट्रोफिक इंटरफेरेंस]] का खतरा हो सकता है, एक समस्या जिसे वृद्धिशील शिक्षण दृष्टिकोण द्वारा संबोधित किया जा सकता है।


== परिचय ==
== परिचय ==
पर्यवेक्षित शिक्षण की सेटिंग में, <math> f : X \to Y</math> का एक फ़ंक्शन सीखा जाना है, जहां <math>X</math> को इनपुट के स्थान के रूप में और <math>Y</math> को एक स्थान के रूप में माना जाता है आउटपुट का, जो उन उदाहरणों पर अच्छी तरह से भविष्यवाणी करता है जो <math>X \times Y</math> पर संयुक्त संभाव्यता वितरण <math>p(x,y)</math> से निकाले गए हैं। वास्तव में, सीखने वाले को कभी भी उदाहरणों पर सही वितरण <math>p(x,y)</math> का पता नहीं चलता है। इसके अतिरिक्त, शिक्षार्थी के पास समान्यत: उदाहरणों <math>(x_1, y_1), \ldots, (x_n, y_n)</math> के प्रशिक्षण सेट तक पहुंच होती है। इस सेटिंग में, हानि फ़ंक्शन को <math>V : Y \times Y \to \mathbb{R}</math> के रूप में दिया गया है, जैसे कि <math> V(f(x), y)</math> अनुमानित मान <math>f(x)</math> और वास्तविक मान के बीच अंतर को मापता है जो की  <math>y</math> आदर्श लक्ष्य एक फ़ंक्शन <math>f \in \mathcal{H}</math> का चयन करना है, जहां <math>\mathcal{H}</math> फ़ंक्शन का एक स्थान है जिसे परिकल्पना स्थान कहा जाता है, जिससे कुल हानि की कुछ धारणा कम से कम हो। मॉडल के प्रकार (सांख्यिकीय या प्रतिकूल) के आधार पर, कोई हानि की विभिन्न धारणाओं को तैयार कर सकता है, जो विभिन्न शिक्षण एल्गोरिदम को उत्पन्न करता है।
पर्यवेक्षित शिक्षण की सेटिंग में, <math> f : X \to Y</math> का एक फलन सीखा जाना है, जहां <math>X</math> को इनपुट के स्थान के रूप में और <math>Y</math> को एक स्थान के रूप में माना जाता है आउटपुट का, जो उन उदाहरणों पर अच्छी तरह से भविष्यवाणी करता है जो <math>X \times Y</math> पर संयुक्त संभाव्यता वितरण <math>p(x,y)</math> से निकाले गए हैं। वास्तव में, सीखने वाले को कभी भी उदाहरणों पर सही वितरण <math>p(x,y)</math> का पता नहीं चलता है। इसके अतिरिक्त, शिक्षार्थी के पास समान्यत: उदाहरणों <math>(x_1, y_1), \ldots, (x_n, y_n)</math> के प्रशिक्षण सेट तक पहुंच होती है। इस सेटिंग में, हानि फलन को <math>V : Y \times Y \to \mathbb{R}</math> के रूप में दिया गया है, जैसे कि <math> V(f(x), y)</math> अनुमानित मान <math>f(x)</math> और वास्तविक मान के बीच अंतर को मापता है जो की  <math>y</math> आदर्श लक्ष्य एक फलन <math>f \in \mathcal{H}</math> का चयन करना है, जहां <math>\mathcal{H}</math> फलन का एक स्थान है जिसे परिकल्पना स्थान कहा जाता है, जिससे कुल हानि की कुछ धारणा कम से कम हो। मॉडल के प्रकार (सांख्यिकीय या प्रतिकूल) के आधार पर, कोई हानि की विभिन्न धारणाओं को तैयार कर सकता है, जो विभिन्न शिक्षण एल्गोरिदम को उत्पन्न करता है।


== ऑनलाइन शिक्षण का सांख्यिकीय दृष्टिकोण ==
== ऑनलाइन शिक्षण का सांख्यिकीय दृष्टिकोण ==
सांख्यिकीय शिक्षण मॉडल में, प्रशिक्षण नमूना <math> (x_i,y_i) </math> को वास्तविक वितरण <math>p(x,y)</math> से लिया गया माना जाता है और इसका उद्देश्य अपेक्षित "खतरा" को कम करना है।
सांख्यिकीय शिक्षण मॉडल में, प्रशिक्षण नमूना <math> (x_i,y_i) </math> को वास्तविक वितरण <math>p(x,y)</math> से लिया गया माना जाता है और इसका उद्देश्य अपेक्षित "खतरा" को कम करना है।
:<math>I[f] = \mathbb{E}[V(f(x), y)] = \int V(f(x), y)\,dp(x, y) \ .</math>
:<math>I[f] = \mathbb{E}[V(f(x), y)] = \int V(f(x), y)\,dp(x, y) \ .</math>
इस स्थिति में एक सामान्य प्रतिमान अनुभवजन्य  आपत्तिपूर्ण  न्यूनतमकरण या नियमित अनुभवजन्य  आपत्तिपूर्ण  न्यूनतमकरण (समान्यत:  तिखोनोव नियमितीकरण) के माध्यम से एक फ़ंक्शन <math>\hat{f}</math> का अनुमान लगाना है। यहां हानि फ़ंक्शन का विकल्प अनेक प्रसिद्ध शिक्षण एल्गोरिदम को उत्पन्न करता है जैसे कि नियमित न्यूनतम वर्ग और समर्थन वेक्टर मशीनें इस श्रेणी में एक विशुद्ध रूप से ऑनलाइन मॉडल केवल नए इनपुट <math>(x_{t+1},y_{t+1})</math>, वर्तमान सर्वोत्तम भविष्यवक्ता <math> f_{t} </math> और कुछ अतिरिक्त संग्रहीत जानकारी (जिसमें समान्यत:  प्रशिक्षण डेटा आकार से स्वतंत्र संचयन आवश्यकताओं की अपेक्षा की जाती है) के आधार पर सीखेगा अनेक फॉर्मूलेशन के लिए, उदाहरण के लिए नॉनलाइनियर कर्नेल विधियां, वास्तविक ऑनलाइन सीखना संभव नहीं है, चूँकि पुनरावर्ती एल्गोरिदम के साथ हाइब्रिड ऑनलाइन सीखने का एक रूप उपयोग किया जा सकता है जहां <math>f_{t+1}</math> को <math>f_t</math> और सभी पिछले डेटा पर निर्भर होने की अनुमति है अंक <math>(x_1, y_1), \ldots, (x_t, y_t)</math> इस स्थिति में, स्थान की आवश्यकताओं के स्थिर रहने की अब आश्वासन नहीं है क्योंकि इसके लिए सभी पिछले डेटा बिंदुओं को संग्रहीत करने की आवश्यकता होती है, किंतु बैच सीखने की तकनीकों की तुलना में समाधान में नए डेटा बिंदु को जोड़ने के साथ गणना करने में कम समय लग सकता है।
इस स्थिति में एक सामान्य प्रतिमान अनुभवजन्य  आपत्तिपूर्ण  न्यूनतमकरण या नियमित अनुभवजन्य  आपत्तिपूर्ण  न्यूनतमकरण (समान्यत:  तिखोनोव नियमितीकरण) के माध्यम से एक फलन <math>\hat{f}</math> का अनुमान लगाना है। यहां हानि फलन का विकल्प अनेक प्रसिद्ध शिक्षण एल्गोरिदम को उत्पन्न करता है जैसे कि नियमित न्यूनतम वर्ग और समर्थन सदिश मशीनें इस श्रेणी में एक विशुद्ध रूप से ऑनलाइन मॉडल केवल नए इनपुट <math>(x_{t+1},y_{t+1})</math>, वर्तमान सर्वोत्तम भविष्यवक्ता <math> f_{t} </math> और कुछ अतिरिक्त संग्रहीत जानकारी (जिसमें समान्यत:  प्रशिक्षण डेटा आकार से स्वतंत्र संचयन आवश्यकताओं की अपेक्षा की जाती है) के आधार पर सीखेगा अनेक फॉर्मूलेशन के लिए, उदाहरण के लिए नॉनलाइनियर कर्नेल विधियां, वास्तविक ऑनलाइन सीखना संभव नहीं है, चूँकि पुनरावर्ती एल्गोरिदम के साथ हाइब्रिड ऑनलाइन सीखने का एक रूप उपयोग किया जा सकता है जहां <math>f_{t+1}</math> को <math>f_t</math> और सभी पिछले डेटा पर निर्भर होने की अनुमति है अंक <math>(x_1, y_1), \ldots, (x_t, y_t)</math> इस स्थिति में, स्थान की आवश्यकताओं के स्थिर रहने की अब आश्वासन नहीं है क्योंकि इसके लिए सभी पिछले डेटा बिंदुओं को संग्रहीत करने की आवश्यकता होती है, किंतु बैच सीखने की तकनीकों की तुलना में समाधान में नए डेटा बिंदु को जोड़ने के साथ गणना करने में कम समय लग सकता है।


उपरोक्त उद्देश्यों पर नियंत्रण पाने के लिए एक सामान्य रणनीति मिनी-बैचों का उपयोग करके सीखना है, जो एक समय में <math> b \ge 1 </math> डेटा बिंदुओं के एक छोटे बैच को संसाधित करता है, इसे प्रशिक्षण की कुल संख्या से बहुत कम <math> b </math> के लिए छद्म-ऑनलाइन शिक्षण माना जा सकता है। अंक. मशीन लर्निंग एल्गोरिदम के अनुकूलित आउट-ऑफ-कोर वर्जन प्राप्त करने के लिए प्रशिक्षण डेटा को बार-बार पास करने के साथ मिनी-बैच तकनीकों का उपयोग किया जाता है, उदाहरण के लिए, स्टोकेस्टिक ग्रेडिएंट डिसेंट बैकप्रॉपैगेशन के साथ संयुक्त होने पर, यह वर्तमान में कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण के लिए वास्तविक प्रशिक्षण पद्धति है।
उपरोक्त उद्देश्यों पर नियंत्रण पाने के लिए एक सामान्य रणनीति मिनी-बैचों का उपयोग करके सीखना है, जो एक समय में <math> b \ge 1 </math> डेटा बिंदुओं के एक छोटे बैच को संसाधित करता है, इसे प्रशिक्षण की कुल संख्या से बहुत कम <math> b </math> के लिए छद्म-ऑनलाइन शिक्षण माना जा सकता है। अंक. मशीन लर्निंग एल्गोरिदम के अनुकूलित आउट-ऑफ-कोर वर्जन प्राप्त करने के लिए प्रशिक्षण डेटा को बार-बार पास करने के साथ मिनी-बैच तकनीकों का उपयोग किया जाता है, उदाहरण के लिए, स्टोकेस्टिक ग्रेडिएंट डिसेंट बैकप्रॉपैगेशन के साथ संयुक्त होने पर, यह वर्तमान में कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण के लिए वास्तविक प्रशिक्षण पद्धति है।
Line 19: Line 19:
ऑनलाइन शिक्षण में विभिन्न प्रकार के विचारों को समझाने के लिए रैखिक न्यूनतम वर्गों का सरल उदाहरण उपयोग किया जाता है। विचार इतने सामान्य हैं कि उन्हें अन्य सेटिंग्स पर प्रयुक्त किया जा सकता है, उदाहरण के लिए अन्य उत्तल हानि कार्यों के साथ है।
ऑनलाइन शिक्षण में विभिन्न प्रकार के विचारों को समझाने के लिए रैखिक न्यूनतम वर्गों का सरल उदाहरण उपयोग किया जाता है। विचार इतने सामान्य हैं कि उन्हें अन्य सेटिंग्स पर प्रयुक्त किया जा सकता है, उदाहरण के लिए अन्य उत्तल हानि कार्यों के साथ है।


=== बैच सीखना ===
=== बैच लर्निंग ===
<math>f</math> के साथ पर्यवेक्षित शिक्षण की सेटिंग पर विचार करें, जो कि सीखा जाने वाला एक रैखिक कार्य है:
<math>f</math> के साथ पर्यवेक्षित शिक्षण की सेटिंग पर विचार करें, जो कि सीखा जाने वाला एक रैखिक कार्य है:
: <math> f(x_j) = \langle w,x_j\rangle = w \cdot x_j </math>
: <math> f(x_j) = \langle w,x_j\rangle = w \cdot x_j </math>
जहां <math> x_j \in \mathbb{R}^d</math> इनपुट (डेटा बिंदु) का एक वेक्टर है और <math>w \in \mathbb{R}^d </math> एक रैखिक फ़िल्टर वेक्टर है। लक्ष्य फ़िल्टर वेक्टर <math>w</math> की गणना करना है। इस प्रयोजन के लिए, एक वर्ग हानि फ़ंक्शन है  
जहां <math> x_j \in \mathbb{R}^d</math> इनपुट (डेटा बिंदु) का एक सदिश है और <math>w \in \mathbb{R}^d </math> एक रैखिक फ़िल्टर सदिश है। लक्ष्य फ़िल्टर सदिश <math>w</math> की गणना करना है। इस प्रयोजन के लिए, एक वर्ग हानि फलन है  
: <math> V(f(x_j), y_j) = (f(x_j) - y_j)^2 = (\langle w,x_j\rangle - y_j)^2 </math>
: <math> V(f(x_j), y_j) = (f(x_j) - y_j)^2 = (\langle w,x_j\rangle - y_j)^2 </math>
'''वेक्टर की गणना करने के''' लिए उपयोग किया जाता है <math>w</math> जो अनुभवजन्य हानि को कम करता है
सदिश <math>w</math> की गणना करने के लिए उपयोग किया जाता है जो अनुभवजन्य हानि को कम करता है
: <math> I_n[w] = \sum_{j=1}^{n} V(\langle w,x_j\rangle,y_j) = \sum_{j=1}^{n} (x_j^Tw-y_j)^2 </math> कहाँ
: <math> I_n[w] = \sum_{j=1}^{n} V(\langle w,x_j\rangle,y_j) = \sum_{j=1}^{n} (x_j^Tw-y_j)^2 </math> कहाँ
: <math>y_j \in \mathbb{R} </math>.
: <math>y_j \in \mathbb{R} </math>.


होने देना  <math>X</math> हो <math> i \times d </math> डेटा मैट्रिक्स और <math>y \in \mathbb{R}^i</math> पहले के आगमन के बाद लक्ष्य मानों का कॉलम वेक्टर है <math>i</math> डेटा अंक।
मान लीजिए कि <math>X</math> <math> i \times d </math> डेटा आव्यूह  है और <math>y \in \mathbb{R}^i</math> पहले <math>i</math> डेटा बिंदुओं के आने के बाद लक्ष्य मानों का स्तम्भ सदिश है। यह मानते हुए कि सहप्रसरण आव्यूह  <math> \Sigma_i = X^T X</math> विपरीत है (अन्यथा अधिमान्य नियमितीकरण के साथ इसी तरह से आगे बढ़ना उत्तम है), रैखिक न्यूनतम वर्ग समस्या का सबसे अच्छा समाधान <math> f^*(x) = \langle w^*, x \rangle </math> इस प्रकार दिया गया है
यह मानते हुए कि सहप्रसरण मैट्रिक्स <math> \Sigma_i = X^T X</math> उलटा है (अन्यथा तिखोनोव नियमितीकरण के समान तरीके से आगे बढ़ना प्राथमिकता है), सबसे अच्छा समाधान <math> f^*(x) = \langle w^*, x \rangle </math> रैखिक न्यूनतम वर्ग समस्या द्वारा दी गई है
: <math> w^* = (X^TX)^{-1}X^T y = \Sigma_i^{-1} \sum_{j=1}^{i} x_j y_j </math>.
: <math> w^* = (X^TX)^{-1}X^T y = \Sigma_i^{-1} \sum_{j=1}^{i} x_j y_j </math>.


अब, सहप्रसरण मैट्रिक्स की गणना <math> \Sigma_i = \sum_{j=1}^{i} x_j x_j^T </math> समय लेता है <math> O(id^2) </math>, उलटा करना <math>d \times d</math> मैट्रिक्स में समय लगता है <math>O(d^3)</math>, जबकि बाकी गुणन में समय लगता है <math>O(d^2)</math>, का कुल समय दे रहे हैं <math>O(id^2 + d^3)</math>. जब वहाँ हैं <math>n</math> प्रत्येक डेटापॉइंट के आने के बाद समाधान की पुन: गणना करने के लिए डेटासेट में कुल अंक <math>i=1, \ldots, n</math>, अनुभवहीन दृष्टिकोण में पूरी जटिलता होगी <math>O(n^2d^2 + nd^3)</math>. ध्यान दें कि मैट्रिक्स को संग्रहीत करते समय <math> \Sigma_i </math>, फिर इसे प्रत्येक चरण पर अद्यतन करने के लिए केवल जोड़ने की आवश्यकता है <math> x_{i+1}x_{i+1}^T </math>, जो लेता है <math> O(d^2) </math> समय, कुल समय को घटाकर <math>O(nd^2 + nd^3) = O(nd^3)</math>, किंतु अतिरिक्त संचयन स्थान के साथ <math> O(d^2) </math> संचय करना <math> \Sigma_i </math>.<ref name="lorenzo">L. Rosasco, T. Poggio, Machine Learning: a Regularization Approach, MIT-9.520 Lectures Notes, Manuscript, Dec. 2015. Chapter 7 - Online Learning</ref>
 
अब, सहप्रसरण आव्यूह <math> \Sigma_i = \sum_{j=1}^{i} x_j x_j^T </math>की गणना करने में समय लगता है <math> O(id^2) </math>, <math>d \times d</math> आव्यूह को व्युत्क्रम में समय लगता है जबकि <math>O(d^3)</math> शेष गुणन में समय लगता है <math>O(d^2)</math>, जिससे कुल समय मिलता है जब <math>O(id^2 + d^3)</math> डेटासेट में <math>n</math> कुल बिंदु होते हैं, तो प्रत्येक डेटापॉइंट <math>i=1, \ldots, n</math> के आने के बाद समाधान की पुन: गणना करने के लिए, अनुभवहीन दृष्टिकोण में कुल सम्मिश्र्ता  <math>O(n^2d^2 + nd^3)</math> होगी। ध्यान दें कि जब आव्यूह <math> \Sigma_i </math> को संग्रहीत किया जाता है, तो प्रत्येक चरण में इसे अपडेट करने के लिए केवल <math> x_{i+1}x_{i+1}^T </math> जोड़ने की आवश्यकता होती है, जिसमें <math> O(d^2) </math> समय लगता है, जिससे कुल समय घटकर <math>O(nd^2 + nd^3) = O(nd^3)</math> हो जाता है, किंतु अतिरिक्त संचयन स्थान के साथ <math> O(d^2) </math> संग्रह  <math> \Sigma_i </math>.करता  है <ref name="lorenzo">L. Rosasco, T. Poggio, Machine Learning: a Regularization Approach, MIT-9.520 Lectures Notes, Manuscript, Dec. 2015. Chapter 7 - Online Learning</ref>




===ऑनलाइन शिक्षण: पुनरावर्ती न्यूनतम वर्ग===
===ऑनलाइन शिक्षण: पुनरावर्ती न्यूनतम वर्ग===
पुनरावर्ती न्यूनतम वर्ग (आरएलएस) एल्गोरिदम न्यूनतम वर्ग समस्या के लिए एक ऑनलाइन दृष्टिकोण पर विचार करता है। इसे इनिशियलाइज़ करके दिखाया जा सकता है <math> \textstyle w_0 = 0 \in \mathbb{R}^d</math> और <math>\textstyle \Gamma_0 = I \in \mathbb{R}^{d \times d}</math>, पिछले अनुभाग में दी गई रैखिक न्यूनतम वर्ग समस्या का समाधान निम्नलिखित पुनरावृत्ति द्वारा गणना की जा सकती है:
पुनरावर्ती न्यूनतम वर्ग (आरएलएस) एल्गोरिदम न्यूनतम वर्ग समस्या के लिए एक ऑनलाइन दृष्टिकोण पर विचार करता है। यह दिखाया जा सकता है कि  <math> \textstyle w_0 = 0 \in \mathbb{R}^d</math> और <math>\textstyle \Gamma_0 = I \in \mathbb{R}^{d \times d}</math> को आरंभ करके, पिछले अनुभाग में दी गई रैखिक न्यूनतम वर्ग समस्या का समाधान निम्नलिखित पुनरावृत्ति द्वारा गणना की जा सकती है:
: <math> \Gamma_i=\Gamma_{i-1}-\frac{\Gamma_{i-1}x_i x_i^T \Gamma_{i-1}}{1+x_i^T\Gamma_{i-1}x_i} </math>
: <math> \Gamma_i=\Gamma_{i-1}-\frac{\Gamma_{i-1}x_i x_i^T \Gamma_{i-1}}{1+x_i^T\Gamma_{i-1}x_i} </math>
: <math>w_i = w_{i-1}-\Gamma_ix_i(x_i^T w_{i-1}-y_i)</math>
: <math>w_i = w_{i-1}-\Gamma_ix_i(x_i^T w_{i-1}-y_i)</math>
उपरोक्त पुनरावृत्ति एल्गोरिथ्म को इंडक्शन ऑन का उपयोग करके सिद्ध किया जा सकता है <math> i </math>.<ref>{{cite book|last1=Yin|first1=Harold J. Kushner, G. George|title=स्टोकेस्टिक सन्निकटन और पुनरावर्ती एल्गोरिदम और अनुप्रयोग|url=https://archive.org/details/stochasticapprox00yinh|url-access=limited|date=2003|publisher=Springer|location=New York|isbn=978-0-387-21769-7|pages=[https://archive.org/details/stochasticapprox00yinh/page/n30 8]–12|edition=Second}}</ref> प्रमाण भी यही बताते हैं <math> \Gamma_i = \Sigma_i^{-1} </math>.
उपरोक्त पुनरावृत्ति एल्गोरिथ्म को <math> i </math> इंडक्शन ऑन का उपयोग करके सिद्ध किया जा सकता है .<ref>{{cite book|last1=Yin|first1=Harold J. Kushner, G. George|title=स्टोकेस्टिक सन्निकटन और पुनरावर्ती एल्गोरिदम और अनुप्रयोग|url=https://archive.org/details/stochasticapprox00yinh|url-access=limited|date=2003|publisher=Springer|location=New York|isbn=978-0-387-21769-7|pages=[https://archive.org/details/stochasticapprox00yinh/page/n30 8]–12|edition=Second}}</ref> प्रमाण यह भी दर्शाता है कि <math> \Gamma_i = \Sigma_i^{-1} </math>. कोई आरएलएस को अनुकूली फिल्टर के संदर्भ में भी देख सकता है ([[पुनरावर्ती न्यूनतम वर्ग]] देखें)।
कोई आरएलएस को अनुकूली फिल्टर के संदर्भ में भी देख सकता है ([[पुनरावर्ती न्यूनतम वर्ग]] देखें)।
 
के लिए जटिलता <math>n</math> इस एल्गोरिदम के चरण हैं <math>O(nd^2)</math>, जो संगत बैच सीखने की जटिलता से अधिक तेज़ परिमाण का एक क्रम है। हर कदम पर संचयन की आवश्यकताएँ <math>i</math> यहां मैट्रिक्स को स्टोर करना है <math>\Gamma_i</math>, जो स्थिर है <math>O(d^2)</math>. स्थिति के लिए जब <math> \Sigma_i </math> उलटा नहीं है, समस्या के नियमित वर्जन पर विचार करें
लॉस फंकशन <math> \sum_{j=1}^{n} (x_j^Tw - y_j)^2 + \lambda || w ||_2^2 </math>. फिर, यह दिखाना आसान है कि वही एल्गोरिदम काम करता है <math> \Gamma_0 = (I + \lambda I)^{-1} </math>, और पुनरावृत्तियाँ देने के लिए आगे बढ़ती हैं <math> \Gamma_i = (\Sigma_i + \lambda I)^{-1} </math>.<ref name="lorenzo" />
 


इस एल्गोरिथम के <math>n</math> चरणों की सम्मिश्रता <math>O(nd^2)</math> है, जो संबंधित बैच सीखने की सम्मिश्रता की तुलना में तेज़ परिमाण का एक क्रम है। यहां प्रत्येक चरण <math>i</math> पर संचयन की आवश्यकता आव्यूह <math>\Gamma_i</math> को संग्रहीत करने की है, जो <math>O(d^2)</math> पर स्थिर है। उस स्थिति के लिए जब <math> \Sigma_i </math> विपरीत नहीं है, समस्या हानि फलन <math> \sum_{j=1}^{n} (x_j^Tw - y_j)^2 + \lambda || w ||_2^2 </math> के नियमित संस्करण पर विचार करें। फिर, यह दिखाना सरल  है कि वही एल्गोरिदम <math> \Gamma_0 = (I + \lambda I)^{-1} </math> के साथ काम करता है, और पुनरावृत्तियां <math> \Gamma_i = (\Sigma_i + \lambda I)^{-1} </math> देने के लिए आगे बढ़ती हैं।<ref name="lorenzo" />
===स्टोकेस्टिक ग्रेडिएंट डिसेंट===
===स्टोकेस्टिक ग्रेडिएंट डिसेंट===
{{Main|Stochastic gradient descent}}
{{Main|स्टोकेस्टिक ग्रेडिएंट डिसेंट}}
जब यह
जब यह
: <math>\textstyle w_i = w_{i-1}-\Gamma_ix_i(x_i^T w_{i-1}-y_i)</math> द्वारा प्रतिस्थापित किया जाता है
: <math>\textstyle w_i = w_{i-1}-\Gamma_ix_i(x_i^T w_{i-1}-y_i)</math> द्वारा प्रतिस्थापित किया जाता है
: <math> \textstyle w_i = w_{i-1}-\gamma_i x_i(x_i^T w_{i-1}-y_i) = w_{i-1} - \gamma_i \nabla V(\langle w_{i-1}, x_i \rangle, y_i)</math> या <math>\Gamma_i \in \mathbb{R}^{d\times d}</math> द्वारा <math>\gamma_i \in \mathbb{R}</math>, यह स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम बन जाता है। इस स्थिति में, के लिए जटिलता <math>n</math> इस एल्गोरिथम के चरण कम हो जाते हैं <math>O(nd)</math>. हर कदम पर संचयन की आवश्यकताएँ <math>i</math> पर स्थिर हैं <math>O(d)</math>.
: <math> \textstyle w_i = w_{i-1}-\gamma_i x_i(x_i^T w_{i-1}-y_i) = w_{i-1} - \gamma_i \nabla V(\langle w_{i-1}, x_i \rangle, y_i)</math> या <math>\Gamma_i \in \mathbb{R}^{d\times d}</math> द्वारा<math>\gamma_i \in \mathbb{R}</math>, यह स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम बन जाता है। इस स्थिति में, इस एल्गोरिथ्म के <math>n</math> चरणों की सम्मिश्र्ता घटकर <math>O(nd)</math> हो जाती है। प्रत्येक चरण पर संचयन आवश्यकताएँ <math>i</math><math>O(d)</math> पर स्थिर हैं।


हालाँकि, चरण आकार <math>\gamma_i</math> जैसा कि ऊपर बताया गया है, अपेक्षित  आपत्तिपूर्ण  न्यूनीकरण समस्या को हल करने के लिए सावधानी से चुने जाने की आवश्यकता है। एक क्षयकारी चरण आकार का चयन करके <math> \gamma_i \approx \frac{1}{\sqrt{i}}, </math> कोई औसत पुनरावृत्त के अभिसरण को सिद्ध कर सकता है <math> \overline{w}_n = \frac{1}{n} \sum_{i=1}^{n} w_i </math>. यह सेटिंग [[स्टोकेस्टिक अनुकूलन]] का एक विशेष मामला है, जो अनुकूलन में एक प्रसिद्ध समस्या है।<ref name="lorenzo" />
चूँकि , अपेक्षित आपत्तिपूर्ण  न्यूनीकरण समस्या को हल करने के लिए चरण आकार <math>\gamma_i</math> को सावधानी से चुनने की आवश्यकता है, जैसा कि ऊपर बताया गया है। एक क्षयकारी चरण आकार <math> \gamma_i \approx \frac{1}{\sqrt{i}}, </math> चुनकर कोई औसत पुनरावृत्त <math> \overline{w}_n = \frac{1}{n} \sum_{i=1}^{n} w_i </math> के अभिसरण को सिद्ध कर सकता है। यह सेटिंग स्टोकेस्टिक अनुकूलन का एक विशेष स्थिति है, जो अनुकूलन में एक प्रसिद्ध समस्या है।<ref name="lorenzo" />




===वृद्धिशील स्टोकेस्टिक ग्रेडिएंट वंश===
===वृद्धिशील स्टोकेस्टिक ग्रेडिएंट डिसेंट ===
व्यवहार में, कोई डेटा पर अनेक स्टोकेस्टिक ग्रेडिएंट पास (जिन्हें चक्र या युग भी कहा जाता है) निष्पादित कर सकता है। इस प्रकार प्राप्त एल्गोरिदम है
वास्तव में, कोई डेटा पर अनेक स्टोकेस्टिक ग्रेडिएंट पास (जिन्हें चक्र या युग भी कहा जाता है) निष्पादित कर सकता है। इस प्रकार प्राप्त एल्गोरिदम है वृद्धिशील ग्रेडिएंट विधि कहलाती है और एक पुनरावृत्ति से मेल खाती है
वृद्धिशील ग्रेडिएंट विधि कहलाती है और एक पुनरावृत्ति से मेल खाती है
: <math> \textstyle w_i = w_{i-1} - \gamma_i \nabla V(\langle w_{i-1}, x_{t_i} \rangle, y_{t_i})</math>  
: <math> \textstyle w_i = w_{i-1} - \gamma_i \nabla V(\langle w_{i-1}, x_{t_i} \rangle, y_{t_i})</math> स्टोकेस्टिक ग्रेडिएंट विधि के साथ मुख्य अंतर यह है कि यहां एक अनुक्रम है <math> t_i </math> यह तय करने के लिए चुना जाता है कि किस प्रशिक्षण बिंदु का दौरा किया जाए <math> i </math>-वां चरण. ऐसा क्रम स्टोकेस्टिक या नियतिवादी हो सकता है। फिर पुनरावृत्तियों की संख्या को अंकों की संख्या से अलग कर दिया जाता है (प्रत्येक बिंदु पर एक से अधिक बार विचार किया जा सकता है)। अनुभवजन्य  आपत्तिपूर्ण  को न्यूनतम प्रदान करने के लिए वृद्धिशील ढाल विधि को दिखाया जा सकता है।<ref name="bertsekas">Bertsekas, D. P. (2011). Incremental gradient, subgradient, and proximal methods for convex optimization: a survey. Optimization for Machine Learning, 85.</ref> अनेक शब्दों के योग से बने वस्तुनिष्ठ कार्यों पर विचार करते समय वृद्धिशील तकनीकें फायदेमंद हो सकती हैं। एक बहुत बड़े डेटासेट से संबंधित एक अनुभवजन्य त्रुटि।<ref name="lorenzo" />
:स्टोकेस्टिक ग्रेडिएंट विधि के साथ मुख्य अंतर यह है कि यहां एक अनुक्रम <math> t_i </math> को यह तय करने के लिए चुना जाता है कि <math> i </math>-वां चरण में किस प्रशिक्षण बिंदु का दौरा किया जाता है। ऐसा क्रम स्टोकेस्टिक या नियतिवादी हो सकता है। फिर पुनरावृत्तियों की संख्या को अंकों की संख्या से अलग कर दिया जाता है (प्रत्येक बिंदु पर एक से अधिक बार विचार किया जा सकता है)। अनुभवजन्य  आपत्तिपूर्ण  को न्यूनतम प्रदान करने के लिए वृद्धिशील स्लोप विधि को दिखाया जा सकता है।<ref name="bertsekas">Bertsekas, D. P. (2011). Incremental gradient, subgradient, and proximal methods for convex optimization: a survey. Optimization for Machine Learning, 85.</ref> अनेक शब्दों के योग से बने वस्तुनिष्ठ कार्यों पर विचार करते समय वृद्धिशील तकनीकें लाभान्वित हो सकती हैं। एक बहुत बड़े डेटासेट से संबंधित एक अनुभवजन्य त्रुटि है।<ref name="lorenzo" />


===कर्नेल विधियाँ===
{{See also|कर्नेल विधियाँ}}


===कर्नेल विधियाँ===
 
{{See also| Kernel method}}
उपरोक्त एल्गोरिदम को गैर-पैरामीट्रिक मॉडल (या ऐसे मॉडल जहां पैरामीटर एक अनंत आयामी स्थान बनाते हैं) तक विस्तारित करने के लिए कर्नेल का उपयोग किया जा सकता है। संबंधित प्रक्रिया अब वास्तव में ऑनलाइन नहीं होगी और इसमें सभी डेटा बिंदुओं को संग्रहीत करना सम्मिलित होगा, किंतु यह अभी भी ब्रूट फोर्स विधि से तेज़ है। यह चर्चा वर्ग हानि के स्थिति तक ही सीमित है, चूँकि इसे किसी भी उत्तल हानि तक बढ़ाया जा सकता है। इसे एक आसान प्रेरण द्वारा दिखाया जा सकता है<ref name="lorenzo" /> कि यदि <math> X_i </math> डेटा आव्यूह है और <math> w_i </math> SGD एल्गोरिदम के <math> i </math> चरणों के बाद आउटपुट है, तो,
उपरोक्त एल्गोरिदम को गैर-पैरामीट्रिक मॉडल (या ऐसे मॉडल जहां पैरामीटर एक अनंत आयामी स्थान बनाते हैं) तक विस्तारित करने के लिए कर्नेल का उपयोग किया जा सकता है। संबंधित प्रक्रिया अब वास्तव में ऑनलाइन नहीं होगी और इसमें सभी डेटा बिंदुओं को संग्रहीत करना शामिल होगा, किंतु यह अभी भी ब्रूट फोर्स विधि से तेज़ है।
: <math> w_i = X_i^T c_i </math>  
यह चर्चा वर्ग हानि के स्थिति तक ही सीमित है, हालाँकि इसे किसी भी उत्तल हानि तक बढ़ाया जा सकता है। इसे एक आसान प्रेरण द्वारा दिखाया जा सकता है <ref name="lorenzo" />कि अगर <math> X_i </math> डेटा मैट्रिक्स है और <math> w_i </math> के बाद आउटपुट है <math> i </math> SGD एल्गोरिथ्म के चरण, फिर,
:जहाँ  <math> \textstyle c_i = ((c_i)_1, (c_i)_2, ..., (c_i)_i) \in \mathbb{R}^i</math> और क्रम <math> c_i </math> प्रत्यावर्तन को संतुष्ट करता है:
: <math> w_i = X_i^T c_i </math> कहाँ <math> \textstyle c_i = ((c_i)_1, (c_i)_2, ..., (c_i)_i) \in \mathbb{R}^i</math> और क्रम <math> c_i </math> प्रत्यावर्तन को संतुष्ट करता है:
: <math> c_0 = 0 </math>
: <math> c_0 = 0 </math>
: <math> (c_i)_j = (c_{i-1})_j, j=1,2,...,i-1 </math> और
: <math> (c_i)_j = (c_{i-1})_j, j=1,2,...,i-1 </math> और
: <math> (c_i)_i = \gamma_i \Big(y_i - \sum_{j=1}^{i-1} (c_{i-1})_j\langle x_j, x_i \rangle\Big) </math>
: <math> (c_i)_i = \gamma_i \Big(y_i - \sum_{j=1}^{i-1} (c_{i-1})_j\langle x_j, x_i \rangle\Big) </math>
उस पर यहां ध्यान दें <math> \langle x_j, x_i \rangle </math> केवल मानक कर्नेल चालू है <math> \mathbb{R}^d </math>, और भविष्यवक्ता रूप का है
ध्यान दें कि यहां <math> \langle x_j, x_i \rangle </math> केवल <math> \mathbb{R}^d </math> पर मानक कर्नेल है, और भविष्यवक्ता रूप का है
: <math> f_i(x) = \langle w_{i-1},x \rangle = \sum_{j=1}^{i-1} (c_{i-1})_j \langle x_j,x \rangle </math>.
: <math> f_i(x) = \langle w_{i-1},x \rangle = \sum_{j=1}^{i-1} (c_{i-1})_j \langle x_j,x \rangle </math>.
अब, यदि एक सामान्य कर्नेल <math> K </math> इसके अतिरिक्त  पेश किया गया है और भविष्यवक्ता को रहने दिया जाए
अब, यदि इसके स्थान पर एक सामान्य कर्नेल <math> K </math> प्रस्तुत किया जाता है और भविष्यवक्ता को रहने दिया जाता है
: <math> f_i(x) = \sum_{j=1}^{i-1} (c_{i-1})_j K(x_j,x) </math>
: <math> f_i(x) = \sum_{j=1}^{i-1} (c_{i-1})_j K(x_j,x) </math>
फिर वही प्रमाण यह भी दिखाएगा कि उपरोक्त रिकर्सन को बदलकर कम से कम वर्ग हानि को कम करने वाला भविष्यवक्ता प्राप्त किया जाता है
फिर वही प्रमाण यह भी दिखाएगा कि उपरोक्त रिकर्सन को बदलकर कम से कम वर्ग हानि को कम करने वाला भविष्यवक्ता प्राप्त किया जाता है
: <math> (c_i)_i = \gamma_i \Big(y_i - \sum_{j=1}^{i-1}(c_{i-1})_j K(x_j,x_i) \Big)</math>
: <math> (c_i)_i = \gamma_i \Big(y_i - \sum_{j=1}^{i-1}(c_{i-1})_j K(x_j,x_i) \Big)</math>
उपरोक्त अभिव्यक्ति को अद्यतन करने के लिए सभी डेटा संग्रहीत करने की आवश्यकता है <math> c_i </math>. मूल्यांकन करते समय पुनरावृत्ति के लिए कुल समय जटिलता <math> n </math>-डेटा बिंदु है <math> O(n^2 d k) </math>, कहाँ <math> k </math> बिंदुओं की एक जोड़ी पर कर्नेल का मूल्यांकन करने की लागत है।<ref name="lorenzo" />इस प्रकार, कर्नेल के उपयोग ने एक सीमित आयामी पैरामीटर स्थान से आंदोलन की अनुमति दी है <math> \textstyle w_{i} \in \mathbb{R}^d </math> एक कर्नेल द्वारा प्रदर्शित संभवतः अनंत आयामी सुविधा के लिए <math> K </math> इसके अतिरिक्त  पैरामीटर के स्थान पर रिकर्सन निष्पादित करके <math> \textstyle c_{i} \in \mathbb{R}^i </math>, जिसका आयाम प्रशिक्षण डेटासेट के आकार के समान है। सामान्य तौर पर, यह निरूपक प्रमेय का परिणाम है।<ref name="lorenzo" />


उपरोक्त अभिव्यक्ति को <math> c_i </math> को अद्यतन करने के लिए सभी डेटा संग्रहीत करने की आवश्यकता है। <math> n </math>-वें डेटापॉइंट के लिए मूल्यांकन करते समय रिकर्सन के लिए कुल समय सम्मिश्र्ता<math> O(n^2 d k) </math> है, जहां के बिंदुओं की एक जोड़ी पर कर्नेल का मूल्यांकन करने की निवेश है।<ref name="lorenzo" /> इस प्रकार, कर्नेल के उपयोग ने एक परिमित आयामी पैरामीटर स्पेस <math> \textstyle w_{i} \in \mathbb{R}^d </math> से संभवतः अनंत आयामी सुविधा तक आंदोलन की अनुमति दी है, जो कि कर्नेल <math> K </math> द्वारा दर्शाया गया है, इसके अतिरिक्त  पैरामीटर्स <math> \textstyle c_{i} \in \mathbb{R}^i </math> के स्थान पर रिकर्सन निष्पादित किया गया है, जिसका आयाम समान है प्रशिक्षण डेटासेट के आकार के रूप में। सामान्य रूप से  यह निरूपक प्रमेय का परिणाम है।<ref name="lorenzo" />
=== ऑनलाइन उत्तल अनुकूलन ===
=== ऑनलाइन उत्तल अनुकूलन ===
ऑनलाइन उत्तल अनुकूलन (OCO) <ref>{{Cite book
'''ऑनलाइन उत्तल अनुकूलन (O'''CO) <ref>{{Cite book
     |last=Hazan
     |last=Hazan
     |first=Elad
     |first=Elad
Line 92: Line 88:
* शिक्षार्थी को इनपुट प्राप्त होता है <math> x_t </math>
* शिक्षार्थी को इनपुट प्राप्त होता है <math> x_t </math>
* शिक्षार्थी आउटपुट <math> w_t </math> एक निश्चित उत्तल सेट से <math> S </math>
* शिक्षार्थी आउटपुट <math> w_t </math> एक निश्चित उत्तल सेट से <math> S </math>
*प्रकृति एक उत्तल हानि फ़ंक्शन वापस भेजती है <math> v_t : S \rightarrow \mathbb{R} </math>.
*प्रकृति एक उत्तल हानि फलन वापस भेजती है <math> v_t : S \rightarrow \mathbb{R} </math>.
* शिक्षार्थी को हानि उठानी पड़ती है <math>v_t(w_t)</math> और अपने मॉडल को अपडेट करता है
* शिक्षार्थी को हानि उठानी पड़ती है <math>v_t(w_t)</math> और अपने मॉडल को अपडेट करता है


लक्ष्य अफसोस को कम करना है, या संचयी हानि और सर्वोत्तम निश्चित बिंदु के हानि के बीच अंतर को कम करना है  <math> u \in S</math> मसा में।
लक्ष्य अफसोस को कम करना है, या संचयी हानि और सर्वोत्तम निश्चित बिंदु के हानि के बीच अंतर को कम करना है  <math> u \in S</math> मसा में।
उदाहरण के तौर पर, ऑनलाइन न्यूनतम वर्ग रैखिक प्रतिगमन के स्थिति पर विचार करें। यहां, भार सदिश उत्तल सेट से आते हैं <math> S = \mathbb{R}^d </math>, और प्रकृति उत्तल हानि फ़ंक्शन को वापस भेजती है <math> v_t(w) = ( \langle w,x_t \rangle - y_t )^2 </math>. यहां ध्यान दें कि <math> y_t </math> परोक्ष रूप से साथ भेजा गया है <math> v_t </math>.
उदाहरण के तौर पर, ऑनलाइन न्यूनतम वर्ग रैखिक प्रतिगमन के स्थिति पर विचार करें। यहां, भार सदिश उत्तल सेट से आते हैं <math> S = \mathbb{R}^d </math>, और प्रकृति उत्तल हानि फलन को वापस भेजती है <math> v_t(w) = ( \langle w,x_t \rangle - y_t )^2 </math>. यहां ध्यान दें कि <math> y_t </math> परोक्ष रूप से साथ भेजा गया है <math> v_t </math>.


हालाँकि, कुछ ऑनलाइन भविष्यवाणी समस्याएं OCO के ढांचे में फिट नहीं हो सकती हैं। उदाहरण के लिए, ऑनलाइन वर्गीकरण में, पूर्वानुमान डोमेन और हानि फ़ंक्शन उत्तल नहीं होते हैं। ऐसे परिदृश्यों में, [[अवतलीकरण]] के लिए दो सरल तकनीकों का उपयोग किया जाता है: [[यादृच्छिकीकरण]] और सरोगेट लॉस फ़ंक्शन{{citation needed|date=September 2019}}.
चूँकि , कुछ ऑनलाइन भविष्यवाणी समस्याएं OCO के ढांचे में फिट नहीं हो सकती हैं। उदाहरण के लिए, ऑनलाइन वर्गीकरण में, पूर्वानुमान डोमेन और हानि फलन उत्तल नहीं होते हैं। ऐसे परिदृश्यों में, [[अवतलीकरण]] के लिए दो सरल तकनीकों का उपयोग किया जाता है: [[यादृच्छिकीकरण]] और सरोगेट लॉस फ़ंक्शन{{citation needed|date=September 2019}}.


कुछ सरल ऑनलाइन उत्तल अनुकूलन एल्गोरिदम हैं:
कुछ सरल ऑनलाइन उत्तल अनुकूलन एल्गोरिदम हैं:
Line 105: Line 101:
सीखने का सबसे सरल नियम यह है कि (वर्तमान चरण में) उस परिकल्पना का चयन किया जाए जिसमें पिछले सभी दौरों की तुलना में सबसे कम हानि हो। इस एल्गोरिदम को फॉलो द लीडर कहा जाता है, और इसे बस राउंड दिया जाता है <math> t </math> द्वारा:
सीखने का सबसे सरल नियम यह है कि (वर्तमान चरण में) उस परिकल्पना का चयन किया जाए जिसमें पिछले सभी दौरों की तुलना में सबसे कम हानि हो। इस एल्गोरिदम को फॉलो द लीडर कहा जाता है, और इसे बस राउंड दिया जाता है <math> t </math> द्वारा:
: <math> w_t = \operatorname{arg\,min}_{w \in S} \sum_{i=1}^{t-1} v_i(w) </math>
: <math> w_t = \operatorname{arg\,min}_{w \in S} \sum_{i=1}^{t-1} v_i(w) </math>
इस प्रकार इस पद्धति को एक [[लालची एल्गोरिदम]] के रूप में देखा जा सकता है। ऑनलाइन द्विघात अनुकूलन के स्थिति में (जहां हानि फ़ंक्शन है <math> v_t(w) = || w - x_t ||_2^2 </math>), कोई पछतावा दिखा सकता है जो बढ़ता है <math> \log(T) </math>. हालाँकि, ऑनलाइन रैखिक अनुकूलन जैसे मॉडलों के अन्य महत्वपूर्ण परिवारों के लिए एफटीएल एल्गोरिदम के लिए समान सीमाएं प्राप्त नहीं की जा सकती हैं। ऐसा करने के लिए, कोई नियमितीकरण जोड़कर एफटीएल को संशोधित करता है।
इस प्रकार इस पद्धति को एक [[लालची एल्गोरिदम]] के रूप में देखा जा सकता है। ऑनलाइन द्विघात अनुकूलन के स्थिति में (जहां हानि फलन है <math> v_t(w) = || w - x_t ||_2^2 </math>), कोई पछतावा दिखा सकता है जो बढ़ता है <math> \log(T) </math>. चूँकि , ऑनलाइन रैखिक अनुकूलन जैसे मॉडलों के अन्य महत्वपूर्ण परिवारों के लिए एफटीएल एल्गोरिदम के लिए समान सीमाएं प्राप्त नहीं की जा सकती हैं। ऐसा करने के लिए, कोई नियमितीकरण जोड़कर एफटीएल को संशोधित करता है।


==== नियमित नेता का अनुसरण करें (एफटीआरएल)====
==== नियमित नेता का अनुसरण करें (एफटीआरएल)====
यह एफटीएल का एक प्राकृतिक संशोधन है जिसका उपयोग एफटीएल समाधानों को स्थिर करने और बेहतर अफसोस सीमाएं प्राप्त करने के लिए किया जाता है। एक नियमितीकरण समारोह <math> R : S \rightarrow \mathbb{R} </math> चुना जाता है और सीखने का कार्य चक्र में किया जाता है {{mvar|t}} निम्नलिखित नुसार:
यह एफटीएल का एक प्राकृतिक संशोधन है जिसका उपयोग एफटीएल समाधानों को स्थिर करने और उत्तम अफसोस सीमाएं प्राप्त करने के लिए किया जाता है। एक नियमितीकरण समारोह <math> R : S \rightarrow \mathbb{R} </math> चुना जाता है और सीखने का कार्य चक्र में किया जाता है {{mvar|t}} निम्नलिखित नुसार:
: <math>  w_t = \operatorname{arg\,min}_{w \in S} \sum_{i=1}^{t-1}v_i(w) + R(w) </math>
: <math>  w_t = \operatorname{arg\,min}_{w \in S} \sum_{i=1}^{t-1}v_i(w) + R(w) </math>
एक विशेष उदाहरण के रूप में, ऑनलाइन रैखिक अनुकूलन के स्थिति पर विचार करें, जहां प्रकृति फॉर्म के हानि कार्यों को वापस भेजती है <math> v_t(w) = \langle w,z_t \rangle </math>. चलो भी <math> S = \mathbb{R}^d </math>. मान लीजिए नियमितीकरण समारोह <math> R(w) = \frac{1}{2 \eta} ||w||_2^2 </math> किसी धनात्मक संख्या के लिए चुना गया है <math> \eta </math>. फिर, कोई यह दिखा सकता है कि पछतावा कम से कम पुनरावृत्ति बन जाता है
एक विशेष उदाहरण के रूप में, ऑनलाइन रैखिक अनुकूलन के स्थिति पर विचार करें, जहां प्रकृति फॉर्म के हानि कार्यों को वापस भेजती है <math> v_t(w) = \langle w,z_t \rangle </math>. चलो भी <math> S = \mathbb{R}^d </math>. मान लीजिए नियमितीकरण समारोह <math> R(w) = \frac{1}{2 \eta} ||w||_2^2 </math> किसी धनात्मक संख्या के लिए चुना गया है <math> \eta </math>. फिर, कोई यह दिखा सकता है कि पछतावा कम से कम पुनरावृत्ति बन जाता है
Line 116: Line 112:
अगर {{mvar|S}} इसके अतिरिक्त  कुछ उत्तल उपसमष्टि है <math> \mathbb{R}^d </math>, {{mvar|S}} को प्रक्षेपित करने की आवश्यकता होगी, जिससे संशोधित अद्यतन नियम प्राप्त होगा
अगर {{mvar|S}} इसके अतिरिक्त  कुछ उत्तल उपसमष्टि है <math> \mathbb{R}^d </math>, {{mvar|S}} को प्रक्षेपित करने की आवश्यकता होगी, जिससे संशोधित अद्यतन नियम प्राप्त होगा
: <math> w_{t+1} = \Pi_S(- \eta \sum_{i=1}^{t} z_i) = \Pi_S(\eta \theta_{t+1}) </math>
: <math> w_{t+1} = \Pi_S(- \eta \sum_{i=1}^{t} z_i) = \Pi_S(\eta \theta_{t+1}) </math>
इस एल्गोरिदम को वेक्टर के रूप में आलसी प्रक्षेपण के रूप में जाना जाता है <math> \theta_{t+1} </math> ग्रेडियेंट जमा करता है। इसे नेस्टरोव के दोहरे औसत एल्गोरिथ्म के रूप में भी जाना जाता है। रैखिक हानि कार्यों और द्विघात नियमितीकरण के इस परिदृश्य में, अफसोस की सीमा है <math> O(\sqrt{T}) </math>, और इस प्रकार औसत पछतावा होता है {{mvar|0}} जैसी इच्छा थी।
इस एल्गोरिदम को सदिश के रूप में आलसी प्रक्षेपण के रूप में जाना जाता है <math> \theta_{t+1} </math> ग्रेडियेंट जमा करता है। इसे नेस्टरोव के दोहरे औसत एल्गोरिथ्म के रूप में भी जाना जाता है। रैखिक हानि कार्यों और द्विघात नियमितीकरण के इस परिदृश्य में, अफसोस की सीमा है <math> O(\sqrt{T}) </math>, और इस प्रकार औसत पछतावा होता है {{mvar|0}} जैसी इच्छा थी।


=== ऑनलाइन सबग्रेडिएंट डिसेंट (ओएसडी) ===
=== ऑनलाइन सबग्रेडिएंट डिसेंट (ओएसडी) ===
{{See also|Subgradient method}}
{{See also|Subgradient method}}
उपरोक्त रैखिक हानि कार्यों के लिए खेदजनक साबित हुआ <math> v_t(w) = \langle w, z_t \rangle </math>. किसी भी उत्तल हानि फ़ंक्शन के लिए एल्गोरिदम को सामान्य बनाने के लिए, [[ उपग्रेडिएंट ]] <math> \partial v_t(w_t) </math> का <math> v_t </math> के रैखिक सन्निकटन के रूप में उपयोग किया जाता है <math> v_t </math> पास में <math> w_t </math>, ऑनलाइन सबग्रेडिएंट डिसेंट एल्गोरिदम की ओर अग्रसर:
उपरोक्त रैखिक हानि कार्यों के लिए खेदजनक सिद्ध हुआ <math> v_t(w) = \langle w, z_t \rangle </math>. किसी भी उत्तल हानि फलन के लिए एल्गोरिदम को सामान्य बनाने के लिए, [[ उपग्रेडिएंट ]] <math> \partial v_t(w_t) </math> का <math> v_t </math> के रैखिक सन्निकटन के रूप में उपयोग किया जाता है <math> v_t </math> पास में <math> w_t </math>, ऑनलाइन सबग्रेडिएंट डिसेंट एल्गोरिदम की ओर अग्रसर:


प्रारंभिक पैरामीटर <math> \eta, w_1 = 0 </math>
प्रारंभिक पैरामीटर <math> \eta, w_1 = 0 </math>
Line 126: Line 122:
* प्रयोग करके भविष्यवाणी करें <math> w_t </math>, पाना <math>f_t</math> प्रकृति से.
* प्रयोग करके भविष्यवाणी करें <math> w_t </math>, पाना <math>f_t</math> प्रकृति से.
* चुनना <math>z_t \in  \partial v_t(w_t)</math> * अगर <math> S = \mathbb{R}^d </math>, के रूप में अद्यतन करें <math> w_{t+1} = w_t - \eta z_t</math>
* चुनना <math>z_t \in  \partial v_t(w_t)</math> * अगर <math> S = \mathbb{R}^d </math>, के रूप में अद्यतन करें <math> w_{t+1} = w_t - \eta z_t</math>
* अगर <math> S \subset \mathbb{R}^d </math>, संचयी ग्रेडिएंट्स को प्रोजेक्ट करें <math> S </math> अर्थात। <math> w_{t+1} = \Pi_S(\eta\theta_{t+1}) , \theta_{t+1} = \theta_t + z_t</math> प्राप्त करने के लिए कोई ओएसडी एल्गोरिदम का उपयोग कर सकता है <math> O(\sqrt{T}) </math> वर्गीकरण के लिए सपोर्ट वेक्टर मशीन|एसवीएम के ऑनलाइन वर्जन के लिए अफसोस की सीमा, जो [[काज हानि]] का उपयोग करती है<math> v_t(w) = \max \{ 0, 1 - y_t(w \cdot x_t) \} </math>
* अगर <math> S \subset \mathbb{R}^d </math>, संचयी ग्रेडिएंट्स को प्रोजेक्ट करें <math> S </math> अर्थात। <math> w_{t+1} = \Pi_S(\eta\theta_{t+1}) , \theta_{t+1} = \theta_t + z_t</math> प्राप्त करने के लिए कोई ओएसडी एल्गोरिदम का उपयोग कर सकता है <math> O(\sqrt{T}) </math> वर्गीकरण के लिए सपोर्ट सदिश मशीन|एसवीएम के ऑनलाइन वर्जन के लिए अफसोस की सीमा, जो [[काज हानि]] का उपयोग करती है<math> v_t(w) = \max \{ 0, 1 - y_t(w \cdot x_t) \} </math>




=== अन्य एल्गोरिदम ===
=== अन्य एल्गोरिदम ===
जैसा कि ऊपर वर्णित है, द्विघात रूप से नियमित किए गए एफटीआरएल एल्गोरिदम आलसी प्रक्षेपित ग्रेडिएंट एल्गोरिदम की ओर ले जाते हैं। मनमाने ढंग से उत्तल कार्यों और नियमितकर्ताओं के लिए उपरोक्त का उपयोग करने के लिए, कोई [[ऑनलाइन दर्पण वंश]] का उपयोग करता है। रैखिक हानि कार्यों के लिए पश्चदृष्टि में इष्टतम नियमितीकरण प्राप्त किया जा सकता है, यह [[AdaGrad]] एल्गोरिथ्म की ओर ले जाता है।
जैसा कि ऊपर वर्णित है, द्विघात रूप से नियमित किए गए एफटीआरएल एल्गोरिदम आलसी प्रक्षेपित ग्रेडिएंट एल्गोरिदम की ओर ले जाते हैं। मनमाने ढंग से उत्तल कार्यों और नियमितकर्ताओं के लिए उपरोक्त का उपयोग करने के लिए, कोई [[ऑनलाइन दर्पण वंश]] का उपयोग करता है। रैखिक हानि कार्यों के लिए पश्चदृष्टि में इष्टतम नियमितीकरण प्राप्त किया जा सकता है, यह [[AdaGrad]] एल्गोरिथ्म की ओर ले जाता है।
यूक्लिडियन नियमितीकरण के लिए, कोई भी पछतावा दिखा सकता है <math> O(\sqrt{T}) </math>, जिसे और बेहतर बनाया जा सकता है <math> O(\log T) </math> दृढ़ता से उत्तल और क्स्प-अवतल हानि कार्यों के लिए।
यूक्लिडियन नियमितीकरण के लिए, कोई भी पछतावा दिखा सकता है <math> O(\sqrt{T}) </math>, जिसे और उत्तम बनाया जा सकता है <math> O(\log T) </math> दृढ़ता से उत्तल और क्स्प-अवतल हानि कार्यों के लिए।


==[[निरंतर सीखना]]==
==[[निरंतर सीखना]]==
Line 138: Line 134:
सूचना की धाराएँ.<ref>{{Cite journal|last=Parisi|first=German I.|last2=Kemker|first2=Ronald|last3=Part|first3=Jose L.|last4=Kanan|first4=Christopher|last5=Wermter|first5=Stefan|date=2019|title=Continual lifelong learning with neural networks: A review|url=http://dx.doi.org/10.1016/j.neunet.2019.01.012|journal=Neural Networks|volume=113|pages=54–71|doi=10.1016/j.neunet.2019.01.012|issn=0893-6080|arxiv=1802.07569}}</ref>
सूचना की धाराएँ.<ref>{{Cite journal|last=Parisi|first=German I.|last2=Kemker|first2=Ronald|last3=Part|first3=Jose L.|last4=Kanan|first4=Christopher|last5=Wermter|first5=Stefan|date=2019|title=Continual lifelong learning with neural networks: A review|url=http://dx.doi.org/10.1016/j.neunet.2019.01.012|journal=Neural Networks|volume=113|pages=54–71|doi=10.1016/j.neunet.2019.01.012|issn=0893-6080|arxiv=1802.07569}}</ref>
लगातार बदलती वास्तविक दुनिया में बातचीत करने वाले सॉफ़्टवेयर सिस्टम और स्वायत्त एजेंटों के लिए निरंतर सीखने की क्षमताएं आवश्यक हैं।
लगातार बदलती वास्तविक दुनिया में बातचीत करने वाले सॉफ़्टवेयर सिस्टम और स्वायत्त एजेंटों के लिए निरंतर सीखने की क्षमताएं आवश्यक हैं।
हालाँकि, गैर-स्थिर डेटा वितरण से वृद्धिशील रूप से उपलब्ध जानकारी के निरंतर अधिग्रहण के बाद से निरंतर सीखना मशीन लर्निंग और तंत्रिका नेटवर्क मॉडल के लिए एक चुनौती है।
चूँकि , गैर-स्थिर डेटा वितरण से वृद्धिशील रूप से उपलब्ध जानकारी के निरंतर अधिग्रहण के बाद से निरंतर सीखना मशीन लर्निंग और तंत्रिका नेटवर्क मॉडल के लिए एक चुनौती है।
आम तौर पर भयावह भूल की ओर ले जाता है।
आम तौर पर भयावह भूल की ओर ले जाता है।


Line 155: Line 151:
     |isbn=978-0-521-65263-6
     |isbn=978-0-521-65263-6
     |url-access=registration
     |url-access=registration
     }}</ref> दरअसल, डेटा की अनंत धारा के स्थिति में, उदाहरणों के बाद से <math>(x_1, y_1), (x_2, y_2), \ldots </math> माना जाता है कि i.i.d खींचा गया है वितरण से <math>p(x,y)</math>, के ग्रेडियेंट का क्रम <math>V(\cdot, \cdot)</math> उपरोक्त पुनरावृत्ति में एक आई.आई.डी. है अपेक्षित  आपत्तिपूर्ण  की प्रवणता के स्टोकेस्टिक अनुमान का नमूना <math>I[w]</math> और इसलिए कोई विचलन को सीमित करने के लिए स्टोकेस्टिक ग्रेडिएंट डीसेंट विधि के लिए जटिलता परिणाम प्रयुक्त  कर सकता है <math>I[w_t] - I[w^\ast]</math>, कहाँ <math>w^\ast</math> का मिनिमाइज़र है <math>I[w]</math>.<ref name="kushneryin">''Stochastic Approximation Algorithms and Applications'', Harold J. Kushner and G. George Yin, New York: Springer-Verlag, 1997.  {{ISBN|0-387-94916-X}}; 2nd ed., titled ''Stochastic Approximation and Recursive Algorithms and Applications'', 2003, {{ISBN|0-387-00894-2}}.</ref> यह व्याख्या एक सीमित प्रशिक्षण सेट के स्थिति में भी मान्य है; हालाँकि डेटा के माध्यम से एकाधिक पास के साथ ग्रेडिएंट अब स्वतंत्र नहीं हैं, फिर भी विशेष मामलों में जटिलता परिणाम प्राप्त किए जा सकते हैं।
     }}</ref> दरअसल, डेटा की अनंत धारा के स्थिति में, उदाहरणों के बाद से <math>(x_1, y_1), (x_2, y_2), \ldots </math> माना जाता है कि i.i.d खींचा गया है वितरण से <math>p(x,y)</math>, के ग्रेडियेंट का क्रम <math>V(\cdot, \cdot)</math> उपरोक्त पुनरावृत्ति में एक आई.आई.डी. है अपेक्षित  आपत्तिपूर्ण  की प्रवणता के स्टोकेस्टिक अनुमान का नमूना <math>I[w]</math> और इसलिए कोई विचलन को सीमित करने के लिए स्टोकेस्टिक ग्रेडिएंट डीसेंट विधि के लिए सम्मिश्र्ता  परिणाम प्रयुक्त  कर सकता है <math>I[w_t] - I[w^\ast]</math>, जहाँ  <math>w^\ast</math> का मिनिमाइज़र है <math>I[w]</math>.<ref name="kushneryin">''Stochastic Approximation Algorithms and Applications'', Harold J. Kushner and G. George Yin, New York: Springer-Verlag, 1997.  {{ISBN|0-387-94916-X}}; 2nd ed., titled ''Stochastic Approximation and Recursive Algorithms and Applications'', 2003, {{ISBN|0-387-00894-2}}.</ref> यह व्याख्या एक सीमित प्रशिक्षण सेट के स्थिति में भी मान्य है; चूँकि  डेटा के माध्यम से एकाधिक पास के साथ ग्रेडिएंट अब स्वतंत्र नहीं हैं, फिर भी विशेष मामलों में सम्मिश्र्ता  परिणाम प्राप्त किए जा सकते हैं।


दूसरी व्याख्या एक परिमित प्रशिक्षण सेट के स्थिति पर प्रयुक्त  होती है और एसजीडी एल्गोरिदम को वृद्धिशील ग्रेडिएंट डीसेंट विधि का एक उदाहरण मानती है।<ref name="bertsekas" />इस स्थिति में, कोई इसके अतिरिक्त  अनुभवजन्य  आपत्तिपूर्ण  को देखता है:
दूसरी व्याख्या एक परिमित प्रशिक्षण सेट के स्थिति पर प्रयुक्त  होती है और एसजीडी एल्गोरिदम को वृद्धिशील ग्रेडिएंट डीसेंट विधि का एक उदाहरण मानती है।<ref name="bertsekas" />इस स्थिति में, कोई इसके अतिरिक्त  अनुभवजन्य  आपत्तिपूर्ण  को देखता है:
: <math>I_n[w] = \frac{1}{n}\sum_{i = 1}^nV(\langle w,x_i \rangle, y_i) \ .</math>
: <math>I_n[w] = \frac{1}{n}\sum_{i = 1}^nV(\langle w,x_i \rangle, y_i) \ .</math>
के ढ़ाल के बाद से <math>V(\cdot, \cdot)</math> वृद्धिशील ग्रेडिएंट डिसेंट पुनरावृत्तियों में ग्रेडिएंट का स्टोकेस्टिक अनुमान भी होता है <math>I_n[w]</math>, यह व्याख्या स्टोकेस्टिक ग्रेडिएंट डिसेंट पद्धति से भी संबंधित है, किंतु अपेक्षित  आपत्तिपूर्ण  के विपरीत अनुभवजन्य  आपत्तिपूर्ण  को कम करने के लिए प्रयुक्त  की जाती है। चूंकि यह व्याख्या अनुभवजन्य  आपत्तिपूर्ण  की चिंता करती है न कि अपेक्षित  आपत्तिपूर्ण  की, इसलिए डेटा के माध्यम से अनेक बार गुजरने की आसानी से अनुमति दी जाती है और वास्तव में विचलन पर कड़ी सीमाएं लगती हैं। <math>I_n[w_t] - I_n[w^\ast_n]</math>, कहाँ <math>w^\ast_n</math> का मिनिमाइज़र है <math>I_n[w]</math>.
के ढ़ाल के बाद से <math>V(\cdot, \cdot)</math> वृद्धिशील ग्रेडिएंट डिसेंट पुनरावृत्तियों में ग्रेडिएंट का स्टोकेस्टिक अनुमान भी होता है <math>I_n[w]</math>, यह व्याख्या स्टोकेस्टिक ग्रेडिएंट डिसेंट पद्धति से भी संबंधित है, किंतु अपेक्षित  आपत्तिपूर्ण  के विपरीत अनुभवजन्य  आपत्तिपूर्ण  को कम करने के लिए प्रयुक्त  की जाती है। चूंकि यह व्याख्या अनुभवजन्य  आपत्तिपूर्ण  की चिंता करती है न कि अपेक्षित  आपत्तिपूर्ण  की, इसलिए डेटा के माध्यम से अनेक बार गुजरने की आसानी से अनुमति दी जाती है और वास्तव में विचलन पर कड़ी सीमाएं लगती हैं। <math>I_n[w_t] - I_n[w^\ast_n]</math>, जहाँ  <math>w^\ast_n</math> का मिनिमाइज़र है <math>I_n[w]</math>.


== कार्यान्वयन ==
== कार्यान्वयन ==
Line 189: Line 185:
* [[पदानुक्रमित लौकिक स्मृति]]
* [[पदानुक्रमित लौकिक स्मृति]]
* [[k-निकटतम पड़ोसी एल्गोरिथ्म]]
* [[k-निकटतम पड़ोसी एल्गोरिथ्म]]
* [[वेक्टर परिमाणीकरण सीखना]]
* [[वेक्टर परिमाणीकरण सीखना|सदिश परिमाणीकरण सीखना]]
* परसेप्ट्रॉन
* परसेप्ट्रॉन



Revision as of 16:20, 6 August 2023

कंप्यूटर विज्ञान में ऑनलाइन यंत्र अधिगम मशीन लर्निंग की एक विधि है जिसमें डेटा अनुक्रमिक क्रम में उपलब्ध हो जाता है और प्रत्येक चरण पर भविष्य के डेटा के लिए सर्वोत्तम भविष्यवक्ता को अपडेट करने के लिए उपयोग किया जाता है, बैच लर्निंग तकनीकों के विपरीत जो एक ही बार में संपूर्ण प्रशिक्षण डेटा सेट पर सीखकर सर्वोत्तम भविष्यवक्ता उत्पन्न करता है। ऑनलाइन लर्निंग मशीन लर्निंग के क्षेत्रों में उपयोग की जाने वाली एक सामान्य तकनीक है जहां संपूर्ण डेटासेट पर प्रशिक्षण देना कम्प्यूटेशनल रूप से संभव नहीं है, जिसके लिए आउट ऑफ़ कोर एल्गोरिदम की आवश्यकता होती है। इसका उपयोग उन स्थितियों में भी किया जाता है जहां एल्गोरिदम के लिए डेटा में नए पैटर्न को गतिशील रूप से अनुकूलित करना आवश्यक होता है, या जब डेटा स्वयं समय के एक फलन के रूप में उत्पन्न होता है, उदाहरण के लिए, स्टॉक मार्केट भविष्यवाणी ऑनलाइन शिक्षण एल्गोरिदम में कैटेस्ट्रोफिक इंटरफेरेंस का खतरा हो सकता है, एक समस्या जिसे वृद्धिशील शिक्षण दृष्टिकोण द्वारा संबोधित किया जा सकता है।

परिचय

पर्यवेक्षित शिक्षण की सेटिंग में, का एक फलन सीखा जाना है, जहां को इनपुट के स्थान के रूप में और को एक स्थान के रूप में माना जाता है आउटपुट का, जो उन उदाहरणों पर अच्छी तरह से भविष्यवाणी करता है जो पर संयुक्त संभाव्यता वितरण से निकाले गए हैं। वास्तव में, सीखने वाले को कभी भी उदाहरणों पर सही वितरण का पता नहीं चलता है। इसके अतिरिक्त, शिक्षार्थी के पास समान्यत: उदाहरणों के प्रशिक्षण सेट तक पहुंच होती है। इस सेटिंग में, हानि फलन को के रूप में दिया गया है, जैसे कि अनुमानित मान और वास्तविक मान के बीच अंतर को मापता है जो की आदर्श लक्ष्य एक फलन का चयन करना है, जहां फलन का एक स्थान है जिसे परिकल्पना स्थान कहा जाता है, जिससे कुल हानि की कुछ धारणा कम से कम हो। मॉडल के प्रकार (सांख्यिकीय या प्रतिकूल) के आधार पर, कोई हानि की विभिन्न धारणाओं को तैयार कर सकता है, जो विभिन्न शिक्षण एल्गोरिदम को उत्पन्न करता है।

ऑनलाइन शिक्षण का सांख्यिकीय दृष्टिकोण

सांख्यिकीय शिक्षण मॉडल में, प्रशिक्षण नमूना को वास्तविक वितरण से लिया गया माना जाता है और इसका उद्देश्य अपेक्षित "खतरा" को कम करना है।

इस स्थिति में एक सामान्य प्रतिमान अनुभवजन्य आपत्तिपूर्ण न्यूनतमकरण या नियमित अनुभवजन्य आपत्तिपूर्ण न्यूनतमकरण (समान्यत: तिखोनोव नियमितीकरण) के माध्यम से एक फलन का अनुमान लगाना है। यहां हानि फलन का विकल्प अनेक प्रसिद्ध शिक्षण एल्गोरिदम को उत्पन्न करता है जैसे कि नियमित न्यूनतम वर्ग और समर्थन सदिश मशीनें इस श्रेणी में एक विशुद्ध रूप से ऑनलाइन मॉडल केवल नए इनपुट , वर्तमान सर्वोत्तम भविष्यवक्ता और कुछ अतिरिक्त संग्रहीत जानकारी (जिसमें समान्यत: प्रशिक्षण डेटा आकार से स्वतंत्र संचयन आवश्यकताओं की अपेक्षा की जाती है) के आधार पर सीखेगा अनेक फॉर्मूलेशन के लिए, उदाहरण के लिए नॉनलाइनियर कर्नेल विधियां, वास्तविक ऑनलाइन सीखना संभव नहीं है, चूँकि पुनरावर्ती एल्गोरिदम के साथ हाइब्रिड ऑनलाइन सीखने का एक रूप उपयोग किया जा सकता है जहां को और सभी पिछले डेटा पर निर्भर होने की अनुमति है अंक इस स्थिति में, स्थान की आवश्यकताओं के स्थिर रहने की अब आश्वासन नहीं है क्योंकि इसके लिए सभी पिछले डेटा बिंदुओं को संग्रहीत करने की आवश्यकता होती है, किंतु बैच सीखने की तकनीकों की तुलना में समाधान में नए डेटा बिंदु को जोड़ने के साथ गणना करने में कम समय लग सकता है।

उपरोक्त उद्देश्यों पर नियंत्रण पाने के लिए एक सामान्य रणनीति मिनी-बैचों का उपयोग करके सीखना है, जो एक समय में डेटा बिंदुओं के एक छोटे बैच को संसाधित करता है, इसे प्रशिक्षण की कुल संख्या से बहुत कम के लिए छद्म-ऑनलाइन शिक्षण माना जा सकता है। अंक. मशीन लर्निंग एल्गोरिदम के अनुकूलित आउट-ऑफ-कोर वर्जन प्राप्त करने के लिए प्रशिक्षण डेटा को बार-बार पास करने के साथ मिनी-बैच तकनीकों का उपयोग किया जाता है, उदाहरण के लिए, स्टोकेस्टिक ग्रेडिएंट डिसेंट बैकप्रॉपैगेशन के साथ संयुक्त होने पर, यह वर्तमान में कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण के लिए वास्तविक प्रशिक्षण पद्धति है।

उदाहरण: रैखिक न्यूनतम वर्ग

ऑनलाइन शिक्षण में विभिन्न प्रकार के विचारों को समझाने के लिए रैखिक न्यूनतम वर्गों का सरल उदाहरण उपयोग किया जाता है। विचार इतने सामान्य हैं कि उन्हें अन्य सेटिंग्स पर प्रयुक्त किया जा सकता है, उदाहरण के लिए अन्य उत्तल हानि कार्यों के साथ है।

बैच लर्निंग

के साथ पर्यवेक्षित शिक्षण की सेटिंग पर विचार करें, जो कि सीखा जाने वाला एक रैखिक कार्य है:

जहां इनपुट (डेटा बिंदु) का एक सदिश है और एक रैखिक फ़िल्टर सदिश है। लक्ष्य फ़िल्टर सदिश की गणना करना है। इस प्रयोजन के लिए, एक वर्ग हानि फलन है

सदिश की गणना करने के लिए उपयोग किया जाता है जो अनुभवजन्य हानि को कम करता है

कहाँ
.

मान लीजिए कि डेटा आव्यूह है और पहले डेटा बिंदुओं के आने के बाद लक्ष्य मानों का स्तम्भ सदिश है। यह मानते हुए कि सहप्रसरण आव्यूह विपरीत है (अन्यथा अधिमान्य नियमितीकरण के साथ इसी तरह से आगे बढ़ना उत्तम है), रैखिक न्यूनतम वर्ग समस्या का सबसे अच्छा समाधान इस प्रकार दिया गया है

.


अब, सहप्रसरण आव्यूह की गणना करने में समय लगता है , आव्यूह को व्युत्क्रम में समय लगता है जबकि शेष गुणन में समय लगता है , जिससे कुल समय मिलता है जब डेटासेट में कुल बिंदु होते हैं, तो प्रत्येक डेटापॉइंट के आने के बाद समाधान की पुन: गणना करने के लिए, अनुभवहीन दृष्टिकोण में कुल सम्मिश्र्ता होगी। ध्यान दें कि जब आव्यूह को संग्रहीत किया जाता है, तो प्रत्येक चरण में इसे अपडेट करने के लिए केवल जोड़ने की आवश्यकता होती है, जिसमें समय लगता है, जिससे कुल समय घटकर हो जाता है, किंतु अतिरिक्त संचयन स्थान के साथ संग्रह .करता है [1]


ऑनलाइन शिक्षण: पुनरावर्ती न्यूनतम वर्ग

पुनरावर्ती न्यूनतम वर्ग (आरएलएस) एल्गोरिदम न्यूनतम वर्ग समस्या के लिए एक ऑनलाइन दृष्टिकोण पर विचार करता है। यह दिखाया जा सकता है कि और को आरंभ करके, पिछले अनुभाग में दी गई रैखिक न्यूनतम वर्ग समस्या का समाधान निम्नलिखित पुनरावृत्ति द्वारा गणना की जा सकती है:

उपरोक्त पुनरावृत्ति एल्गोरिथ्म को इंडक्शन ऑन का उपयोग करके सिद्ध किया जा सकता है .[2] प्रमाण यह भी दर्शाता है कि . कोई आरएलएस को अनुकूली फिल्टर के संदर्भ में भी देख सकता है (पुनरावर्ती न्यूनतम वर्ग देखें)।

इस एल्गोरिथम के चरणों की सम्मिश्रता है, जो संबंधित बैच सीखने की सम्मिश्रता की तुलना में तेज़ परिमाण का एक क्रम है। यहां प्रत्येक चरण पर संचयन की आवश्यकता आव्यूह को संग्रहीत करने की है, जो पर स्थिर है। उस स्थिति के लिए जब विपरीत नहीं है, समस्या हानि फलन के नियमित संस्करण पर विचार करें। फिर, यह दिखाना सरल है कि वही एल्गोरिदम के साथ काम करता है, और पुनरावृत्तियां देने के लिए आगे बढ़ती हैं।[1]

स्टोकेस्टिक ग्रेडिएंट डिसेंट

जब यह

द्वारा प्रतिस्थापित किया जाता है
या द्वारा, यह स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम बन जाता है। इस स्थिति में, इस एल्गोरिथ्म के चरणों की सम्मिश्र्ता घटकर हो जाती है। प्रत्येक चरण पर संचयन आवश्यकताएँ पर स्थिर हैं।

चूँकि , अपेक्षित आपत्तिपूर्ण न्यूनीकरण समस्या को हल करने के लिए चरण आकार को सावधानी से चुनने की आवश्यकता है, जैसा कि ऊपर बताया गया है। एक क्षयकारी चरण आकार चुनकर कोई औसत पुनरावृत्त के अभिसरण को सिद्ध कर सकता है। यह सेटिंग स्टोकेस्टिक अनुकूलन का एक विशेष स्थिति है, जो अनुकूलन में एक प्रसिद्ध समस्या है।[1]


वृद्धिशील स्टोकेस्टिक ग्रेडिएंट डिसेंट

वास्तव में, कोई डेटा पर अनेक स्टोकेस्टिक ग्रेडिएंट पास (जिन्हें चक्र या युग भी कहा जाता है) निष्पादित कर सकता है। इस प्रकार प्राप्त एल्गोरिदम है वृद्धिशील ग्रेडिएंट विधि कहलाती है और एक पुनरावृत्ति से मेल खाती है

स्टोकेस्टिक ग्रेडिएंट विधि के साथ मुख्य अंतर यह है कि यहां एक अनुक्रम को यह तय करने के लिए चुना जाता है कि -वां चरण में किस प्रशिक्षण बिंदु का दौरा किया जाता है। ऐसा क्रम स्टोकेस्टिक या नियतिवादी हो सकता है। फिर पुनरावृत्तियों की संख्या को अंकों की संख्या से अलग कर दिया जाता है (प्रत्येक बिंदु पर एक से अधिक बार विचार किया जा सकता है)। अनुभवजन्य आपत्तिपूर्ण को न्यूनतम प्रदान करने के लिए वृद्धिशील स्लोप विधि को दिखाया जा सकता है।[3] अनेक शब्दों के योग से बने वस्तुनिष्ठ कार्यों पर विचार करते समय वृद्धिशील तकनीकें लाभान्वित हो सकती हैं। एक बहुत बड़े डेटासेट से संबंधित एक अनुभवजन्य त्रुटि है।[1]

कर्नेल विधियाँ


उपरोक्त एल्गोरिदम को गैर-पैरामीट्रिक मॉडल (या ऐसे मॉडल जहां पैरामीटर एक अनंत आयामी स्थान बनाते हैं) तक विस्तारित करने के लिए कर्नेल का उपयोग किया जा सकता है। संबंधित प्रक्रिया अब वास्तव में ऑनलाइन नहीं होगी और इसमें सभी डेटा बिंदुओं को संग्रहीत करना सम्मिलित होगा, किंतु यह अभी भी ब्रूट फोर्स विधि से तेज़ है। यह चर्चा वर्ग हानि के स्थिति तक ही सीमित है, चूँकि इसे किसी भी उत्तल हानि तक बढ़ाया जा सकता है। इसे एक आसान प्रेरण द्वारा दिखाया जा सकता है[1] कि यदि डेटा आव्यूह है और SGD एल्गोरिदम के चरणों के बाद आउटपुट है, तो,

जहाँ और क्रम प्रत्यावर्तन को संतुष्ट करता है:
और

ध्यान दें कि यहां केवल पर मानक कर्नेल है, और भविष्यवक्ता रूप का है

.

अब, यदि इसके स्थान पर एक सामान्य कर्नेल प्रस्तुत किया जाता है और भविष्यवक्ता को रहने दिया जाता है

फिर वही प्रमाण यह भी दिखाएगा कि उपरोक्त रिकर्सन को बदलकर कम से कम वर्ग हानि को कम करने वाला भविष्यवक्ता प्राप्त किया जाता है

उपरोक्त अभिव्यक्ति को को अद्यतन करने के लिए सभी डेटा संग्रहीत करने की आवश्यकता है। -वें डेटापॉइंट के लिए मूल्यांकन करते समय रिकर्सन के लिए कुल समय सम्मिश्र्ता है, जहां के बिंदुओं की एक जोड़ी पर कर्नेल का मूल्यांकन करने की निवेश है।[1] इस प्रकार, कर्नेल के उपयोग ने एक परिमित आयामी पैरामीटर स्पेस से संभवतः अनंत आयामी सुविधा तक आंदोलन की अनुमति दी है, जो कि कर्नेल द्वारा दर्शाया गया है, इसके अतिरिक्त पैरामीटर्स के स्थान पर रिकर्सन निष्पादित किया गया है, जिसका आयाम समान है प्रशिक्षण डेटासेट के आकार के रूप में। सामान्य रूप से यह निरूपक प्रमेय का परिणाम है।[1]

ऑनलाइन उत्तल अनुकूलन

ऑनलाइन उत्तल अनुकूलन (OCO) [4] निर्णय लेने के लिए एक सामान्य रूपरेखा है जो कुशल एल्गोरिदम की अनुमति देने के लिए उत्तल अनुकूलन का लाभ उठाती है। बार-बार गेम खेलने की रूपरेखा इस प्रकार है:

के लिए

  • शिक्षार्थी को इनपुट प्राप्त होता है
  • शिक्षार्थी आउटपुट एक निश्चित उत्तल सेट से
  • प्रकृति एक उत्तल हानि फलन वापस भेजती है .
  • शिक्षार्थी को हानि उठानी पड़ती है और अपने मॉडल को अपडेट करता है

लक्ष्य अफसोस को कम करना है, या संचयी हानि और सर्वोत्तम निश्चित बिंदु के हानि के बीच अंतर को कम करना है मसा में। उदाहरण के तौर पर, ऑनलाइन न्यूनतम वर्ग रैखिक प्रतिगमन के स्थिति पर विचार करें। यहां, भार सदिश उत्तल सेट से आते हैं , और प्रकृति उत्तल हानि फलन को वापस भेजती है . यहां ध्यान दें कि परोक्ष रूप से साथ भेजा गया है .

चूँकि , कुछ ऑनलाइन भविष्यवाणी समस्याएं OCO के ढांचे में फिट नहीं हो सकती हैं। उदाहरण के लिए, ऑनलाइन वर्गीकरण में, पूर्वानुमान डोमेन और हानि फलन उत्तल नहीं होते हैं। ऐसे परिदृश्यों में, अवतलीकरण के लिए दो सरल तकनीकों का उपयोग किया जाता है: यादृच्छिकीकरण और सरोगेट लॉस फ़ंक्शन[citation needed].

कुछ सरल ऑनलाइन उत्तल अनुकूलन एल्गोरिदम हैं:

नेता का अनुसरण करें (एफटीएल)

सीखने का सबसे सरल नियम यह है कि (वर्तमान चरण में) उस परिकल्पना का चयन किया जाए जिसमें पिछले सभी दौरों की तुलना में सबसे कम हानि हो। इस एल्गोरिदम को फॉलो द लीडर कहा जाता है, और इसे बस राउंड दिया जाता है द्वारा:

इस प्रकार इस पद्धति को एक लालची एल्गोरिदम के रूप में देखा जा सकता है। ऑनलाइन द्विघात अनुकूलन के स्थिति में (जहां हानि फलन है ), कोई पछतावा दिखा सकता है जो बढ़ता है . चूँकि , ऑनलाइन रैखिक अनुकूलन जैसे मॉडलों के अन्य महत्वपूर्ण परिवारों के लिए एफटीएल एल्गोरिदम के लिए समान सीमाएं प्राप्त नहीं की जा सकती हैं। ऐसा करने के लिए, कोई नियमितीकरण जोड़कर एफटीएल को संशोधित करता है।

नियमित नेता का अनुसरण करें (एफटीआरएल)

यह एफटीएल का एक प्राकृतिक संशोधन है जिसका उपयोग एफटीएल समाधानों को स्थिर करने और उत्तम अफसोस सीमाएं प्राप्त करने के लिए किया जाता है। एक नियमितीकरण समारोह चुना जाता है और सीखने का कार्य चक्र में किया जाता है t निम्नलिखित नुसार:

एक विशेष उदाहरण के रूप में, ऑनलाइन रैखिक अनुकूलन के स्थिति पर विचार करें, जहां प्रकृति फॉर्म के हानि कार्यों को वापस भेजती है . चलो भी . मान लीजिए नियमितीकरण समारोह किसी धनात्मक संख्या के लिए चुना गया है . फिर, कोई यह दिखा सकता है कि पछतावा कम से कम पुनरावृत्ति बन जाता है

ध्यान दें कि इसे इस प्रकार पुनः लिखा जा सकता है , जो बिल्कुल ऑनलाइन ग्रेडिएंट डिसेंट जैसा दिखता है।

अगर S इसके अतिरिक्त कुछ उत्तल उपसमष्टि है , S को प्रक्षेपित करने की आवश्यकता होगी, जिससे संशोधित अद्यतन नियम प्राप्त होगा

इस एल्गोरिदम को सदिश के रूप में आलसी प्रक्षेपण के रूप में जाना जाता है ग्रेडियेंट जमा करता है। इसे नेस्टरोव के दोहरे औसत एल्गोरिथ्म के रूप में भी जाना जाता है। रैखिक हानि कार्यों और द्विघात नियमितीकरण के इस परिदृश्य में, अफसोस की सीमा है , और इस प्रकार औसत पछतावा होता है 0 जैसी इच्छा थी।

ऑनलाइन सबग्रेडिएंट डिसेंट (ओएसडी)

उपरोक्त रैखिक हानि कार्यों के लिए खेदजनक सिद्ध हुआ . किसी भी उत्तल हानि फलन के लिए एल्गोरिदम को सामान्य बनाने के लिए, उपग्रेडिएंट का के रैखिक सन्निकटन के रूप में उपयोग किया जाता है पास में , ऑनलाइन सबग्रेडिएंट डिसेंट एल्गोरिदम की ओर अग्रसर:

प्रारंभिक पैरामीटर के लिए

  • प्रयोग करके भविष्यवाणी करें , पाना प्रकृति से.
  • चुनना * अगर , के रूप में अद्यतन करें
  • अगर , संचयी ग्रेडिएंट्स को प्रोजेक्ट करें अर्थात। प्राप्त करने के लिए कोई ओएसडी एल्गोरिदम का उपयोग कर सकता है वर्गीकरण के लिए सपोर्ट सदिश मशीन|एसवीएम के ऑनलाइन वर्जन के लिए अफसोस की सीमा, जो काज हानि का उपयोग करती है


अन्य एल्गोरिदम

जैसा कि ऊपर वर्णित है, द्विघात रूप से नियमित किए गए एफटीआरएल एल्गोरिदम आलसी प्रक्षेपित ग्रेडिएंट एल्गोरिदम की ओर ले जाते हैं। मनमाने ढंग से उत्तल कार्यों और नियमितकर्ताओं के लिए उपरोक्त का उपयोग करने के लिए, कोई ऑनलाइन दर्पण वंश का उपयोग करता है। रैखिक हानि कार्यों के लिए पश्चदृष्टि में इष्टतम नियमितीकरण प्राप्त किया जा सकता है, यह AdaGrad एल्गोरिथ्म की ओर ले जाता है। यूक्लिडियन नियमितीकरण के लिए, कोई भी पछतावा दिखा सकता है , जिसे और उत्तम बनाया जा सकता है दृढ़ता से उत्तल और क्स्प-अवतल हानि कार्यों के लिए।

निरंतर सीखना

निरंतर सीखने का अर्थ है निरंतर प्रसंस्करण करके सीखे गए मॉडल में लगातार सुधार करना सूचना की धाराएँ.[5] लगातार बदलती वास्तविक दुनिया में बातचीत करने वाले सॉफ़्टवेयर सिस्टम और स्वायत्त एजेंटों के लिए निरंतर सीखने की क्षमताएं आवश्यक हैं। चूँकि , गैर-स्थिर डेटा वितरण से वृद्धिशील रूप से उपलब्ध जानकारी के निरंतर अधिग्रहण के बाद से निरंतर सीखना मशीन लर्निंग और तंत्रिका नेटवर्क मॉडल के लिए एक चुनौती है। आम तौर पर भयावह भूल की ओर ले जाता है।

ऑनलाइन शिक्षण की व्याख्या

ऑनलाइन शिक्षण के प्रतिमान की शिक्षण मॉडल की पसंद के आधार पर अलग-अलग व्याख्याएं हैं, जिनमें से प्रत्येक के कार्यों के अनुक्रम की पूर्वानुमानित गुणवत्ता के बारे में अलग-अलग निहितार्थ हैं। . इस चर्चा के लिए प्रोटोटाइपिकल स्टोचैस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग किया जाता है। जैसा कि ऊपर उल्लेख किया गया है, इसकी पुनरावृत्ति द्वारा दी गई है

पहली व्याख्या अपेक्षित आपत्तिपूर्ण को कम करने की समस्या के लिए प्रयुक्त स्टोकेस्टिक ग्रेडिएंट डिसेंट पद्धति पर विचार करती है ऊपर परिभाषित.[6] दरअसल, डेटा की अनंत धारा के स्थिति में, उदाहरणों के बाद से माना जाता है कि i.i.d खींचा गया है वितरण से , के ग्रेडियेंट का क्रम उपरोक्त पुनरावृत्ति में एक आई.आई.डी. है अपेक्षित आपत्तिपूर्ण की प्रवणता के स्टोकेस्टिक अनुमान का नमूना और इसलिए कोई विचलन को सीमित करने के लिए स्टोकेस्टिक ग्रेडिएंट डीसेंट विधि के लिए सम्मिश्र्ता परिणाम प्रयुक्त कर सकता है , जहाँ का मिनिमाइज़र है .[7] यह व्याख्या एक सीमित प्रशिक्षण सेट के स्थिति में भी मान्य है; चूँकि डेटा के माध्यम से एकाधिक पास के साथ ग्रेडिएंट अब स्वतंत्र नहीं हैं, फिर भी विशेष मामलों में सम्मिश्र्ता परिणाम प्राप्त किए जा सकते हैं।

दूसरी व्याख्या एक परिमित प्रशिक्षण सेट के स्थिति पर प्रयुक्त होती है और एसजीडी एल्गोरिदम को वृद्धिशील ग्रेडिएंट डीसेंट विधि का एक उदाहरण मानती है।[3]इस स्थिति में, कोई इसके अतिरिक्त अनुभवजन्य आपत्तिपूर्ण को देखता है:

के ढ़ाल के बाद से वृद्धिशील ग्रेडिएंट डिसेंट पुनरावृत्तियों में ग्रेडिएंट का स्टोकेस्टिक अनुमान भी होता है , यह व्याख्या स्टोकेस्टिक ग्रेडिएंट डिसेंट पद्धति से भी संबंधित है, किंतु अपेक्षित आपत्तिपूर्ण के विपरीत अनुभवजन्य आपत्तिपूर्ण को कम करने के लिए प्रयुक्त की जाती है। चूंकि यह व्याख्या अनुभवजन्य आपत्तिपूर्ण की चिंता करती है न कि अपेक्षित आपत्तिपूर्ण की, इसलिए डेटा के माध्यम से अनेक बार गुजरने की आसानी से अनुमति दी जाती है और वास्तव में विचलन पर कड़ी सीमाएं लगती हैं। , जहाँ का मिनिमाइज़र है .

कार्यान्वयन

  • वोवपल वैबिट: ओपन-सोर्स फास्ट आउट-ऑफ-कोर ऑनलाइन लर्निंग सिस्टम जो अनेक मशीन लर्निंग कटौती, महत्व भार और विभिन्न हानि कार्यों और अनुकूलन एल्गोरिदम के चयन का समर्थन करने के लिए उल्लेखनीय है। यह प्रशिक्षण डेटा की मात्रा से स्वतंत्र सुविधाओं के सेट के आकार को सीमित करने के लिए फ़ीचर हैशिंग का उपयोग करता है।
  • स्किकिट-लर्न: एल्गोरिदम के आउट-ऑफ-कोर कार्यान्वयन प्रदान करता है

यह भी देखें

सीखने के प्रतिमान

सामान्य एल्गोरिदम

सीखने के मॉडल

संदर्भ

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 L. Rosasco, T. Poggio, Machine Learning: a Regularization Approach, MIT-9.520 Lectures Notes, Manuscript, Dec. 2015. Chapter 7 - Online Learning
  2. Yin, Harold J. Kushner, G. George (2003). स्टोकेस्टिक सन्निकटन और पुनरावर्ती एल्गोरिदम और अनुप्रयोग (Second ed.). New York: Springer. pp. 8–12. ISBN 978-0-387-21769-7.{{cite book}}: CS1 maint: multiple names: authors list (link)
  3. 3.0 3.1 Bertsekas, D. P. (2011). Incremental gradient, subgradient, and proximal methods for convex optimization: a survey. Optimization for Machine Learning, 85.
  4. Hazan, Elad (2015). Introduction to Online Convex Optimization (PDF). Foundations and Trends in Optimization.
  5. Parisi, German I.; Kemker, Ronald; Part, Jose L.; Kanan, Christopher; Wermter, Stefan (2019). "Continual lifelong learning with neural networks: A review". Neural Networks. 113: 54–71. arXiv:1802.07569. doi:10.1016/j.neunet.2019.01.012. ISSN 0893-6080.
  6. Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.
  7. Stochastic Approximation Algorithms and Applications, Harold J. Kushner and G. George Yin, New York: Springer-Verlag, 1997. ISBN 0-387-94916-X; 2nd ed., titled Stochastic Approximation and Recursive Algorithms and Applications, 2003, ISBN 0-387-00894-2.


बाहरी संबंध