ऑनलाइन मशीन लर्निंग: Difference between revisions

Revision as of 17:17, 6 August 2023

कंप्यूटर विज्ञान में ऑनलाइन यंत्र अधिगम मशीन लर्निंग की एक विधि है जिसमें डेटा अनुक्रमिक क्रम में उपलब्ध हो जाता है और प्रत्येक चरण पर भविष्य के डेटा के लिए सर्वोत्तम भविष्यवक्ता को अपडेट करने के लिए उपयोग किया जाता है, बैच लर्निंग तकनीकों के विपरीत जो एक ही बार में संपूर्ण प्रशिक्षण डेटा समुच्चय पर सीखकर सर्वोत्तम भविष्यवक्ता उत्पन्न करता है। ऑनलाइन लर्निंग मशीन लर्निंग के क्षेत्रों में उपयोग की जाने वाली एक सामान्य तकनीक है जहां संपूर्ण डेटासेट पर प्रशिक्षण देना कम्प्यूटेशनल रूप से संभव नहीं है, जिसके लिए आउट ऑफ़ कोर एल्गोरिदम की आवश्यकता होती है। इसका उपयोग उन स्थितियों में भी किया जाता है जहां एल्गोरिदम के लिए डेटा में नए पैटर्न को गतिशील रूप से अनुकूलित करना आवश्यक होता है, या जब डेटा स्वयं समय के एक फलन के रूप में उत्पन्न होता है, उदाहरण के लिए, स्टॉक मार्केट पूर्वानुमान ऑनलाइन शिक्षण एल्गोरिदम में कैटेस्ट्रोफिक इंटरफेरेंस का खतरा हो सकता है, एक समस्या जिसे वृद्धिशील शिक्षण दृष्टिकोण द्वारा संबोधित किया जा सकता है।

परिचय

पर्यवेक्षित शिक्षण की सेटिंग में, $f:X\to Y$ का एक फलन सीखा जाना है, जहां $X$ को इनपुट के स्थान के रूप में और $Y$ को एक स्थान के रूप में माना जाता है आउटपुट का, जो उन उदाहरणों पर अच्छी तरह से पूर्वानुमान करता है जो $X\times Y$ पर संयुक्त संभाव्यता वितरण $p(x,y)$ से निकाले गए हैं। वास्तव में, सीखने वाले को कभी भी उदाहरणों पर सही वितरण $p(x,y)$ का पता नहीं चलता है। इसके अतिरिक्त, शिक्षार्थी के पास समान्यत: उदाहरणों $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ के प्रशिक्षण समुच्चय तक पहुंच होती है। इस सेटिंग में, हानि फलन को $V:Y\times Y\to \mathbb {R}$ के रूप में दिया गया है, जैसे कि $V(f(x),y)$ अनुमानित मान $f(x)$ और वास्तविक मान के बीच अंतर को मापता है जो की $y$ आदर्श लक्ष्य एक फलन $f\in {\mathcal {H}}$ का चयन करना है, जहां ${\mathcal {H}}$ फलन का एक स्थान है जिसे परिकल्पना स्थान कहा जाता है, जिससे कुल हानि की कुछ धारणा कम से कम हो। मॉडल के प्रकार (सांख्यिकीय या प्रतिकूल) के आधार पर, कोई हानि की विभिन्न धारणाओं को तैयार कर सकता है, जो विभिन्न शिक्षण एल्गोरिदम को उत्पन्न करता है।

ऑनलाइन शिक्षण का सांख्यिकीय दृष्टिकोण

सांख्यिकीय शिक्षण मॉडल में, प्रशिक्षण नमूना $(x_{i},y_{i})$ को वास्तविक वितरण $p(x,y)$ से लिया गया माना जाता है और इसका उद्देश्य अपेक्षित "खतरा" को कम करना है।

I[f]=\mathbb {E} [V(f(x),y)]=\int V(f(x),y)\,dp(x,y)\ .

इस स्थिति में एक सामान्य प्रतिमान अनुभवजन्य आपत्तिपूर्ण न्यूनतमकरण या नियमित अनुभवजन्य आपत्तिपूर्ण न्यूनतमकरण (समान्यत: तिखोनोव नियमितीकरण) के माध्यम से एक फलन ${\hat {f}}$ का अनुमान लगाना है। यहां हानि फलन का विकल्प अनेक प्रसिद्ध शिक्षण एल्गोरिदम को उत्पन्न करता है जैसे कि नियमित न्यूनतम वर्ग और समर्थन सदिश मशीनें इस श्रेणी में एक विशुद्ध रूप से ऑनलाइन मॉडल केवल नए इनपुट $(x_{t+1},y_{t+1})$ , वर्तमान सर्वोत्तम भविष्यवक्ता $f_{t}$ और कुछ अतिरिक्त संग्रहीत जानकारी (जिसमें समान्यत: प्रशिक्षण डेटा आकार से स्वतंत्र संचयन आवश्यकताओं की अपेक्षा की जाती है) के आधार पर सीखेगा अनेक फॉर्मूलेशन के लिए, उदाहरण के लिए नॉनलाइनियर कर्नेल विधियां, वास्तविक ऑनलाइन सीखना संभव नहीं है, चूँकि पुनरावर्ती एल्गोरिदम के साथ हाइब्रिड ऑनलाइन सीखने का एक रूप उपयोग किया जा सकता है जहां $f_{t+1}$ को $f_{t}$ और सभी पिछले डेटा पर निर्भर होने की अनुमति है अंक $(x_{1},y_{1}),\ldots ,(x_{t},y_{t})$ इस स्थिति में, स्थान की आवश्यकताओं के स्थिर रहने की अब आश्वासन नहीं है क्योंकि इसके लिए सभी पिछले डेटा बिंदुओं को संग्रहीत करने की आवश्यकता होती है, किंतु बैच सीखने की तकनीकों की तुलना में समाधान में नए डेटा बिंदु को जोड़ने के साथ गणना करने में कम समय लग सकता है।

उपरोक्त उद्देश्यों पर नियंत्रण पाने के लिए एक सामान्य रणनीति मिनी-बैचों का उपयोग करके सीखना है, जो एक समय में $b\geq 1$ डेटा बिंदुओं के एक छोटे बैच को संसाधित करता है, इसे प्रशिक्षण की कुल संख्या से बहुत कम $b$ के लिए छद्म-ऑनलाइन शिक्षण माना जा सकता है। अंक. मशीन लर्निंग एल्गोरिदम के अनुकूलित आउट-ऑफ-कोर वर्जन प्राप्त करने के लिए प्रशिक्षण डेटा को बार-बार पास करने के साथ मिनी-बैच तकनीकों का उपयोग किया जाता है, उदाहरण के लिए, स्टोकेस्टिक ग्रेडिएंट डिसेंट बैकप्रॉपैगेशन के साथ संयुक्त होने पर, यह वर्तमान में कृत्रिम तंत्रिका नेटवर्क के प्रशिक्षण के लिए वास्तविक प्रशिक्षण पद्धति है।

उदाहरण: रैखिक न्यूनतम वर्ग

ऑनलाइन शिक्षण में विभिन्न प्रकार के विचारों को समझाने के लिए रैखिक न्यूनतम वर्गों का सरल उदाहरण उपयोग किया जाता है। विचार इतने सामान्य हैं कि उन्हें अन्य सेटिंग्स पर प्रयुक्त किया जा सकता है, उदाहरण के लिए अन्य उत्तल हानि कार्यों के साथ है।

बैच लर्निंग

$f$ के साथ पर्यवेक्षित शिक्षण की सेटिंग पर विचार करें, जो कि सीखा जाने वाला एक रैखिक कार्य है:

f(x_{j})=\langle w,x_{j}\rangle =w\cdot x_{j}

जहां $x_{j}\in \mathbb {R} ^{d}$ इनपुट (डेटा बिंदु) का एक सदिश है और $w\in \mathbb {R} ^{d}$ एक रैखिक फ़िल्टर सदिश है। लक्ष्य फ़िल्टर सदिश $w$ की गणना करना है। इस प्रयोजन के लिए, एक वर्ग हानि फलन है

V(f(x_{j}),y_{j})=(f(x_{j})-y_{j})^{2}=(\langle w,x_{j}\rangle -y_{j})^{2}

सदिश $w$ की गणना करने के लिए उपयोग किया जाता है जो अनुभवजन्य हानि को कम करता है

I_{n}[w]=\sum _{j=1}^{n}V(\langle w,x_{j}\rangle ,y_{j})=\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}

कहाँ

y_{j}\in \mathbb {R}

.

मान लीजिए कि $X$ $i\times d$ डेटा आव्यूह है और $y\in \mathbb {R} ^{i}$ पहले $i$ डेटा बिंदुओं के आने के बाद लक्ष्य मानों का स्तम्भ सदिश है। यह मानते हुए कि सहप्रसरण आव्यूह $\Sigma _{i}=X^{T}X$ विपरीत है (अन्यथा अधिमान्य नियमितीकरण के साथ इसी तरह से आगे बढ़ना उत्तम है), रैखिक न्यूनतम वर्ग समस्या का सबसे अच्छा समाधान $f^{*}(x)=\langle w^{*},x\rangle$ इस प्रकार दिया गया है

w^{*}=(X^{T}X)^{-1}X^{T}y=\Sigma _{i}^{-1}\sum _{j=1}^{i}x_{j}y_{j}

.

अब, सहप्रसरण आव्यूह $\Sigma _{i}=\sum _{j=1}^{i}x_{j}x_{j}^{T}$ की गणना करने में समय लगता है $O(id^{2})$ , $d\times d$ आव्यूह को व्युत्क्रम में समय लगता है जबकि $O(d^{3})$ शेष गुणन में समय लगता है $O(d^{2})$ , जिससे कुल समय मिलता है जब $O(id^{2}+d^{3})$ डेटासेट में $n$ कुल बिंदु होते हैं, तो प्रत्येक डेटापॉइंट $i=1,\ldots ,n$ के आने के बाद समाधान की पुन: गणना करने के लिए, अनुभवहीन दृष्टिकोण में कुल सम्मिश्र्ता $O(n^{2}d^{2}+nd^{3})$ होगी। ध्यान दें कि जब आव्यूह $\Sigma _{i}$ को संग्रहीत किया जाता है, तो प्रत्येक चरण में इसे अपडेट करने के लिए केवल $x_{i+1}x_{i+1}^{T}$ जोड़ने की आवश्यकता होती है, जिसमें $O(d^{2})$ समय लगता है, जिससे कुल समय घटकर $O(nd^{2}+nd^{3})=O(nd^{3})$ हो जाता है, किंतु अतिरिक्त संचयन स्थान के साथ $O(d^{2})$ संग्रह $\Sigma _{i}$ .करता है ^[1]

ऑनलाइन शिक्षण: पुनरावर्ती न्यूनतम वर्ग

पुनरावर्ती न्यूनतम वर्ग (आरएलएस) एल्गोरिदम न्यूनतम वर्ग समस्या के लिए एक ऑनलाइन दृष्टिकोण पर विचार करता है। यह दिखाया जा सकता है कि $\textstyle w_{0}=0\in \mathbb {R} ^{d}$ और $\textstyle \Gamma _{0}=I\in \mathbb {R} ^{d\times d}$ को आरंभ करके, पिछले अनुभाग में दी गई रैखिक न्यूनतम वर्ग समस्या का समाधान निम्नलिखित पुनरावृत्ति द्वारा गणना की जा सकती है:

\Gamma _{i}=\Gamma _{i-1}-{\frac {\Gamma _{i-1}x_{i}x_{i}^{T}\Gamma _{i-1}}{1+x_{i}^{T}\Gamma _{i-1}x_{i}}}

w_{i}=w_{i-1}-\Gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})

उपरोक्त पुनरावृत्ति एल्गोरिथ्म को $i$ इंडक्शन ऑन का उपयोग करके सिद्ध किया जा सकता है .^[2] प्रमाण यह भी दर्शाता है कि $\Gamma _{i}=\Sigma _{i}^{-1}$ . कोई आरएलएस को अनुकूली फिल्टर के संदर्भ में भी देख सकता है (पुनरावर्ती न्यूनतम वर्ग देखें)।

इस एल्गोरिथम के $n$ चरणों की सम्मिश्रता $O(nd^{2})$ है, जो संबंधित बैच सीखने की सम्मिश्रता की तुलना में तेज़ परिमाण का एक क्रम है। यहां प्रत्येक चरण $i$ पर संचयन की आवश्यकता आव्यूह $\Gamma _{i}$ को संग्रहीत करने की है, जो $O(d^{2})$ पर स्थिर है। उस स्थिति के लिए जब $\Sigma _{i}$ विपरीत नहीं है, समस्या हानि फलन $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2}$ के नियमित वर्जन पर विचार करें। फिर, यह दिखाना सरल है कि वही एल्गोरिदम $\Gamma _{0}=(I+\lambda I)^{-1}$ के साथ काम करता है, और पुनरावृत्तियां $\Gamma _{i}=(\Sigma _{i}+\lambda I)^{-1}$ देने के लिए आगे बढ़ती हैं।^[1]

स्टोकेस्टिक ग्रेडिएंट डिसेंट

जब यह

\textstyle w_{i}=w_{i-1}-\Gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})

द्वारा प्रतिस्थापित किया जाता है

\textstyle w_{i}=w_{i-1}-\gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})=w_{i-1}-\gamma _{i}\nabla V(\langle w_{i-1},x_{i}\rangle ,y_{i})

या

\Gamma _{i}\in \mathbb {R} ^{d\times d}

द्वारा

\gamma _{i}\in \mathbb {R}

, यह स्टोकेस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम बन जाता है। इस स्थिति में, इस एल्गोरिथ्म के

n

चरणों की सम्मिश्र्ता घटकर

O(nd)

हो जाती है। प्रत्येक चरण पर संचयन आवश्यकताएँ

i

O(d)

पर स्थिर हैं।

चूँकि , अपेक्षित आपत्तिपूर्ण न्यूनीकरण समस्या को हल करने के लिए चरण आकार $\gamma _{i}$ को सावधानी से चुनने की आवश्यकता है, जैसा कि ऊपर बताया गया है। एक क्षयकारी चरण आकार $\gamma _{i}\approx {\frac {1}{\sqrt {i}}},$ चुनकर कोई औसत पुनरावृत्त ${\overline {w}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}w_{i}$ के अभिसरण को सिद्ध कर सकता है। यह सेटिंग स्टोकेस्टिक अनुकूलन का एक विशेष स्थिति है, जो अनुकूलन में एक प्रसिद्ध समस्या है।^[1]

वृद्धिशील स्टोकेस्टिक ग्रेडिएंट डिसेंट

वास्तव में, कोई डेटा पर अनेक स्टोकेस्टिक ग्रेडिएंट पास (जिन्हें चक्र या युग भी कहा जाता है) निष्पादित कर सकता है। इस प्रकार प्राप्त एल्गोरिदम है वृद्धिशील ग्रेडिएंट विधि कहलाती है और एक पुनरावृत्ति से मेल खाती है

\textstyle w_{i}=w_{i-1}-\gamma _{i}\nabla V(\langle w_{i-1},x_{t_{i}}\rangle ,y_{t_{i}})

स्टोकेस्टिक ग्रेडिएंट विधि के साथ मुख्य अंतर यह है कि यहां एक अनुक्रम

t_{i}

को यह तय करने के लिए चुना जाता है कि

i

-वां चरण में किस प्रशिक्षण बिंदु का दौरा किया जाता है। ऐसा क्रम स्टोकेस्टिक या नियतिवादी हो सकता है। फिर पुनरावृत्तियों की संख्या को अंकों की संख्या से अलग कर दिया जाता है (प्रत्येक बिंदु पर एक से अधिक बार विचार किया जा सकता है)। अनुभवजन्य आपत्तिपूर्ण को न्यूनतम प्रदान करने के लिए वृद्धिशील स्लोप विधि को दिखाया जा सकता है।^[3] अनेक शब्दों के योग से बने वस्तुनिष्ठ कार्यों पर विचार करते समय वृद्धिशील तकनीकें लाभान्वित हो सकती हैं। एक बहुत बड़े डेटासेट से संबंधित एक अनुभवजन्य त्रुटि है।^[1]

कर्नेल विधियाँ

उपरोक्त एल्गोरिदम को गैर-पैरामीट्रिक मॉडल (या ऐसे मॉडल जहां पैरामीटर एक अनंत आयामी स्थान बनाते हैं) तक विस्तारित करने के लिए कर्नेल का उपयोग किया जा सकता है। संबंधित प्रक्रिया अब वास्तव में ऑनलाइन नहीं होगी और इसमें सभी डेटा बिंदुओं को संग्रहीत करना सम्मिलित होगा, किंतु यह अभी भी ब्रूट फोर्स विधि से तेज़ है। यह चर्चा वर्ग हानि के स्थिति तक ही सीमित है, चूँकि इसे किसी भी उत्तल हानि तक बढ़ाया जा सकता है। इसे एक आसान प्रेरण द्वारा दिखाया जा सकता है^[1] कि यदि $X_{i}$ डेटा आव्यूह है और $w_{i}$ SGD एल्गोरिदम के $i$ चरणों के बाद आउटपुट है, तो,

w_{i}=X_{i}^{T}c_{i}

जहाँ

\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}

और क्रम

c_{i}

प्रत्यावर्तन को संतुष्ट करता है:

c_{0}=0

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

और

(c_{i})_{i}=\gamma _{i}{\Big (}y_{i}-\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x_{i}\rangle {\Big )}

ध्यान दें कि यहां $\langle x_{j},x_{i}\rangle$ केवल $\mathbb {R} ^{d}$ पर मानक कर्नेल है, और भविष्यवक्ता रूप का है

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle

.

अब, यदि इसके स्थान पर एक सामान्य कर्नेल $K$ प्रस्तुत किया जाता है और भविष्यवक्ता को रहने दिया जाता है

f_{i}(x)=\sum _{j=1}^{i-1}(c_{i-1})_{j}K(x_{j},x)

फिर वही प्रमाण यह भी दिखाएगा कि उपरोक्त रिकर्सन को बदलकर कम से कम वर्ग हानि को कम करने वाला भविष्यवक्ता प्राप्त किया जाता है

(c_{i})_{i}=\gamma _{i}{\Big (}y_{i}-\sum _{j=1}^{i-1}(c_{i-1})_{j}K(x_{j},x_{i}){\Big )}

उपरोक्त अभिव्यक्ति को $c_{i}$ को अद्यतन करने के लिए सभी डेटा संग्रहीत करने की आवश्यकता है। $n$ -वें डेटापॉइंट के लिए मूल्यांकन करते समय रिकर्सन के लिए कुल समय सम्मिश्र्ता $O(n^{2}dk)$ है, जहां के बिंदुओं की एक जोड़ी पर कर्नेल का मूल्यांकन करने की निवेश है।^[1] इस प्रकार, कर्नेल के उपयोग ने एक परिमित आयामी पैरामीटर स्पेस $\textstyle w_{i}\in \mathbb {R} ^{d}$ से संभवतः अनंत आयामी सुविधा तक आंदोलन की अनुमति दी है, जो कि कर्नेल $K$ द्वारा दर्शाया गया है, इसके अतिरिक्त पैरामीटर्स $\textstyle c_{i}\in \mathbb {R} ^{i}$ के स्थान पर रिकर्सन निष्पादित किया गया है, जिसका आयाम समान है प्रशिक्षण डेटासेट के आकार के रूप में। सामान्य रूप से यह निरूपक प्रमेय का परिणाम है।^[1]

ऑनलाइन उत्तल अनुकूलन

ऑनलाइन उत्तल अनुकूलन (OCO) ^[4] निर्णय लेने के लिए एक सामान्य रूपरेखा है जो कुशल एल्गोरिदम की अनुमति देने के लिए उत्तल अनुकूलन का लाभ उठाती है। बार-बार गेम खेलने की रूपरेखा इस प्रकार है:

$t=1,2,...,T$ के लिए

शिक्षार्थी को इनपुट $x_{t}$ प्राप्त होता है
शिक्षार्थी एक निश्चित उत्तल समुच्चय $S$ से $w_{t}$ आउटपुट देता है।
प्रकृति एक उत्तल हानि फलन $v_{t}:S\rightarrow \mathbb {R}$ वापस भेजती है .
सीखने वाले को हानि होता है $v_{t}(w_{t})$ और वह अपने मॉडल को अपडेट करता है

लक्ष्य पछतावे को कम करना है, या संचयी हानि और सर्वोत्तम निश्चित बिंदु $u\in S$ की हानि के बीच अंतर को कम करना है। उदाहरण के रूप से, ऑनलाइन न्यूनतम वर्ग रैखिक प्रतिगमन के स्थिति पर विचार करें। यहां, भार सदिश उत्तल समुच्चय $S=\mathbb {R} ^{d}$ से आते हैं, और प्रकृति उत्तल हानि फलन $v_{t}(w)=(\langle w,x_{t}\rangle -y_{t})^{2}$ को वापस भेजती है। यहां ध्यान दें कि $y_{t}$ को स्पष्ट रूप से $v_{t}$ के साथ भेजा गया है।

चूँकि , कुछ ऑनलाइन पूर्वानुमान समस्याएं OCO के फ्रेम वर्क में स्थित नहीं हो सकती हैं। उदाहरण के लिए, ऑनलाइन वर्गीकरण में, पूर्वानुमान डोमेन और हानि फलन उत्तल नहीं होते हैं। ऐसे परिदृश्यों में, अवतलीकरण के लिए दो सरल तकनीकों का उपयोग किया जाता है: यादृच्छिकीकरण और सरोगेट लॉस फलन है^{[citation needed]}.

कुछ सरल ऑनलाइन उत्तल अनुकूलन एल्गोरिदम हैं:

लीडर का अनुसरण करें (एफटीएल)

सीखने का सबसे सरल नियम यह है कि (वर्तमान चरण में) उस परिकल्पना का चयन किया जाए जिसमें पिछले सभी अवधि की तुलना में सबसे कम हानि हो। इस एल्गोरिदम को फॉलो द लीडर कहा जाता है, और इसे बस राउंड $t$ दिया जाता है द्वारा:

w_{t}=\operatorname {arg\,min} _{w\in S}\sum _{i=1}^{t-1}v_{i}(w)

इस प्रकार इस पद्धति को एक ग्रीडी एल्गोरिदम के रूप में देखा जा सकता है। ऑनलाइन द्विघात अनुकूलन के स्थिति में (जहां हानि फलन $v_{t}(w)=||w-x_{t}||_{2}^{2}$ है), कोई एक रिग्रेट सीमा दिखा सकता है जो $\log(T)$ के रूप में बढ़ती है। चूँकि, ऑनलाइन रैखिक अनुकूलन जैसे मॉडलों के अन्य महत्वपूर्ण परिवारों के लिए एफटीएल एल्गोरिदम के लिए समान सीमाएं प्राप्त नहीं की जा सकती हैं। ऐसा करने के लिए, कोई नियमितीकरण जोड़कर एफटीएल को संशोधित करता है।

नियमित लीडर का अनुसरण करें (एफटीआरएल)

यह एफटीएल का एक प्राकृतिक संशोधन है जिसका उपयोग एफटीएल समाधानों को स्थिर करने और उत्तम रिग्रेट सीमाएं प्राप्त करने के लिए किया जाता है। एक नियमितीकरण फलन $R:S\rightarrow \mathbb {R}$ चुना जाता है और सीखने का कार्य $t$ चक्र में किया जाता है निम्नलिखित अनुसार:

w_{t}=\operatorname {arg\,min} _{w\in S}\sum _{i=1}^{t-1}v_{i}(w)+R(w)

एक विशेष उदाहरण के रूप में, ऑनलाइन रैखिक अनुकूलन के स्थिति पर विचार करें, जहां प्रकृति रूप $v_{t}(w)=\langle w,z_{t}\rangle$ के हानि कार्यों को वापस भेजती है। इसके अतिरिक्त , चलो $S=\mathbb {R} ^{d}$ मान लीजिए कि नियमितीकरण फलन $R(w)={\frac {1}{2\eta }}||w||_{2}^{2}$ को कुछ धनात्मक संख्या $\eta$ के लिए चुना गया है। फिर, कोई यह दिखा सकता है कि रिग्रेट कम से कम पुनरावृत्ति बन जाता है

w_{t+1}=-\eta \sum _{i=1}^{t}z_{i}=w_{t}-\eta z_{t}

ध्यान दें कि इसे $w_{t+1}=w_{t}-\eta \nabla v_{t}(w_{t})$ के रूप में फिर से लिखा जा सकता है, जो बिल्कुल ऑनलाइन ग्रेडिएंट डिसेंट जैसा दिखता है।

यदि S इसके अतिरिक्त $\mathbb {R} ^{d}$ का कुछ उत्तल उपस्थान है, तो S को प्रक्षेपित करने की आवश्यकता होगी, जिससे संशोधित अद्यतन नियम प्राप्त होगा

w_{t+1}=\Pi _{S}(-\eta \sum _{i=1}^{t}z_{i})=\Pi _{S}(\eta \theta _{t+1})

इस एल्गोरिदम को आलसी प्रक्षेपण के रूप में जाना जाता है, क्योंकि सदिश $\theta _{t+1}$ ग्रेडिएंट्स को जमा करता है। इसे नेस्टरोव के दोहरे औसत एल्गोरिथ्म के रूप में भी जाना जाता है। रैखिक हानि कार्यों और द्विघात नियमितीकरण के इस परिदृश्य में, रिग्रेट $O({\sqrt {T}})$ से घिरा है, और इस प्रकार वांछित के अनुसार औसत रिग्रेट 0 हो जाता है।

ऑनलाइन सबग्रेडिएंट डिसेंट (ओएसडी)

उपरोक्त रैखिक हानि फलन $v_{t}(w)=\langle w,z_{t}\rangle$ के लिए खेदजनक सिद्ध हुआ। किसी भी उत्तल हानि फलन के लिए एल्गोरिदम को सामान्यीकृत करने के लिए , $\partial v_{t}(w_{t})$ के सबग्रेडिएंट $v_{t}$ का उपयोग $v_{t}$ के पास $w_{t}$ के रैखिक सन्निकटन के रूप में किया जाता है, जिससे ऑनलाइन सबग्रेडिएंट डिसेंट एल्गोरिदम बनता है:

प्रारंभिक पैरामीटर $\eta ,w_{1}=0$

$t=1,2,...,T$ के लिए

$w_{t}$ का उपयोग करके पूर्वानुमान करें, प्रकृति से $f_{t}$ प्राप्त करें।
चुनना $z_{t}\in \partial v_{t}(w_{t})$
यदि $S=\mathbb {R} ^{d}$ , के रूप में $w_{t+1}=w_{t}-\eta z_{t}$ अद्यतन करें
यदि $S=\mathbb {R} ^{d}$ , तो संचयी ग्रेडिएंट्स को $S$ अथार्त $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$ पर प्रोजेक्ट करें।

वर्गीकरण के लिए एसवीएम के ऑनलाइन वर्जन के लिए $O({\sqrt {T}})$ अफसोस सीमा प्राप्त करने के लिए कोई ओएसडी एल्गोरिथ्म का उपयोग कर सकता है, जो हिंज लॉस $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$ का उपयोग करता है।

अन्य एल्गोरिदम

जैसा कि ऊपर वर्णित है, द्विघात रूप से नियमित किए गए एफटीआरएल एल्गोरिदम आलसी प्रक्षेपित ग्रेडिएंट एल्गोरिदम की ओर ले जाते हैं। इच्छित रूप से उत्तल कार्यों और नियमितकर्ताओं के लिए उपरोक्त का उपयोग करने के लिए, कोई ऑनलाइन मिरर डीसेंट का उपयोग करता है। रैखिक हानि कार्यों के लिए पश्चदृष्टि में इष्टतम नियमितीकरण प्राप्त किया जा सकता है, यह एडाग्रैड एल्गोरिथ्म की ओर ले जाता है। यूक्लिडियन नियमितीकरण के लिए, कोई व्यक्ति $O({\sqrt {T}})$ की रिग्रेट सीमा दिखा सकता है, जिसे दृढ़ता से उत्तल और एक्सप-अवतल हानि कार्यों के लिए $O(\log T)$ तक और उत्तम बनाया जा सकता है।

निरंतर सीखना

निरंतर सीखने का अर्थ है निरंतर प्रसंस्करण करके सीखे गए मॉडल में निरंतर सुधार करना है जिसमे सूचना की धाराएँ.^[5] निरंतर बदलती वास्तविक विश्व में परस्पर क्रिया करने वाले सॉफ़्टवेयर सिस्टम और स्वायत्त एजेंटों के लिए निरंतर सीखने की क्षमताएं आवश्यक हैं। चूँकि, गैर-स्थिर डेटा वितरण से वृद्धिशील रूप से उपलब्ध जानकारी के निरंतर अधिग्रहण के बाद से निरंतर सीखना मशीन लर्निंग और तंत्रिका नेटवर्क मॉडल के लिए एक चुनौती है। समान्यत: कैटास्ट्रोफिक फोर्गेत्टिंग की ओर ले जाता है।

ऑनलाइन शिक्षण की व्याख्या

ऑनलाइन शिक्षण के प्रतिमान की शिक्षण मॉडल की इच्छा के आधार पर अलग-अलग व्याख्याएं हैं, जिनमें से प्रत्येक के कार्यों के अनुक्रम की पूर्वानुमानित गुणवत्ता के बारे में अलग-अलग निहितार्थ हैं। इस $f_{1},f_{2},\ldots ,f_{n}$ विचार के लिए प्रोटोटाइपिकल स्टोचैस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग किया जाता है। जैसा कि ऊपर उल्लेख किया गया है, इसकी पुनरावृत्ति द्वारा दी गई है

\textstyle w_{t}=w_{t-1}-\gamma _{t}\nabla V(\langle w_{t-1},x_{t}\rangle ,y_{t})

पहली व्याख्या स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि पर विचार करती है जैसा कि ऊपर परिभाषित अपेक्षित आपत्तिपूर्ण $I[w]$ को कम करने की समस्या पर प्रयुक्त होता है।^[6] इसलिए , डेटा की अनंत धारा के स्थिति में, चूंकि उदाहरण $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ को आई.आई.डी. द्वारा खींचा गया माना जाता है। वितरण $p(x,y)$ से, उपरोक्त पुनरावृत्ति में $V(\cdot ,\cdot )$ के ग्रेडिएंट का क्रम एक i.i.d है। अपेक्षित आपत्तिपूर्ण $I[w]$ के ग्रेडिएंट के स्टोकेस्टिक अनुमानों का नमूना और इसलिए कोई विचलन $I[w_{t}]-I[w^{\ast }]$ को सीमित करने के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि के लिए सम्मिश्रता परिणाम प्रयुक्त कर सकता है, जहां $w^{\ast }$ $I[w]$ का न्यूनतम है।^[7] यह व्याख्या एक सीमित प्रशिक्षण सेट के स्थिति में भी मान्य है; चूँकि डेटा के माध्यम से एकाधिक पास के साथ ग्रेडिएंट अब स्वतंत्र नहीं हैं, फिर भी विशेष स्थितियों में सम्मिश्रता परिणाम प्राप्त किए जा सकते हैं।

दूसरी व्याख्या एक परिमित प्रशिक्षण समुच्चय के स्थिति पर प्रयुक्त होती है और एसजीडी एल्गोरिदम को वृद्धिशील ग्रेडिएंट डीसेंट विधि का एक उदाहरण मानती है।^[3] इस स्थिति में, कोई इसके अतिरिक्त अनुभवजन्य आपत्तिपूर्ण को देखता है:

I_{n}[w]={\frac {1}{n}}\sum _{i=1}^{n}V(\langle w,x_{i}\rangle ,y_{i})\ .

चूँकि वृद्धिशील ग्रेडिएंट डिसेंट पुनरावृत्तियों में $V(\cdot ,\cdot )$ के ग्रेडिएंट भी $I_{n}[w]$ के ग्रेडिएंट के स्टोकेस्टिक अनुमान हैं, यह व्याख्या स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि से भी संबंधित है, किंतु इसे न्यूनतम करने के लिए प्रयुक्त किया जाता है अपेक्षित आपत्तिपूर्ण के विपरीत अनुभवजन्य आपत्तिपूर्ण है । चूंकि यह व्याख्या अनुभवजन्य आपत्तिपूर्ण की चिंता करती है जिसमे न कि अपेक्षित आपत्तिपूर्ण की, इसलिए डेटा के माध्यम से कई बार गुजरने की सरलता से अनुमति दी जाती है और वास्तव में विचलन $I_{n}[w_{t}]-I_{n}[w_{n}^{\ast }]$ पर कड़ी सीमाएं प्रयुक्त होती हैं। , जहां $w_{n}^{\ast }$ , $I_{n}[w]$ का न्यूनतम है।

कार्यान्वयन

वोवपल वैबिट: ओपन-सोर्स फास्ट आउट-ऑफ-कोर ऑनलाइन लर्निंग सिस्टम जो अनेक मशीन लर्निंग रिडक्शन , महत्व भार और विभिन्न हानि कार्यों और अनुकूलन एल्गोरिदम के चयन का समर्थन करने के लिए उल्लेखनीय है। यह प्रशिक्षण डेटा की मात्रा से स्वतंत्र सुविधाओं के समुच्चय के आकार को सीमित करने के लिए फ़ीचर हैशिंग का उपयोग करता है।
स्किकिट-लर्न: एल्गोरिदम के आउट-ऑफ-कोर कार्यान्वयन प्रदान करता है
- वर्गीकरण: परसेप्ट्रॉन, स्टोकेस्टिक ग्रेडिएंट डिसेंट, नाइव बेयस क्लासिफायरियर
- प्रतिगमन: एसजीडी प्रतिगामी, निष्क्रिय आक्रामक प्रतिगामी।
- क्लस्टरिंग: K- का अर्थ है क्लस्टरिंग |मिनी-बैच के-मीन्स।
- फ़ीचर निष्कर्षण: शब्दकोश सीखना | मिनी-बैच शब्दकोश सीखना, प्रमुख घटक विश्लेषण।

यह भी देखें

सीखने के प्रतिमान

वृद्धिशील शिक्षा
लेजी लर्निंग
ऑफ़लाइन शिक्षण, विपरीत मॉडल
सुदृढीकरण सीखना
बहु-सशस्त्र बैंडिट
पर्यवेक्षित अध्ययन

सामान्य एल्गोरिदम

सीखने के मॉडल

संदर्भ

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 L. Rosasco, T. Poggio, Machine Learning: a Regularization Approach, MIT-9.520 Lectures Notes, Manuscript, Dec. 2015. Chapter 7 - Online Learning
↑ Yin, Harold J. Kushner, G. George (2003). स्टोकेस्टिक सन्निकटन और पुनरावर्ती एल्गोरिदम और अनुप्रयोग (Second ed.). New York: Springer. pp. 8–12. ISBN 978-0-387-21769-7.{{cite book}}: CS1 maint: multiple names: authors list (link)
↑ ^3.0 ^3.1 Bertsekas, D. P. (2011). Incremental gradient, subgradient, and proximal methods for convex optimization: a survey. Optimization for Machine Learning, 85.
↑ Hazan, Elad (2015). Introduction to Online Convex Optimization (PDF). Foundations and Trends in Optimization.
↑ Parisi, German I.; Kemker, Ronald; Part, Jose L.; Kanan, Christopher; Wermter, Stefan (2019). "Continual lifelong learning with neural networks: A review". Neural Networks. 113: 54–71. arXiv:1802.07569. doi:10.1016/j.neunet.2019.01.012. ISSN 0893-6080.
↑ Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.
↑ Stochastic Approximation Algorithms and Applications, Harold J. Kushner and G. George Yin, New York: Springer-Verlag, 1997. ISBN 0-387-94916-X; 2nd ed., titled Stochastic Approximation and Recursive Algorithms and Applications, 2003, ISBN 0-387-00894-2.

बाहरी संबंध

6.883: Online Methods in Machine Learning: Theory and Applications. Alexander Rakhlin. MIT

[lorenzo-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 L. Rosasco, T. Poggio, Machine Learning: a Regularization Approach, MIT-9.520 Lectures Notes, Manuscript, Dec. 2015. Chapter 7 - Online Learning

[2] Yin, Harold J. Kushner, G. George (2003). स्टोकेस्टिक सन्निकटन और पुनरावर्ती एल्गोरिदम और अनुप्रयोग (Second ed.). New York: Springer. pp. 8–12. ISBN 978-0-387-21769-7.{{cite book}}: CS1 maint: multiple names: authors list (link)

[bertsekas-3] 3.0 ^3.1 Bertsekas, D. P. (2011). Incremental gradient, subgradient, and proximal methods for convex optimization: a survey. Optimization for Machine Learning, 85.

[4] Hazan, Elad (2015). Introduction to Online Convex Optimization (PDF). Foundations and Trends in Optimization.

[5] Parisi, German I.; Kemker, Ronald; Part, Jose L.; Kanan, Christopher; Wermter, Stefan (2019). "Continual lifelong learning with neural networks: A review". Neural Networks. 113: 54–71. arXiv:1802.07569. doi:10.1016/j.neunet.2019.01.012. ISSN 0893-6080.

[6] Bottou, Léon (1998). "Online Algorithms and Stochastic Approximations". Online Learning and Neural Networks. Cambridge University Press. ISBN 978-0-521-65263-6.

[kushneryin-7] Stochastic Approximation Algorithms and Applications, Harold J. Kushner and G. George Yin, New York: Springer-Verlag, 1997. ISBN 0-387-94916-X; 2nd ed., titled Stochastic Approximation and Recursive Algorithms and Applications, 2003, ISBN 0-387-00894-2.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

@@ Line 2: / Line 2: @@
 {{short description|Method of machine learning}}
 {{Machine learning|Problems}}
-[[कंप्यूटर विज्ञान]] में ऑनलाइन [[ यंत्र अधिगम ]] मशीन लर्निंग की एक विधि है जिसमें डेटा अनुक्रमिक क्रम में उपलब्ध हो जाता है और प्रत्येक चरण पर भविष्य के डेटा के लिए सर्वोत्तम भविष्यवक्ता को अपडेट करने के लिए उपयोग किया जाता है, बैच लर्निंग तकनीकों के विपरीत जो एक ही बार में संपूर्ण प्रशिक्षण डेटा सेट पर सीखकर सर्वोत्तम भविष्यवक्ता उत्पन्न करता है। ऑनलाइन लर्निंग मशीन लर्निंग के क्षेत्रों में उपयोग की जाने वाली एक सामान्य तकनीक है जहां संपूर्ण डेटासेट पर प्रशिक्षण देना कम्प्यूटेशनल रूप से संभव नहीं है, जिसके लिए [[बाहर के कोर|आउट ऑफ़ कोर]] एल्गोरिदम की आवश्यकता होती है। इसका उपयोग उन स्थितियों में भी किया जाता है जहां एल्गोरिदम के लिए डेटा में नए पैटर्न को गतिशील रूप से अनुकूलित करना आवश्यक होता है, या जब डेटा स्वयं समय के एक फलन के रूप में उत्पन्न होता है, उदाहरण के लिए, स्टॉक मार्केट भविष्यवाणी ऑनलाइन शिक्षण एल्गोरिदम में [[विनाशकारी हस्तक्षेप|कैटेस्ट्रोफिक इंटरफेरेंस]] का खतरा हो सकता है, एक समस्या जिसे वृद्धिशील शिक्षण दृष्टिकोण द्वारा संबोधित किया जा सकता है।
+[[कंप्यूटर विज्ञान]] में ऑनलाइन [[ यंत्र अधिगम ]] मशीन लर्निंग की एक विधि है जिसमें डेटा अनुक्रमिक क्रम में उपलब्ध हो जाता है और प्रत्येक चरण पर भविष्य के डेटा के लिए सर्वोत्तम भविष्यवक्ता को अपडेट करने के लिए उपयोग किया जाता है, बैच लर्निंग तकनीकों के विपरीत जो एक ही बार में संपूर्ण प्रशिक्षण डेटा समुच्चय पर सीखकर सर्वोत्तम भविष्यवक्ता उत्पन्न करता है। ऑनलाइन लर्निंग मशीन लर्निंग के क्षेत्रों में उपयोग की जाने वाली एक सामान्य तकनीक है जहां संपूर्ण डेटासेट पर प्रशिक्षण देना कम्प्यूटेशनल रूप से संभव नहीं है, जिसके लिए [[बाहर के कोर|आउट ऑफ़ कोर]] एल्गोरिदम की आवश्यकता होती है। इसका उपयोग उन स्थितियों में भी किया जाता है जहां एल्गोरिदम के लिए डेटा में नए पैटर्न को गतिशील रूप से अनुकूलित करना आवश्यक होता है, या जब डेटा स्वयं समय के एक फलन के रूप में उत्पन्न होता है, उदाहरण के लिए, स्टॉक मार्केट पूर्वानुमान ऑनलाइन शिक्षण एल्गोरिदम में [[विनाशकारी हस्तक्षेप|कैटेस्ट्रोफिक इंटरफेरेंस]] का खतरा हो सकता है, एक समस्या जिसे वृद्धिशील शिक्षण दृष्टिकोण द्वारा संबोधित किया जा सकता है।
 == परिचय ==
-पर्यवेक्षित शिक्षण की सेटिंग में, <math> f : X \to Y</math> का एक फलन सीखा जाना है, जहां <math>X</math> को इनपुट के स्थान के रूप में और <math>Y</math> को एक स्थान के रूप में माना जाता है आउटपुट का, जो उन उदाहरणों पर अच्छी तरह से भविष्यवाणी करता है जो <math>X \times Y</math> पर संयुक्त संभाव्यता वितरण <math>p(x,y)</math> से निकाले गए हैं। वास्तव में, सीखने वाले को कभी भी उदाहरणों पर सही वितरण <math>p(x,y)</math> का पता नहीं चलता है। इसके अतिरिक्त, शिक्षार्थी के पास समान्यत: उदाहरणों <math>(x_1, y_1), \ldots, (x_n, y_n)</math> के प्रशिक्षण सेट तक पहुंच होती है। इस सेटिंग में, हानि फलन को <math>V : Y \times Y \to \mathbb{R}</math> के रूप में दिया गया है, जैसे कि <math> V(f(x), y)</math> अनुमानित मान <math>f(x)</math> और वास्तविक मान के बीच अंतर को मापता है जो की  <math>y</math> आदर्श लक्ष्य एक फलन <math>f \in \mathcal{H}</math> का चयन करना है, जहां <math>\mathcal{H}</math> फलन का एक स्थान है जिसे परिकल्पना स्थान कहा जाता है, जिससे कुल हानि की कुछ धारणा कम से कम हो। मॉडल के प्रकार (सांख्यिकीय या प्रतिकूल) के आधार पर, कोई हानि की विभिन्न धारणाओं को तैयार कर सकता है, जो विभिन्न शिक्षण एल्गोरिदम को उत्पन्न करता है।
+पर्यवेक्षित शिक्षण की सेटिंग में, <math> f : X \to Y</math> का एक फलन सीखा जाना है, जहां <math>X</math> को इनपुट के स्थान के रूप में और <math>Y</math> को एक स्थान के रूप में माना जाता है आउटपुट का, जो उन उदाहरणों पर अच्छी तरह से पूर्वानुमान करता है जो <math>X \times Y</math> पर संयुक्त संभाव्यता वितरण <math>p(x,y)</math> से निकाले गए हैं। वास्तव में, सीखने वाले को कभी भी उदाहरणों पर सही वितरण <math>p(x,y)</math> का पता नहीं चलता है। इसके अतिरिक्त, शिक्षार्थी के पास समान्यत: उदाहरणों <math>(x_1, y_1), \ldots, (x_n, y_n)</math> के प्रशिक्षण समुच्चय तक पहुंच होती है। इस सेटिंग में, हानि फलन को <math>V : Y \times Y \to \mathbb{R}</math> के रूप में दिया गया है, जैसे कि <math> V(f(x), y)</math> अनुमानित मान <math>f(x)</math> और वास्तविक मान के बीच अंतर को मापता है जो की  <math>y</math> आदर्श लक्ष्य एक फलन <math>f \in \mathcal{H}</math> का चयन करना है, जहां <math>\mathcal{H}</math> फलन का एक स्थान है जिसे परिकल्पना स्थान कहा जाता है, जिससे कुल हानि की कुछ धारणा कम से कम हो। मॉडल के प्रकार (सांख्यिकीय या प्रतिकूल) के आधार पर, कोई हानि की विभिन्न धारणाओं को तैयार कर सकता है, जो विभिन्न शिक्षण एल्गोरिदम को उत्पन्न करता है।
 == ऑनलाइन शिक्षण का सांख्यिकीय दृष्टिकोण ==
@@ Line 41: / Line 41: @@
 उपरोक्त पुनरावृत्ति एल्गोरिथ्म को <math> i </math> इंडक्शन ऑन का उपयोग करके सिद्ध किया जा सकता है .<ref>{{cite book|last1=Yin|first1=Harold J. Kushner, G. George|title=स्टोकेस्टिक सन्निकटन और पुनरावर्ती एल्गोरिदम और अनुप्रयोग|url=https://archive.org/details/stochasticapprox00yinh|url-access=limited|date=2003|publisher=Springer|location=New York|isbn=978-0-387-21769-7|pages=[https://archive.org/details/stochasticapprox00yinh/page/n30 8]–12|edition=Second}}</ref> प्रमाण यह भी दर्शाता है कि <math> \Gamma_i = \Sigma_i^{-1} </math>. कोई आरएलएस को अनुकूली फिल्टर के संदर्भ में भी देख सकता है ([[पुनरावर्ती न्यूनतम वर्ग]] देखें)।
-इस एल्गोरिथम के <math>n</math> चरणों की सम्मिश्रता <math>O(nd^2)</math> है, जो संबंधित बैच सीखने की सम्मिश्रता की तुलना में तेज़ परिमाण का एक क्रम है। यहां प्रत्येक चरण <math>i</math> पर संचयन की आवश्यकता आव्यूह <math>\Gamma_i</math> को संग्रहीत करने की है, जो <math>O(d^2)</math> पर स्थिर है। उस स्थिति के लिए जब <math> \Sigma_i </math> विपरीत नहीं है, समस्या हानि फलन <math> \sum_{j=1}^{n} (x_j^Tw - y_j)^2 + \lambda || w ||_2^2 </math> के नियमित संस्करण पर विचार करें। फिर, यह दिखाना सरल  है कि वही एल्गोरिदम <math> \Gamma_0 = (I + \lambda I)^{-1} </math> के साथ काम करता है, और पुनरावृत्तियां <math> \Gamma_i = (\Sigma_i + \lambda I)^{-1} </math> देने के लिए आगे बढ़ती हैं।<ref name="lorenzo" />
+इस एल्गोरिथम के <math>n</math> चरणों की सम्मिश्रता <math>O(nd^2)</math> है, जो संबंधित बैच सीखने की सम्मिश्रता की तुलना में तेज़ परिमाण का एक क्रम है। यहां प्रत्येक चरण <math>i</math> पर संचयन की आवश्यकता आव्यूह <math>\Gamma_i</math> को संग्रहीत करने की है, जो <math>O(d^2)</math> पर स्थिर है। उस स्थिति के लिए जब <math> \Sigma_i </math> विपरीत नहीं है, समस्या हानि फलन <math> \sum_{j=1}^{n} (x_j^Tw - y_j)^2 + \lambda || w ||_2^2 </math> के नियमित वर्जन पर विचार करें। फिर, यह दिखाना सरल  है कि वही एल्गोरिदम <math> \Gamma_0 = (I + \lambda I)^{-1} </math> के साथ काम करता है, और पुनरावृत्तियां <math> \Gamma_i = (\Sigma_i + \lambda I)^{-1} </math> देने के लिए आगे बढ़ती हैं।<ref name="lorenzo" />
 ===स्टोकेस्टिक ग्रेडिएंट डिसेंट===
 {{Main|स्टोकेस्टिक ग्रेडिएंट डिसेंट}}
@@ Line 75: / Line 75: @@
 उपरोक्त अभिव्यक्ति को <math> c_i </math> को अद्यतन करने के लिए सभी डेटा संग्रहीत करने की आवश्यकता है। <math> n </math>-वें डेटापॉइंट के लिए मूल्यांकन करते समय रिकर्सन के लिए कुल समय सम्मिश्र्ता<math> O(n^2 d k) </math> है, जहां के बिंदुओं की एक जोड़ी पर कर्नेल का मूल्यांकन करने की निवेश है।<ref name="lorenzo" /> इस प्रकार, कर्नेल के उपयोग ने एक परिमित आयामी पैरामीटर स्पेस <math> \textstyle w_{i} \in \mathbb{R}^d </math> से संभवतः अनंत आयामी सुविधा तक आंदोलन की अनुमति दी है, जो कि कर्नेल <math> K </math> द्वारा दर्शाया गया है, इसके अतिरिक्त  पैरामीटर्स <math> \textstyle c_{i} \in \mathbb{R}^i </math> के स्थान पर रिकर्सन निष्पादित किया गया है, जिसका आयाम समान है प्रशिक्षण डेटासेट के आकार के रूप में। सामान्य रूप से  यह निरूपक प्रमेय का परिणाम है।<ref name="lorenzo" />
 === ऑनलाइन उत्तल अनुकूलन ===
-'''ऑनलाइन उत्तल अनुकूलन (O'''CO) <ref>{{Cite book
+ऑनलाइन उत्तल अनुकूलन (OCO) <ref>{{Cite book
       |last=Hazan
       |first=Elad
@@ Line 85: / Line 85: @@
       }}</ref> निर्णय लेने के लिए एक सामान्य रूपरेखा है जो कुशल एल्गोरिदम की अनुमति देने के लिए [[उत्तल अनुकूलन]] का लाभ उठाती है। बार-बार गेम खेलने की रूपरेखा इस प्रकार है:
-के लिए <math> t = 1,2,...,T </math>
+<math> t = 1,2,...,T </math> के लिए
-* शिक्षार्थी को इनपुट प्राप्त होता है <math> x_t </math>
+* शिक्षार्थी को इनपुट <math> x_t </math> प्राप्त होता है
-* शिक्षार्थी आउटपुट <math> w_t </math> एक निश्चित उत्तल सेट से <math> S </math>
+*शिक्षार्थी एक निश्चित उत्तल समुच्चय <math> S </math>  से <math> w_t </math> आउटपुट देता है।
-*प्रकृति एक उत्तल हानि फलन वापस भेजती है <math> v_t : S \rightarrow \mathbb{R} </math>.
+*प्रकृति एक उत्तल हानि फलन <math> v_t : S \rightarrow \mathbb{R} </math> वापस भेजती है .
-* शिक्षार्थी को हानि उठानी पड़ती है <math>v_t(w_t)</math> और अपने मॉडल को अपडेट करता है
+*सीखने वाले को हानि होता है <math>v_t(w_t)</math> और वह अपने मॉडल को अपडेट करता है
-लक्ष्य अफसोस को कम करना है, या संचयी हानि और सर्वोत्तम निश्चित बिंदु के हानि के बीच अंतर को कम करना है  <math> u \in S</math> मसा में।
+लक्ष्य पछतावे को कम करना है, या संचयी हानि और सर्वोत्तम निश्चित बिंदु <math> u \in S</math> की हानि के बीच अंतर को कम करना है। उदाहरण के रूप से, ऑनलाइन न्यूनतम वर्ग रैखिक प्रतिगमन के स्थिति पर विचार करें। यहां, भार सदिश  उत्तल समुच्चय <math> S = \mathbb{R}^d </math> से आते हैं, और प्रकृति उत्तल हानि फलन <math> v_t(w) = ( \langle w,x_t \rangle - y_t )^2 </math> को वापस भेजती है। यहां ध्यान दें कि <math> y_t </math> को स्पष्ट रूप से <math> v_t </math> के साथ भेजा गया है।
-उदाहरण के तौर पर, ऑनलाइन न्यूनतम वर्ग रैखिक प्रतिगमन के स्थिति पर विचार करें। यहां, भार सदिश उत्तल सेट से आते हैं <math> S = \mathbb{R}^d </math>, और प्रकृति उत्तल हानि फलन को वापस भेजती है <math> v_t(w) = ( \langle w,x_t \rangle - y_t )^2 </math>. यहां ध्यान दें कि <math> y_t </math> परोक्ष रूप से साथ भेजा गया है <math> v_t </math>.
-चूँकि , कुछ ऑनलाइन भविष्यवाणी समस्याएं OCO के ढांचे में फिट नहीं हो सकती हैं। उदाहरण के लिए, ऑनलाइन वर्गीकरण में, पूर्वानुमान डोमेन और हानि फलन उत्तल नहीं होते हैं। ऐसे परिदृश्यों में, [[अवतलीकरण]] के लिए दो सरल तकनीकों का उपयोग किया जाता है: [[यादृच्छिकीकरण]] और सरोगेट लॉस फ़ंक्शन{{citation needed|date=September 2019}}.
+चूँकि , कुछ ऑनलाइन पूर्वानुमान समस्याएं OCO के फ्रेम वर्क में स्थित नहीं हो सकती हैं। उदाहरण के लिए, ऑनलाइन वर्गीकरण में, पूर्वानुमान डोमेन और हानि फलन उत्तल नहीं होते हैं। ऐसे परिदृश्यों में, [[अवतलीकरण]] के लिए दो सरल तकनीकों का उपयोग किया जाता है: [[यादृच्छिकीकरण]] और सरोगेट लॉस फलन है {{citation needed|date=September 2019}}.
 कुछ सरल ऑनलाइन उत्तल अनुकूलन एल्गोरिदम हैं:
-==== नेता का अनुसरण करें (एफटीएल)====
+==== लीडर का अनुसरण करें (एफटीएल)====
-सीखने का सबसे सरल नियम यह है कि (वर्तमान चरण में) उस परिकल्पना का चयन किया जाए जिसमें पिछले सभी दौरों की तुलना में सबसे कम हानि हो। इस एल्गोरिदम को फॉलो द लीडर कहा जाता है, और इसे बस राउंड दिया जाता है <math> t </math> द्वारा:
+सीखने का सबसे सरल नियम यह है कि (वर्तमान चरण में) उस परिकल्पना का चयन किया जाए जिसमें पिछले सभी अवधि की तुलना में सबसे कम हानि हो। इस एल्गोरिदम को फॉलो द लीडर कहा जाता है, और इसे बस राउंड <math> t </math> दिया जाता है  द्वारा:
 : <math> w_t = \operatorname{arg\,min}_{w \in S} \sum_{i=1}^{t-1} v_i(w) </math>
-इस प्रकार इस पद्धति को एक [[लालची एल्गोरिदम]] के रूप में देखा जा सकता है। ऑनलाइन द्विघात अनुकूलन के स्थिति में (जहां हानि फलन है <math> v_t(w) = || w - x_t ||_2^2 </math>), कोई पछतावा दिखा सकता है जो बढ़ता है <math> \log(T) </math>. चूँकि , ऑनलाइन रैखिक अनुकूलन जैसे मॉडलों के अन्य महत्वपूर्ण परिवारों के लिए एफटीएल एल्गोरिदम के लिए समान सीमाएं प्राप्त नहीं की जा सकती हैं। ऐसा करने के लिए, कोई नियमितीकरण जोड़कर एफटीएल को संशोधित करता है।
+इस प्रकार इस पद्धति को एक ग्रीडी एल्गोरिदम के रूप में देखा जा सकता है। ऑनलाइन द्विघात अनुकूलन के स्थिति में (जहां हानि फलन <math> v_t(w) = || w - x_t ||_2^2 </math> है), कोई एक रिग्रेट सीमा दिखा सकता है जो <math> \log(T) </math> के रूप में बढ़ती है। चूँकि, ऑनलाइन रैखिक अनुकूलन जैसे मॉडलों के अन्य महत्वपूर्ण परिवारों के लिए एफटीएल एल्गोरिदम के लिए समान सीमाएं प्राप्त नहीं की जा सकती हैं। ऐसा करने के लिए, कोई नियमितीकरण जोड़कर एफटीएल को संशोधित करता है।
-==== नियमित नेता का अनुसरण करें (एफटीआरएल)====
+==== नियमित लीडर का अनुसरण करें (एफटीआरएल)====
-यह एफटीएल का एक प्राकृतिक संशोधन है जिसका उपयोग एफटीएल समाधानों को स्थिर करने और उत्तम अफसोस सीमाएं प्राप्त करने के लिए किया जाता है। एक नियमितीकरण समारोह <math> R : S \rightarrow \mathbb{R} </math> चुना जाता है और सीखने का कार्य चक्र में किया जाता है {{mvar|t}} निम्नलिखित नुसार:
+यह एफटीएल का एक प्राकृतिक संशोधन है जिसका उपयोग एफटीएल समाधानों को स्थिर करने और उत्तम रिग्रेट सीमाएं प्राप्त करने के लिए किया जाता है। एक नियमितीकरण फलन <math> R : S \rightarrow \mathbb{R} </math> चुना जाता है और सीखने का कार्य {{mvar|t}} चक्र में किया जाता है  निम्नलिखित अनुसार:
 : <math>  w_t = \operatorname{arg\,min}_{w \in S} \sum_{i=1}^{t-1}v_i(w) + R(w) </math>
-एक विशेष उदाहरण के रूप में, ऑनलाइन रैखिक अनुकूलन के स्थिति पर विचार करें, जहां प्रकृति फॉर्म के हानि कार्यों को वापस भेजती है <math> v_t(w) = \langle w,z_t \rangle </math>. चलो भी <math> S = \mathbb{R}^d </math>. मान लीजिए नियमितीकरण समारोह <math> R(w) = \frac{1}{2 \eta} ||w||_2^2 </math> किसी धनात्मक संख्या के लिए चुना गया है <math> \eta </math>. फिर, कोई यह दिखा सकता है कि पछतावा कम से कम पुनरावृत्ति बन जाता है
+एक विशेष उदाहरण के रूप में, ऑनलाइन रैखिक अनुकूलन के स्थिति पर विचार करें, जहां प्रकृति रूप  <math> v_t(w) = \langle w,z_t \rangle </math> के हानि कार्यों को वापस भेजती है। इसके अतिरिक्त , चलो <math> S = \mathbb{R}^d </math> मान लीजिए कि नियमितीकरण फलन <math> R(w) = \frac{1}{2 \eta} ||w||_2^2 </math> को कुछ धनात्मक संख्या <math> \eta </math> के लिए चुना गया है। फिर, कोई यह दिखा सकता है कि रिग्रेट कम से कम पुनरावृत्ति बन जाता है
 : <math > w_{t+1} = - \eta \sum_{i=1}^{t} z_i = w_t - \eta z_t</math>
-ध्यान दें कि इसे इस प्रकार पुनः लिखा जा सकता है <math> w_{t+1} = w_t - \eta \nabla v_t(w_t) </math>, जो बिल्कुल ऑनलाइन ग्रेडिएंट डिसेंट जैसा दिखता है।
-अगर {{mvar|S}} इसके अतिरिक्त  कुछ उत्तल उपसमष्टि है <math> \mathbb{R}^d </math>, {{mvar|S}} को प्रक्षेपित करने की आवश्यकता होगी, जिससे संशोधित अद्यतन नियम प्राप्त होगा
+ध्यान दें कि इसे <math> w_{t+1} = w_t - \eta \nabla v_t(w_t) </math> के रूप में फिर से लिखा जा सकता है, जो बिल्कुल ऑनलाइन ग्रेडिएंट डिसेंट जैसा दिखता है।
+यदि S इसके अतिरिक्त <math> \mathbb{R}^d </math> का कुछ उत्तल उपस्थान है, तो S को प्रक्षेपित करने की आवश्यकता होगी, जिससे संशोधित अद्यतन नियम प्राप्त होगा
 : <math> w_{t+1} = \Pi_S(- \eta \sum_{i=1}^{t} z_i) = \Pi_S(\eta \theta_{t+1}) </math>
-इस एल्गोरिदम को सदिश के रूप में आलसी प्रक्षेपण के रूप में जाना जाता है <math> \theta_{t+1} </math> ग्रेडियेंट जमा करता है। इसे नेस्टरोव के दोहरे औसत एल्गोरिथ्म के रूप में भी जाना जाता है। रैखिक हानि कार्यों और द्विघात नियमितीकरण के इस परिदृश्य में, अफसोस की सीमा है <math> O(\sqrt{T}) </math>, और इस प्रकार औसत पछतावा होता है {{mvar|0}} जैसी इच्छा थी।
+इस एल्गोरिदम को आलसी प्रक्षेपण के रूप में जाना जाता है, क्योंकि सदिश <math> \theta_{t+1} </math> ग्रेडिएंट्स को जमा करता है। इसे नेस्टरोव के दोहरे औसत एल्गोरिथ्म के रूप में भी जाना जाता है। रैखिक हानि कार्यों और द्विघात नियमितीकरण के इस परिदृश्य में, रिग्रेट <math> O(\sqrt{T}) </math> से घिरा है, और इस प्रकार वांछित के अनुसार औसत रिग्रेट 0 हो जाता है।
 === ऑनलाइन सबग्रेडिएंट डिसेंट (ओएसडी) ===
-{{See also|Subgradient method}}
+{{See also|उपग्रेडिएंट विधि}}
-उपरोक्त रैखिक हानि कार्यों के लिए खेदजनक सिद्ध हुआ <math> v_t(w) = \langle w, z_t \rangle </math>. किसी भी उत्तल हानि फलन के लिए एल्गोरिदम को सामान्य बनाने के लिए, [[ उपग्रेडिएंट ]] <math> \partial v_t(w_t) </math> का <math> v_t </math> के रैखिक सन्निकटन के रूप में उपयोग किया जाता है <math> v_t </math> पास में <math> w_t </math>, ऑनलाइन सबग्रेडिएंट डिसेंट एल्गोरिदम की ओर अग्रसर:
+उपरोक्त रैखिक हानि फलन <math> v_t(w) = \langle w, z_t \rangle </math>के लिए खेदजनक सिद्ध हुआ। किसी भी उत्तल हानि फलन के लिए एल्गोरिदम को सामान्यीकृत करने के लिए ,<math> \partial v_t(w_t) </math>के सबग्रेडिएंट <math> v_t </math> का उपयोग <math> v_t </math> के पास <math> w_t </math> के रैखिक सन्निकटन के रूप में किया जाता है, जिससे ऑनलाइन सबग्रेडिएंट डिसेंट एल्गोरिदम बनता है:
 प्रारंभिक पैरामीटर <math> \eta, w_1 = 0 </math>
-के लिए <math> t = 1,2,...,T </math>
-* प्रयोग करके भविष्यवाणी करें <math> w_t </math>, पाना <math>f_t</math> प्रकृति से.
-* चुनना <math>z_t \in  \partial v_t(w_t)</math> * अगर <math> S = \mathbb{R}^d </math>, के रूप में अद्यतन करें <math> w_{t+1} = w_t - \eta z_t</math>
-* अगर <math> S \subset \mathbb{R}^d </math>, संचयी ग्रेडिएंट्स को प्रोजेक्ट करें <math> S </math> अर्थात। <math> w_{t+1} = \Pi_S(\eta\theta_{t+1}) , \theta_{t+1} = \theta_t + z_t</math> प्राप्त करने के लिए कोई ओएसडी एल्गोरिदम का उपयोग कर सकता है <math> O(\sqrt{T}) </math> वर्गीकरण के लिए सपोर्ट सदिश मशीन|एसवीएम के ऑनलाइन वर्जन के लिए अफसोस की सीमा, जो [[काज हानि]] का उपयोग करती है<math> v_t(w) = \max \{ 0, 1 - y_t(w \cdot x_t) \} </math>
+<math> t = 1,2,...,T </math> के लिए
+*<math> w_t </math> का उपयोग करके पूर्वानुमान करें, प्रकृति से <math>f_t</math> प्राप्त करें।
+* चुनना <math>z_t \in  \partial v_t(w_t)</math>
+*यदि <math> S = \mathbb{R}^d </math>, के रूप में <math> w_{t+1} = w_t - \eta z_t</math> अद्यतन करें
+*यदि <math> S = \mathbb{R}^d </math>, तो संचयी ग्रेडिएंट्स को <math> S </math> अथार्त <math> w_{t+1} = \Pi_S(\eta\theta_{t+1}) , \theta_{t+1} = \theta_t + z_t</math> पर प्रोजेक्ट करें।
+वर्गीकरण के लिए एसवीएम के ऑनलाइन वर्जन के लिए <math> O(\sqrt{T}) </math> अफसोस सीमा प्राप्त करने के लिए कोई ओएसडी एल्गोरिथ्म का उपयोग कर सकता है, जो हिंज लॉस <math> v_t(w) = \max \{ 0, 1 - y_t(w \cdot x_t) \} </math> का उपयोग करता है।
 === अन्य एल्गोरिदम ===
-जैसा कि ऊपर वर्णित है, द्विघात रूप से नियमित किए गए एफटीआरएल एल्गोरिदम आलसी प्रक्षेपित ग्रेडिएंट एल्गोरिदम की ओर ले जाते हैं। मनमाने ढंग से उत्तल कार्यों और नियमितकर्ताओं के लिए उपरोक्त का उपयोग करने के लिए, कोई [[ऑनलाइन दर्पण वंश]] का उपयोग करता है। रैखिक हानि कार्यों के लिए पश्चदृष्टि में इष्टतम नियमितीकरण प्राप्त किया जा सकता है, यह [[AdaGrad]] एल्गोरिथ्म की ओर ले जाता है।
+जैसा कि ऊपर वर्णित है, द्विघात रूप से नियमित किए गए एफटीआरएल एल्गोरिदम आलसी प्रक्षेपित ग्रेडिएंट एल्गोरिदम की ओर ले जाते हैं। इच्छित रूप से उत्तल कार्यों और नियमितकर्ताओं के लिए उपरोक्त का उपयोग करने के लिए, कोई ऑनलाइन मिरर डीसेंट का उपयोग करता है। रैखिक हानि कार्यों के लिए पश्चदृष्टि में इष्टतम नियमितीकरण प्राप्त किया जा सकता है, यह एडाग्रैड एल्गोरिथ्म की ओर ले जाता है। यूक्लिडियन नियमितीकरण के लिए, कोई व्यक्ति <math> O(\sqrt{T}) </math> की रिग्रेट सीमा दिखा सकता है, जिसे दृढ़ता से उत्तल और एक्सप-अवतल हानि कार्यों के लिए <math> O(\log T) </math> तक और उत्तम बनाया जा सकता है।
-यूक्लिडियन नियमितीकरण के लिए, कोई भी पछतावा दिखा सकता है <math> O(\sqrt{T}) </math>, जिसे और उत्तम बनाया जा सकता है <math> O(\log T) </math> दृढ़ता से उत्तल और क्स्प-अवतल हानि कार्यों के लिए।
 ==[[निरंतर सीखना]]==
-निरंतर सीखने का अर्थ है निरंतर प्रसंस्करण करके सीखे गए मॉडल में लगातार सुधार करना
+निरंतर सीखने का अर्थ है निरंतर प्रसंस्करण करके सीखे गए मॉडल में निरंतर सुधार करना है जिसमे सूचना की धाराएँ.<ref>{{Cite journal|last=Parisi|first=German I.|last2=Kemker|first2=Ronald|last3=Part|first3=Jose L.|last4=Kanan|first4=Christopher|last5=Wermter|first5=Stefan|date=2019|title=Continual lifelong learning with neural networks: A review|url=http://dx.doi.org/10.1016/j.neunet.2019.01.012|journal=Neural Networks|volume=113|pages=54–71|doi=10.1016/j.neunet.2019.01.012|issn=0893-6080|arxiv=1802.07569}}</ref> निरंतर बदलती वास्तविक विश्व में परस्पर क्रिया करने वाले सॉफ़्टवेयर सिस्टम और स्वायत्त एजेंटों के लिए निरंतर सीखने की क्षमताएं आवश्यक हैं। चूँकि, गैर-स्थिर डेटा वितरण से वृद्धिशील रूप से उपलब्ध जानकारी के निरंतर अधिग्रहण के बाद से निरंतर सीखना मशीन लर्निंग और तंत्रिका नेटवर्क मॉडल के लिए एक चुनौती है।
-सूचना की धाराएँ.<ref>{{Cite journal|last=Parisi|first=German I.|last2=Kemker|first2=Ronald|last3=Part|first3=Jose L.|last4=Kanan|first4=Christopher|last5=Wermter|first5=Stefan|date=2019|title=Continual lifelong learning with neural networks: A review|url=http://dx.doi.org/10.1016/j.neunet.2019.01.012|journal=Neural Networks|volume=113|pages=54–71|doi=10.1016/j.neunet.2019.01.012|issn=0893-6080|arxiv=1802.07569}}</ref>
+समान्यत: कैटास्ट्रोफिक फोर्गेत्टिंग की ओर ले जाता है।
-लगातार बदलती वास्तविक दुनिया में बातचीत करने वाले सॉफ़्टवेयर सिस्टम और स्वायत्त एजेंटों के लिए निरंतर सीखने की क्षमताएं आवश्यक हैं।
-चूँकि , गैर-स्थिर डेटा वितरण से वृद्धिशील रूप से उपलब्ध जानकारी के निरंतर अधिग्रहण के बाद से निरंतर सीखना मशीन लर्निंग और तंत्रिका नेटवर्क मॉडल के लिए एक चुनौती है।
-आम तौर पर भयावह भूल की ओर ले जाता है।
 == ऑनलाइन शिक्षण की व्याख्या ==
-ऑनलाइन शिक्षण के प्रतिमान की शिक्षण मॉडल की पसंद के आधार पर अलग-अलग व्याख्याएं हैं, जिनमें से प्रत्येक के कार्यों के अनुक्रम की पूर्वानुमानित गुणवत्ता के बारे में अलग-अलग निहितार्थ हैं। <math>f_1, f_2, \ldots, f_n</math>. इस चर्चा के लिए प्रोटोटाइपिकल स्टोचैस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग किया जाता है। जैसा कि ऊपर उल्लेख किया गया है, इसकी पुनरावृत्ति द्वारा दी गई है
+ऑनलाइन शिक्षण के प्रतिमान की शिक्षण मॉडल की इच्छा के आधार पर अलग-अलग व्याख्याएं हैं, जिनमें से प्रत्येक के कार्यों के अनुक्रम की पूर्वानुमानित गुणवत्ता के बारे में अलग-अलग निहितार्थ हैं। इस <math>f_1, f_2, \ldots, f_n</math> विचार के लिए प्रोटोटाइपिकल स्टोचैस्टिक ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग किया जाता है। जैसा कि ऊपर उल्लेख किया गया है, इसकी पुनरावृत्ति द्वारा दी गई है
 : <math> \textstyle w_t = w_{t-1} - \gamma_t \nabla V(\langle w_{t-1}, x_t \rangle, y_t)</math>
-पहली व्याख्या अपेक्षित  आपत्तिपूर्ण  को कम करने की समस्या के लिए प्रयुक्त  स्टोकेस्टिक ग्रेडिएंट डिसेंट पद्धति पर विचार करती है <math>I[w]</math> ऊपर परिभाषित.<ref>{{Cite book
+पहली व्याख्या स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि पर विचार करती है जैसा कि ऊपर परिभाषित अपेक्षित आपत्तिपूर्ण <math>I[w]</math> को कम करने की समस्या पर प्रयुक्त होता है।<ref>{{Cite book
       |last=Bottou
       |first=Léon
@@ Line 151: / Line 153: @@
       |isbn=978-0-521-65263-6
       |url-access=registration
-      }}</ref> दरअसल, डेटा की अनंत धारा के स्थिति में, उदाहरणों के बाद से <math>(x_1, y_1), (x_2, y_2), \ldots </math> माना जाता है कि i.i.d खींचा गया है वितरण से <math>p(x,y)</math>, के ग्रेडियेंट का क्रम <math>V(\cdot, \cdot)</math> उपरोक्त पुनरावृत्ति में एक आई.आई.डी. है अपेक्षित  आपत्तिपूर्ण  की प्रवणता के स्टोकेस्टिक अनुमान का नमूना <math>I[w]</math> और इसलिए कोई विचलन को सीमित करने के लिए स्टोकेस्टिक ग्रेडिएंट डीसेंट विधि के लिए सम्मिश्र्ता  परिणाम प्रयुक्त  कर सकता है <math>I[w_t] - I[w^\ast]</math>, जहाँ  <math>w^\ast</math> का मिनिमाइज़र है <math>I[w]</math>.<ref name="kushneryin">''Stochastic Approximation Algorithms and Applications'', Harold J. Kushner and G. George Yin, New York: Springer-Verlag, 1997.  {{ISBN|0-387-94916-X}}; 2nd ed., titled ''Stochastic Approximation and Recursive Algorithms and Applications'', 2003, {{ISBN|0-387-00894-2}}.</ref> यह व्याख्या एक सीमित प्रशिक्षण सेट के स्थिति में भी मान्य है; चूँकि  डेटा के माध्यम से एकाधिक पास के साथ ग्रेडिएंट अब स्वतंत्र नहीं हैं, फिर भी विशेष मामलों में सम्मिश्र्ता  परिणाम प्राप्त किए जा सकते हैं।
+      }}</ref> इसलिए , डेटा की अनंत धारा के स्थिति में, चूंकि उदाहरण <math>(x_1, y_1), (x_2, y_2), \ldots </math> को आई.आई.डी. द्वारा खींचा गया माना जाता है। वितरण <math>p(x,y)</math> से, उपरोक्त पुनरावृत्ति में <math>V(\cdot, \cdot)</math> के ग्रेडिएंट का क्रम एक i.i.d है। अपेक्षित आपत्तिपूर्ण <math>I[w]</math> के ग्रेडिएंट के स्टोकेस्टिक अनुमानों का नमूना और इसलिए कोई विचलन <math>I[w_t] - I[w^\ast]</math> को सीमित करने के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि के लिए सम्मिश्रता परिणाम प्रयुक्त कर सकता है, जहां <math>w^\ast</math> <math>I[w]</math> का न्यूनतम है।<ref name="kushneryin">''Stochastic Approximation Algorithms and Applications'', Harold J. Kushner and G. George Yin, New York: Springer-Verlag, 1997.  {{ISBN|0-387-94916-X}}; 2nd ed., titled ''Stochastic Approximation and Recursive Algorithms and Applications'', 2003, {{ISBN|0-387-00894-2}}.</ref> यह व्याख्या एक सीमित प्रशिक्षण सेट के स्थिति में भी मान्य है; चूँकि डेटा के माध्यम से एकाधिक पास के साथ ग्रेडिएंट अब स्वतंत्र नहीं हैं, फिर भी विशेष स्थितियों  में सम्मिश्रता परिणाम प्राप्त किए जा सकते हैं।
-दूसरी व्याख्या एक परिमित प्रशिक्षण सेट के स्थिति पर प्रयुक्त  होती है और एसजीडी एल्गोरिदम को वृद्धिशील ग्रेडिएंट डीसेंट विधि का एक उदाहरण मानती है।<ref name="bertsekas" />इस स्थिति में, कोई इसके अतिरिक्त  अनुभवजन्य  आपत्तिपूर्ण  को देखता है:
+दूसरी व्याख्या एक परिमित प्रशिक्षण समुच्चय के स्थिति पर प्रयुक्त  होती है और एसजीडी एल्गोरिदम को वृद्धिशील ग्रेडिएंट डीसेंट विधि का एक उदाहरण मानती है।<ref name="bertsekas" /> इस स्थिति में, कोई इसके अतिरिक्त  अनुभवजन्य  आपत्तिपूर्ण  को देखता है:
 : <math>I_n[w] = \frac{1}{n}\sum_{i = 1}^nV(\langle w,x_i \rangle, y_i) \ .</math>
-के ढ़ाल के बाद से <math>V(\cdot, \cdot)</math> वृद्धिशील ग्रेडिएंट डिसेंट पुनरावृत्तियों में ग्रेडिएंट का स्टोकेस्टिक अनुमान भी होता है <math>I_n[w]</math>, यह व्याख्या स्टोकेस्टिक ग्रेडिएंट डिसेंट पद्धति से भी संबंधित है, किंतु अपेक्षित  आपत्तिपूर्ण  के विपरीत अनुभवजन्य  आपत्तिपूर्ण  को कम करने के लिए प्रयुक्त  की जाती है। चूंकि यह व्याख्या अनुभवजन्य  आपत्तिपूर्ण  की चिंता करती है न कि अपेक्षित  आपत्तिपूर्ण  की, इसलिए डेटा के माध्यम से अनेक बार गुजरने की आसानी से अनुमति दी जाती है और वास्तव में विचलन पर कड़ी सीमाएं लगती हैं। <math>I_n[w_t] - I_n[w^\ast_n]</math>, जहाँ  <math>w^\ast_n</math> का मिनिमाइज़र है <math>I_n[w]</math>.
+चूँकि वृद्धिशील ग्रेडिएंट डिसेंट पुनरावृत्तियों में <math>V(\cdot, \cdot)</math> के ग्रेडिएंट भी <math>I_n[w]</math> के ग्रेडिएंट के स्टोकेस्टिक अनुमान हैं, यह व्याख्या स्टोकेस्टिक ग्रेडिएंट डिसेंट विधि से भी संबंधित है, किंतु  इसे न्यूनतम करने के लिए प्रयुक्त किया जाता है अपेक्षित आपत्तिपूर्ण के विपरीत अनुभवजन्य आपत्तिपूर्ण है । चूंकि यह व्याख्या अनुभवजन्य आपत्तिपूर्ण की चिंता करती है जिसमे न कि अपेक्षित आपत्तिपूर्ण की, इसलिए डेटा के माध्यम से कई बार गुजरने की सरलता से अनुमति दी जाती है और वास्तव में विचलन <math>I_n[w_t] - I_n[w^\ast_n]</math> पर कड़ी सीमाएं प्रयुक्त होती हैं। , जहां <math>w^\ast_n</math>  , <math>I_n[w]</math>का न्यूनतम है।
 == कार्यान्वयन ==
-* [[वोवपल वैबिट]]: ओपन-सोर्स फास्ट आउट-ऑफ-कोर ऑनलाइन लर्निंग सिस्टम जो अनेक मशीन लर्निंग कटौती, महत्व भार और विभिन्न हानि कार्यों और अनुकूलन एल्गोरिदम के चयन का समर्थन करने के लिए उल्लेखनीय है। यह प्रशिक्षण डेटा की मात्रा से स्वतंत्र सुविधाओं के सेट के आकार को सीमित करने के लिए [[फ़ीचर हैशिंग]] का उपयोग करता है।
+* [[वोवपल वैबिट]]: ओपन-सोर्स फास्ट आउट-ऑफ-कोर ऑनलाइन लर्निंग सिस्टम जो अनेक मशीन लर्निंग रिडक्शन , महत्व भार और विभिन्न हानि कार्यों और अनुकूलन एल्गोरिदम के चयन का समर्थन करने के लिए उल्लेखनीय है। यह प्रशिक्षण डेटा की मात्रा से स्वतंत्र सुविधाओं के समुच्चय के आकार को सीमित करने के लिए [[फ़ीचर हैशिंग]] का उपयोग करता है।
 * [[स्किकिट-लर्न]]: एल्गोरिदम के आउट-ऑफ-कोर कार्यान्वयन प्रदान करता है
 ** वर्गीकरण: [[परसेप्ट्रॉन]], स्टोकेस्टिक ग्रेडिएंट डिसेंट, [[नाइव बेयस क्लासिफायरियर]]
 ** प्रतिगमन: एसजीडी प्रतिगामी, निष्क्रिय आक्रामक प्रतिगामी।
-** क्लस्टरिंग: [[ K- का अर्थ है क्लस्टरिंग ]]|मिनी-बैच के-मीन्स।
+** क्लस्टरिंग: [[ K- का अर्थ है क्लस्टरिंग | '''K- का अर्थ है क्लस्टरिंग''']] '''|'''मिनी-बैच के-मीन्स।
-** फ़ीचर निष्कर्षण: [[शब्दकोश सीखना]] | मिनी-बैच शब्दकोश सीखना, प्रमुख घटक विश्लेषण।
+** फ़ीचर निष्कर्षण: '''[[शब्दकोश सीखना]] |''' मिनी-बैच शब्दकोश सीखना, प्रमुख घटक विश्लेषण।
 ==यह भी देखें==
@@ Line 169: / Line 171: @@
 सीखने के प्रतिमान
 * वृद्धिशील शिक्षा
-* [[आलसी सीखना]]
+* लेजी लर्निंग
 * ऑफ़लाइन शिक्षण, विपरीत मॉडल
 * [[सुदृढीकरण सीखना]]
-* [[बहु-सशस्त्र डाकू]]
+* [[बहु-सशस्त्र डाकू|बहु-सशस्त्र बैंडिट]]
 * पर्यवेक्षित अध्ययन
@@ Line 183: / Line 185: @@
 सीखने के मॉडल
 * [[अनुकूली अनुनाद सिद्धांत]]
-* [[पदानुक्रमित लौकिक स्मृति]]
+* [[पदानुक्रमित लौकिक स्मृति|पदानुक्रमित लौकिक मेमोरी]]
-* [[k-निकटतम पड़ोसी एल्गोरिथ्म]]
+* [[k-निकटतम पड़ोसी एल्गोरिथ्म|k-निकटतम समीप एल्गोरिथ्म]]
 * [[वेक्टर परिमाणीकरण सीखना|सदिश परिमाणीकरण सीखना]]
 * परसेप्ट्रॉन

Anonymous

Search

ऑनलाइन मशीन लर्निंग: Difference between revisions

Namespaces

More

Page actions

Revision as of 17:17, 6 August 2023

Contents

परिचय

ऑनलाइन शिक्षण का सांख्यिकीय दृष्टिकोण

उदाहरण: रैखिक न्यूनतम वर्ग

बैच लर्निंग

ऑनलाइन शिक्षण: पुनरावर्ती न्यूनतम वर्ग

स्टोकेस्टिक ग्रेडिएंट डिसेंट

वृद्धिशील स्टोकेस्टिक ग्रेडिएंट डिसेंट

कर्नेल विधियाँ

ऑनलाइन उत्तल अनुकूलन

लीडर का अनुसरण करें (एफटीएल)

नियमित लीडर का अनुसरण करें (एफटीआरएल)

ऑनलाइन सबग्रेडिएंट डिसेंट (ओएसडी)

अन्य एल्गोरिदम

निरंतर सीखना

ऑनलाइन शिक्षण की व्याख्या

कार्यान्वयन

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

ऑनलाइन मशीन लर्निंग: Difference between revisions

Revision as of 17:17, 6 August 2023

परिचय

ऑनलाइन शिक्षण का सांख्यिकीय दृष्टिकोण

उदाहरण: रैखिक न्यूनतम वर्ग

बैच लर्निंग

ऑनलाइन शिक्षण: पुनरावर्ती न्यूनतम वर्ग

स्टोकेस्टिक ग्रेडिएंट डिसेंट

वृद्धिशील स्टोकेस्टिक ग्रेडिएंट डिसेंट

कर्नेल विधियाँ

ऑनलाइन उत्तल अनुकूलन

लीडर का अनुसरण करें (एफटीएल)

नियमित लीडर का अनुसरण करें (एफटीआरएल)

ऑनलाइन सबग्रेडिएंट डिसेंट (ओएसडी)

अन्य एल्गोरिदम

निरंतर सीखना

ऑनलाइन शिक्षण की व्याख्या

कार्यान्वयन

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories