रीइंफोर्समेंट लर्निंग: Difference between revisions
No edit summary |
m (Abhishekkshukla moved page सुदृढीकरण सीखना to रीइंफोर्समेंट लर्निंग without leaving a redirect) |
||
(9 intermediate revisions by 5 users not shown) | |||
Line 1: | Line 1: | ||
{{Short description|Field of machine learning}} | {{Short description|Field of machine learning}} | ||
रीइंफोर्समेंट लर्निंग (आरएल) मशीन लर्निंग का एक क्षेत्र है जो इस बात से संबंधित है कि बुद्धिमान एजेंटों को संचयी इनाम की धारणा को अधिकतम करने के लिए पर्यावरण में कार्रवाई कैसे करनी चाहिए। रीइन्फोर्समेंट लर्निंग सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग के साथ-साथ तीन मूलभूत मशीन लर्निंग प्रतिमानों में से एक है। | |||
'''रीइंफोर्समेंट लर्निंग (आरएल)''' मशीन लर्निंग का एक क्षेत्र है जो इस बात से संबंधित है कि बुद्धिमान एजेंटों को संचयी इनाम की धारणा को अधिकतम करने के लिए पर्यावरण में कार्रवाई कैसे करनी चाहिए। रीइन्फोर्समेंट लर्निंग सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग के साथ-साथ तीन मूलभूत मशीन लर्निंग प्रतिमानों में से एक है। | |||
सुदृढीकरण सीखना पर्यवेक्षित शिक्षण से भिन्न होता है जिसमें लेबल किए गए इनपुट/आउटपुट जोड़े प्रस्तुत करने की आवश्यकता नहीं होती है और उप-इष्टतम क्रियाओं को स्पष्ट रूप से ठीक करने की आवश्यकता नहीं होती है। इसके अतिरिक्त ध्यान अन्वेषण (अज्ञात क्षेत्र का) और शोषण (वर्तमान ज्ञान का) के बीच संतुलन खोजने पर है।<ref name="kaelbling">{{cite journal|last1=Kaelbling|first1=Leslie P.|last2=Littman|first2=Michael L.|author-link2=Michael L. Littman|last3=Moore|first3=Andrew W.|author-link3=Andrew W. Moore|year=1996|title=Reinforcement Learning: A Survey|url=http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html|url-status=dead|journal=Journal of Artificial Intelligence Research|volume=4|pages=237–285|doi=10.1613/jair.301|archive-url=http://webarchive.loc.gov/all/20011120234539/http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html|archive-date=2001-11-20 |author-link1=Leslie P. Kaelbling|arxiv=cs/9605103|s2cid=1708582}}</ref> | सुदृढीकरण सीखना पर्यवेक्षित शिक्षण से भिन्न होता है जिसमें लेबल किए गए इनपुट/आउटपुट जोड़े प्रस्तुत करने की आवश्यकता नहीं होती है और उप-इष्टतम क्रियाओं को स्पष्ट रूप से ठीक करने की आवश्यकता नहीं होती है। इसके अतिरिक्त ध्यान अन्वेषण (अज्ञात क्षेत्र का) और शोषण (वर्तमान ज्ञान का) के बीच संतुलन खोजने पर है।<ref name="kaelbling">{{cite journal|last1=Kaelbling|first1=Leslie P.|last2=Littman|first2=Michael L.|author-link2=Michael L. Littman|last3=Moore|first3=Andrew W.|author-link3=Andrew W. Moore|year=1996|title=Reinforcement Learning: A Survey|url=http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html|url-status=dead|journal=Journal of Artificial Intelligence Research|volume=4|pages=237–285|doi=10.1613/jair.301|archive-url=http://webarchive.loc.gov/all/20011120234539/http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html|archive-date=2001-11-20 |author-link1=Leslie P. Kaelbling|arxiv=cs/9605103|s2cid=1708582}}</ref> | ||
पर्यावरण को सामान्यतः [[मार्कोव निर्णय प्रक्रिया]] (एमडीपी) के रूप में कहा जाता है, क्योंकि इस संदर्भ के लिए कई सुदृढीकरण सीखने वाले एल्गोरिदम | पर्यावरण को सामान्यतः [[मार्कोव निर्णय प्रक्रिया]] (एमडीपी) के रूप में कहा जाता है, क्योंकि इस संदर्भ के लिए कई सुदृढीकरण सीखने वाले एल्गोरिदम डायनामिक प्रोग्रामिंग विधियों का उपयोग करते हैं।<ref>{{Cite book|title=सुदृढीकरण सीखने और मार्कोव निर्णय प्रक्रिया|author1=van Otterlo, M.|author2=Wiering, M.|journal=Reinforcement Learning |volume=12|pages=3–42 |year=2012 |doi=10.1007/978-3-642-27645-3_1|series=Adaptation, Learning, and Optimization|isbn=978-3-642-27644-6}}</ref> मौलिक डायनामिक प्रोग्रामिंग विधियों और सुदृढीकरण सीखने के एल्गोरिदम के बीच मुख्य अंतर यह है कि बाद वाले एमडीपी के एक स्पष्ट गणितीय मॉडल के ज्ञान को नहीं मानते हैं और वे बड़े एमडीपी को लक्षित करते हैं जहां स्पष्ट विधि अव्यवहारिक हो जाते हैं।{{toclimit|3}} | ||
== परिचय == | == परिचय == | ||
इसकी व्यापकता के कारण [[ खेल सिद्धांत ]] कंट्रोल सिद्धांत [[ गतिविधि अनुसंधान ]] | इसकी व्यापकता के कारण [[ खेल सिद्धांत |खेल सिद्धांत]] कंट्रोल सिद्धांत [[गतिविधि अनुसंधान]] सूचना सिद्धांत अनुकरण आधारित अनुकूलन बहु एजेंट प्रणाली और [[ आंकड़े |आंकड़े]] जैसे कई विषयों में रीइन्फोर्समेंट लर्निंग का अध्ययन किया जाता है। संचालन अनुसंधान और नियंत्रण साहित्य में सुदृढीकरण सीखने को अनुमानित डायनामिक प्रोग्रामिंग या न्यूरो-डायनामिक प्रोग्रामिंग कहा जाता है। सुदृढीकरण सीखने में रुचि की समस्याओं का इष्टतम [[नियंत्रण सिद्धांत]] में भी अध्ययन किया गया है जो अधिकत्तर इष्टतम समाधानों के अस्तित्व और लक्षण वर्णन से संबंधित है और उनकी स्पष्ट गणना के लिए एल्गोरिदम और सीखने या सन्निकटन के साथ कम विशेष रूप से अनुपस्थिति में पर्यावरण का गणितीय मॉडल [[अर्थशास्त्र]] और गेम सिद्धांत में रीइन्फोर्समेंट लर्निंग का उपयोग यह समझाने के लिए किया जा सकता है कि बाध्य तर्कसंगतता के तहत संतुलन कैसे उत्पन्न हो सकता है। | ||
मूलभूत सुदृढीकरण सीखने को मार्कोव निर्णय प्रक्रिया मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में तैयार किया गया है: | मूलभूत सुदृढीकरण सीखने को मार्कोव निर्णय प्रक्रिया मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में तैयार किया गया है: | ||
Line 25: | Line 25: | ||
एक मूलभूत सुदृढीकरण सीखने वाला एजेंट AI अपने पर्यावरण के साथ असतत समय चरणों में परस्पर क्रिया करता है। प्रत्येक समय {{mvar|t}} पर, एजेंट को वर्तमान स्थिति <math>s_t</math> और पुरस्कार <math>r_t</math> प्राप्त होता है। इसके बाद यह उपलब्ध क्रियाओं के सेट से एक क्रिया <math>a_t</math> चुनता है, जिसे बाद में पर्यावरण को भेजा जाता है। पर्यावरण एक नई अवस्था <math>s_{t+1}</math> में जाता है और संक्रमण <math>(s_t,a_t,s_{t+1})</math> से जुड़ा इनाम <math>r_{t+1}</math> निर्धारित होता है। सुदृढीकरण सीखने वाले एजेंट का लक्ष्य एक नीति सीखना है: <math>\pi: A \times S \rightarrow [0,1] </math>,<math>\pi(a,s) = \Pr(a_t = a\mid s_t =s)</math> जो अपेक्षित संचयी इनाम को अधिकतम करता है। | एक मूलभूत सुदृढीकरण सीखने वाला एजेंट AI अपने पर्यावरण के साथ असतत समय चरणों में परस्पर क्रिया करता है। प्रत्येक समय {{mvar|t}} पर, एजेंट को वर्तमान स्थिति <math>s_t</math> और पुरस्कार <math>r_t</math> प्राप्त होता है। इसके बाद यह उपलब्ध क्रियाओं के सेट से एक क्रिया <math>a_t</math> चुनता है, जिसे बाद में पर्यावरण को भेजा जाता है। पर्यावरण एक नई अवस्था <math>s_{t+1}</math> में जाता है और संक्रमण <math>(s_t,a_t,s_{t+1})</math> से जुड़ा इनाम <math>r_{t+1}</math> निर्धारित होता है। सुदृढीकरण सीखने वाले एजेंट का लक्ष्य एक नीति सीखना है: <math>\pi: A \times S \rightarrow [0,1] </math>,<math>\pi(a,s) = \Pr(a_t = a\mid s_t =s)</math> जो अपेक्षित संचयी इनाम को अधिकतम करता है। | ||
एमडीपी के रूप में समस्या का सूत्रीकरण यह मानता है कि एजेंट वर्तमान पर्यावरणीय स्थिति को सीधे देखता है इस स्थिति में कहा जाता है कि समस्या का पूर्ण अवलोकन है। यदि एजेंट के पास केवल अवस्थाओ के एक सबसेट तक पहुंच है,या यदि देखे गए अवस्था ध्वनि से दूषित हैं तो एजेंट को आंशिक अवलोकन क्षमता कहा जाता है और औपचारिक रूप से समस्या को [[आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया]] के रूप में तैयार किया जाना चाहिए। दोनों ही स्थिति में एजेंट के लिए उपलब्ध कार्रवाइयों के सेट को प्रतिबंधित किया जा सकता है. उदाहरण के लिए खाते की शेष राशि की स्थिति सकारात्मक होने के लिए प्रतिबंधित की जा सकती है; यदि अवस्था का वर्तमान मान | एमडीपी के रूप में समस्या का सूत्रीकरण यह मानता है कि एजेंट वर्तमान पर्यावरणीय स्थिति को सीधे देखता है इस स्थिति में कहा जाता है कि समस्या का पूर्ण अवलोकन है। यदि एजेंट के पास केवल अवस्थाओ के एक सबसेट तक पहुंच है,या यदि देखे गए अवस्था ध्वनि से दूषित हैं तो एजेंट को आंशिक अवलोकन क्षमता कहा जाता है और औपचारिक रूप से समस्या को [[आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया]] के रूप में तैयार किया जाना चाहिए। दोनों ही स्थिति में एजेंट के लिए उपलब्ध कार्रवाइयों के सेट को प्रतिबंधित किया जा सकता है. उदाहरण के लिए खाते की शेष राशि की स्थिति सकारात्मक होने के लिए प्रतिबंधित की जा सकती है; यदि अवस्था का वर्तमान मान 3 है और अवस्था संक्रमण मान को 4 से कम करने का प्रयास करता है, तो संक्रमण की अनुमति नहीं दी जाएगी। | ||
जब एजेंट के प्रदर्शन की तुलना एक ऐसे एजेंट से की जाती है जो उत्तम विधि से काम करता है, तो प्रदर्शन में अंतर शोक की धारणा (गेम सिद्धांत ) को जन्म देता है। उत्तम विधि से कार्य करने के लिए एजेंट को अपने कार्यों के दीर्घकालिक परिणामों (अर्थात भविष्य की आय को अधिकतम करना) के बारे में तर्क करना चाहिए, चूँकि इससे जुड़ा तत्काल इनाम नकारात्मक हो सकता है। | जब एजेंट के प्रदर्शन की तुलना एक ऐसे एजेंट से की जाती है जो उत्तम विधि से काम करता है, तो प्रदर्शन में अंतर शोक की धारणा (गेम सिद्धांत ) को जन्म देता है। उत्तम विधि से कार्य करने के लिए एजेंट को अपने कार्यों के दीर्घकालिक परिणामों (अर्थात भविष्य की आय को अधिकतम करना) के बारे में तर्क करना चाहिए, चूँकि इससे जुड़ा तत्काल इनाम नकारात्मक हो सकता है। | ||
Line 38: | Line 38: | ||
== अन्वेषण == | == अन्वेषण == | ||
बर्नेटास और कटेहाकिस (1997) में [[बहु-सशस्त्र डाकू]] समस्या और परिमित अवस्था अंतरिक्ष एमडीपी के माध्यम से अन्वेषण बनाम शोषण व्यापार-बंद का सबसे गहन अध्ययन किया गया है।<ref name="Optimal adaptive policies for Marko">{{citation | last1 = Burnetas|first1 = Apostolos N.|last2 = Katehakis|first2 = Michael N.|author-link2 = Michael N. Katehakis|year = 1997|title = Optimal adaptive policies for Markov Decision Processes|journal = Mathematics of Operations Research|volume = 22|pages = 222–255 |doi=10.1287/moor.22.1.222}}</ref> | बर्नेटास और कटेहाकिस (1997) में [[बहु-सशस्त्र डाकू|बहु-हथियारबंद दस्यु]] समस्या और परिमित अवस्था अंतरिक्ष एमडीपी के माध्यम से अन्वेषण बनाम शोषण व्यापार-बंद का सबसे गहन अध्ययन किया गया है।<ref name="Optimal adaptive policies for Marko">{{citation | last1 = Burnetas|first1 = Apostolos N.|last2 = Katehakis|first2 = Michael N.|author-link2 = Michael N. Katehakis|year = 1997|title = Optimal adaptive policies for Markov Decision Processes|journal = Mathematics of Operations Research|volume = 22|pages = 222–255 |doi=10.1287/moor.22.1.222}}</ref> | ||
सुदृढीकरण सीखने के लिए चतुर अन्वेषण तंत्र की आवश्यकता होती है; अनुमानित संभाव्यता वितरण के संदर्भ के बिना व्यवस्थित | सुदृढीकरण सीखने के लिए चतुर अन्वेषण तंत्र की आवश्यकता होती है; अनुमानित संभाव्यता वितरण के संदर्भ के बिना व्यवस्थित विधि से क्रियाओं का चयन करना खराब प्रदर्शन दर्शाता है। (छोटे) परिमित एमडीपी का स्थति अपेक्षाकृत अच्छी तरह से समझा गया है। चूँकि एल्गोरिदम की कमी के कारण जो अवस्थाओ की संख्या (या अनंत अवस्था रिक्त स्थान के साथ समस्याओं के मापदंड) के साथ अच्छी तरह से स्केल करते हैं सरल अन्वेषण विधियां सबसे व्यावहारिक हैं। | ||
ऐसा ही एक विधि है <math>\varepsilon</math>-ग्रीडी | ऐसा ही एक विधि है <math>\varepsilon</math>-ग्रीडी जहां <math>0 < \varepsilon < 1</math> एक पैरामीटर है जो अन्वेषण बनाम शोषण की मात्रा को नियंत्रित करता है। प्रायिकता <math>1-\varepsilon</math> के साथ शोषण का चयन किया जाता है, और एजेंट उस क्रिया को चुनता है जिसके बारे में उसका मानना है कि इसका सबसे अच्छा दीर्घकालिक प्रभाव होता है (कार्रवाई के बीच संबंध यादृच्छिक रूप से समान रूप से टूट जाते हैं)। वैकल्पिक रूप से प्रायिकता <math>\varepsilon</math> के साथ अन्वेषण को चुना जाता है और क्रिया को यादृच्छिक रूप से समान रूप से चुना जाता है। <math>\varepsilon</math> सामान्यतः एक निश्चित पैरामीटर होता है, किन्तु या तो एक शेड्यूल के अनुसार समायोजित किया जा सकता है (एजेंट को उत्तरोत्तर कम खोजता है) या अनुकूली रूप से ह्यूरिस्टिक्स पर आधारित होता है। | ||
== नियंत्रण सीखने के लिए एल्गोरिदम == | == नियंत्रण सीखने के लिए एल्गोरिदम == | ||
यहां तक कि यदि अन्वेषण के उद्देश्य की अवहेलना की जाती है और यहां तक कि यदि अवस्था अवलोकनीय था (इसके बाद माना जाता है) समस्या यह पता लगाने के लिए पिछले अनुभव का उपयोग करने के लिए बनी हुई है कि कौन से कार्य उच्च संचयी पुरस्कारों की ओर ले जाते हैं। | यहां तक कि यदि अन्वेषण के उद्देश्य की अवहेलना की जाती है और यहां तक कि यदि अवस्था अवलोकनीय था (इसके बाद माना जाता है) समस्या यह पता लगाने के लिए पिछले अनुभव का उपयोग करने के लिए बनी हुई है कि कौन से कार्य उच्च संचयी पुरस्कारों की ओर ले जाते हैं। | ||
Line 54: | Line 54: | ||
नीति मानचित्र <math>a</math> जब स्थिति में कार्रवाई करने की संभावना देता है। <math>s</math>.<ref name=":0">{{Cite web|url=http://people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf|title=Reinforcement learning: An introduction}}</ref>{{Rp|61}} नियतात्मक नीतियां भी हैं। | नीति मानचित्र <math>a</math> जब स्थिति में कार्रवाई करने की संभावना देता है। <math>s</math>.<ref name=":0">{{Cite web|url=http://people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf|title=Reinforcement learning: An introduction}}</ref>{{Rp|61}} नियतात्मक नीतियां भी हैं। | ||
==== '''अवस्था''' -मान | ==== '''अवस्था''' -मान कार्य ==== | ||
मान | मान कार्य <math>V_\pi(s)</math> के रूप में परिभाषित किया गया है अवस्था से प्रारंभ होने वाली अपेक्षित वापसी <math>s</math>, अर्थात <math>s_0 = s</math>, और क्रमिक रूप से नीति का पालन करना <math>\pi</math>. इसलिए, मोटे तौर पर बोलते हुए, मान कार्य का अनुमान है कि यह किसी दिए गए अवस्था में कितना अच्छा है।<ref name=":0" />{{Rp|60}} | ||
:<math>V_\pi(s) = \operatorname E[R\mid s_0 = s] = \operatorname E\left[\sum_{t=0}^\infty \gamma^t r_t\mid s_0 = s\right],</math> | :<math>V_\pi(s) = \operatorname E[R\mid s_0 = s] = \operatorname E\left[\sum_{t=0}^\infty \gamma^t r_t\mid s_0 = s\right],</math> | ||
Line 63: | Line 61: | ||
:<math>R=\sum_{t=0}^\infty \gamma^t r_t,</math> | :<math>R=\sum_{t=0}^\infty \gamma^t r_t,</math> | ||
जहां <math>r_t</math> चरण <math>t</math> पर पुरस्कार है <math>\gamma \in [0,1) </math> छूट-दर है। गामा 1 से कम है इसलिए दूर के भविष्य की घटनाओं को तत्काल भविष्य की घटनाओं से कम भारित किया जाता है। | |||
एल्गोरिद्म को अधिकतम प्रत्याशित प्रतिफल वाली नीति खोजनी चाहिए। एमडीपी के सिद्धांत से यह ज्ञात होता है कि सामान्यता के | एल्गोरिद्म को अधिकतम प्रत्याशित प्रतिफल वाली नीति खोजनी चाहिए। एमडीपी के सिद्धांत से यह ज्ञात होता है कि सामान्यता के हानि के बिना खोज को तथाकथित स्थिर नीतियों के सेट तक सीमित किया जा सकता है। एक नीति स्थिर होती है यदि उसके द्वारा लौटाया गया क्रिया-वितरण केवल अंतिम सीमा पर निर्भर करता है (अवलोकन एजेंट के इतिहास से)। खोज को नियतात्मक स्थिर नीतियों तक सीमित किया जा सकता है। एक नियतात्मक स्थिर नीति निश्चित रूप से वर्तमान स्थिति के आधार पर क्रियाओं का चयन करती है। चूंकि इस तरह की किसी भी नीति को अवस्थाओ के सेट से लेकर कार्रवाई के सेट तक मैपिंग के साथ पहचाना जा सकता है, इसलिए इन नीतियों की पहचान ऐसे मैपिंग से की जा सकती है, जिसमें व्यापकता का कोई हानि नहीं है। | ||
=== क्रूर बल === | === क्रूर बल === | ||
[[ क्रूर-बल खोज ]] एप्रोच में दो चरण होते हैं: | [[ क्रूर-बल खोज | क्रूर-बल खोज]] एप्रोच में दो चरण होते हैं: | ||
* प्रत्येक संभावित नीति के लिए, इसका पालन करते हुए नमूना रिटर्न | * प्रत्येक संभावित नीति के लिए, इसका पालन करते हुए नमूना रिटर्न | ||
* अधिकतम प्रत्याशित रिटर्न वाली पॉलिसी चुनें | * अधिकतम प्रत्याशित रिटर्न वाली पॉलिसी चुनें | ||
Line 74: | Line 72: | ||
इसके साथ एक समस्या यह है कि नीतियों की संख्या बड़ी या अनंत भी हो सकती है। दूसरा यह है कि रिटर्न का अंतर बड़ा हो सकता है, जिसके लिए प्रत्येक पॉलिसी की वापसी का स्पष्ट अनुमान लगाने के लिए कई नमूनों की आवश्यकता होती है। | इसके साथ एक समस्या यह है कि नीतियों की संख्या बड़ी या अनंत भी हो सकती है। दूसरा यह है कि रिटर्न का अंतर बड़ा हो सकता है, जिसके लिए प्रत्येक पॉलिसी की वापसी का स्पष्ट अनुमान लगाने के लिए कई नमूनों की आवश्यकता होती है। | ||
इन समस्याओं में सुधार किया जा सकता है यदि हम कुछ संरचना मान लें और एक नीति से उत्पन्न नमूनों को दूसरों के लिए किए गए अनुमानों को प्रभावित करने की अनुमति दें। इसे प्राप्त करने के लिए दो मुख्य दृष्टिकोण | इन समस्याओं में सुधार किया जा सकता है यदि हम कुछ संरचना मान लें और एक नीति से उत्पन्न नमूनों को दूसरों के लिए किए गए अनुमानों को प्रभावित करने की अनुमति दें। इसे प्राप्त करने के लिए दो मुख्य दृष्टिकोण मूल्य प्रकार्य अनुमान और प्रत्यक्ष नीति खोज हैं। | ||
=== मान | === मान कार्य === | ||
{{see also|मूल्य कार्य }} | {{see also|मूल्य कार्य}} | ||
मान कार्य दृष्टिकोण ऐसी नीति खोजने का प्रयास करता है जो कुछ नीति के लिए अपेक्षित रिटर्न के अनुमानों के एक सेट को बनाए रखते हुए रिटर्न को अधिकतम करता है (सामान्यतः या तो वर्तमान [ऑन-पॉलिसी] या इष्टतम [ऑफ-पॉलिसी] एक)। | |||
ये विधियाँ मार्कोव निर्णय प्रक्रियाओं के सिद्धांत पर निर्भर करती हैं, जहाँ इष्टतमता को एक अर्थ में परिभाषित किया गया है जो ऊपर वाले से अधिक | ये विधियाँ मार्कोव निर्णय प्रक्रियाओं के सिद्धांत पर निर्भर करती हैं, जहाँ इष्टतमता को एक अर्थ में परिभाषित किया गया है जो ऊपर वाले से अधिक शक्तिशाली है: एक नीति को इष्टतम कहा जाता है यदि यह किसी भी प्रारंभिक अवस्था से सर्वोत्तम-प्रत्याशित प्रतिफल प्राप्त करती है (अर्थात, प्रारंभिक वितरण नहीं खेलते हैं) इस परिभाषा में भूमिका) फिर से स्थिर नीतियों के बीच एक इष्टतम नीति सदैव पाई जा सकती है। | ||
इष्टतमता को औपचारिक विधि से परिभाषित करने के लिए, नीति | इष्टतमता को औपचारिक विधि से परिभाषित करने के लिए, नीति <math>\pi</math> के मान को परिभाषित करें | ||
:<math> V^{\pi} (s) = E[R\mid s,\pi],</math> | :<math> V^{\pi} (s) = E[R\mid s,\pi],</math> | ||
जहाँ <math>R</math> निम्नलिखित से जुड़े रिटर्न के लिए खड़ा है <math>\pi</math> प्रारंभिक अवस्था से <math>s</math>. परिभाषित <math>V^*(s)</math> के अधिकतम संभव मान के रूप में <math>V^\pi(s)</math>, जहाँ <math>\pi</math> बदलने की अनुमति है, | |||
:<math>V^*(s) = \max_\pi V^\pi(s).</math> | :<math>V^*(s) = \max_\pi V^\pi(s).</math> | ||
एक नीति जो प्रत्येक अवस्था में इन इष्टतम | एक नीति जो प्रत्येक अवस्था में इन इष्टतम मानो को प्राप्त करती है, इष्टतम कहलाती है। स्पष्ट रूप से, एक नीति जो इस शक्तिशाली अर्थ में इष्टतम है, इस अर्थ में भी इष्टतम है कि यह अपेक्षित प्रतिफल को अधिकतम करती है <math>\rho^\pi</math>, तब से <math>\rho^\pi = E[ V^\pi(S) ]</math>, जहाँ <math>S</math> वितरण से बेतरतीब विधि से नमूना लिया गया अवस्था है <math>\mu</math> प्रारंभिक अवस्थाओं की (इसलिए <math>\mu(s) = \Pr(s_0 = s)</math>). | ||
यद्यपि | यद्यपि अवस्था -मान इष्टतमता को परिभाषित करने के लिए पर्याप्त हैं, यह क्रिया-मानो को परिभाषित करने के लिए उपयोगी है। एक अवस्था दिया <math>s</math>, एक कार्यवाही <math>a</math> और एक नीति <math>\pi</math>, जोड़ी का क्रिया-मान <math>(s,a)</math> अंतर्गत <math>\pi</math> द्वारा परिभाषित किया गया है | ||
:<math>Q^\pi(s,a) = \operatorname E[R\mid s,a,\pi],\,</math> | :<math>Q^\pi(s,a) = \operatorname E[R\mid s,a,\pi],\,</math> | ||
जहां <math>R</math> अब अवस्था <math>s</math> में पहली बार <math>a</math> कार्रवाई करने और उसके बाद <math>\pi</math> के बाद से जुड़े यादृच्छिक रिटर्न के लिए है। | |||
एमडीपी के सिद्धांत में कहा गया है कि यदि <math>\pi^*</math> एक इष्टतम नीति है, हम कार्रवाई का चयन करके इष्टतम रूप से कार्य करते हैं (इष्टतम कार्रवाई करें)। <math>Q^{\pi^*}(s,\cdot)</math> प्रत्येक अवस्था में उच्चतम मान | एमडीपी के सिद्धांत में कहा गया है कि यदि <math>\pi^*</math> एक इष्टतम नीति है, हम कार्रवाई का चयन करके इष्टतम रूप से कार्य करते हैं (इष्टतम कार्रवाई करें)। <math>Q^{\pi^*}(s,\cdot)</math> प्रत्येक अवस्था में उच्चतम मान के साथ, <math>s</math>. ऐसी इष्टतम नीति का क्रिया-मान कार्य (<math>Q^{\pi^*}</math>) को इष्टतम क्रिया-मान कार्य कहा जाता है और सामान्यतः इसे निरूपित किया जाता है <math>Q^*</math>. संक्षेप में, केवल इष्टतम क्रिया-मान कार्य का ज्ञान ही यह जानने के लिए पर्याप्त है कि उत्तम विधि से कैसे कार्य किया जाए। | ||
एमडीपी के पूर्ण ज्ञान को मानते हुए, इष्टतम क्रिया-मान | एमडीपी के पूर्ण ज्ञान को मानते हुए, इष्टतम क्रिया-मान कार्य की गणना करने के लिए दो मूलभूत दृष्टिकोण [[मूल्य पुनरावृत्ति|मान पुनरावृत्ति]] और [[नीति पुनरावृत्ति]] हैं। दोनों एल्गोरिदम कार्यों के अनुक्रम की गणना करते हैं <math>Q_k</math> (<math>k=0,1,2,\ldots</math>) जो अभिसरण करता है <math>Q^*</math>. इन कार्यों की गणना में पूरे अवस्था -स्थान पर अपेक्षाओं की गणना करना सम्मिलित है जो कि सबसे छोटे (परिमित) एमडीपी के अतिरिक्त सभी के लिए अव्यावहारिक है। सुदृढीकरण सीखने के विधियों में, बड़े अवस्था -कार्रवाई स्थानों पर मान कार्यों का प्रतिनिधित्व करने की आवश्यकता से निपटने के लिए नमूनों पर औसत और कार्य सन्निकटन विधियों का उपयोग करके अपेक्षाओं का अनुमान लगाया जाता है। | ||
==== मोंटे कार्लो के | ==== मोंटे कार्लो के विधि ==== | ||
[[मोंटे कार्लो नमूनाकरण]] का उपयोग एल्गोरिथम में किया जा सकता है जो नीति पुनरावृत्ति की नकल करता है। नीति पुनरावृत्ति में दो चरण होते हैं: नीति मूल्यांकन और नीति | [[मोंटे कार्लो नमूनाकरण]] का उपयोग एल्गोरिथम में किया जा सकता है जो नीति पुनरावृत्ति की नकल करता है। नीति पुनरावृत्ति में दो चरण होते हैं: नीति मूल्यांकन और नीति सुधार है । | ||
मोंटे कार्लो का उपयोग नीति मूल्यांकन चरण में किया जाता है। इस चरण में, एक स्थिर, नियतात्मक नीति दी गई है <math>\pi</math>, लक्ष्य कार्य मानों की गणना करना है <math>Q^\pi(s,a)</math> (या उनके लिए एक अच्छा सन्निकटन) सभी स्टेट-एक्शन जोड़े के लिए <math>(s,a)</math>. मान लें (सरलता के लिए) कि एमडीपी परिमित है, कार्रवाई- | मोंटे कार्लो का उपयोग नीति मूल्यांकन चरण में किया जाता है। इस चरण में, एक स्थिर, नियतात्मक नीति दी गई है <math>\pi</math>, लक्ष्य कार्य मानों की गणना करना है <math>Q^\pi(s,a)</math> (या उनके लिए एक अच्छा सन्निकटन) सभी स्टेट-एक्शन जोड़े के लिए <math>(s,a)</math>. मान लें (सरलता के लिए) कि एमडीपी परिमित है, कार्रवाई-मानो को समायोजित करने के लिए पर्याप्त मेमोरी उपलब्ध है और यह कि समस्या एपिसोडिक है और प्रत्येक एपिसोड के बाद कुछ यादृच्छिक प्रारंभिक अवस्था से एक नया प्रारंभ होता है। फिर किसी दिए गए स्टेट-एक्शन जोड़ी के मान का अनुमान <math>(s,a)</math> से उत्पन्न होने वाले नमूना रिटर्न के औसत से गणना की जा सकती है <math>(s,a)</math> अधिक समय तक। पर्याप्त समय दिया गया है, इस प्रकार यह प्रक्रिया एक स्पष्ट अनुमान का निर्माण कर सकती है <math>Q</math> क्रिया-मान कार्य का <math>Q^\pi</math>. यह नीति मूल्यांकन चरण के विवरण को समाप्त करता है। | ||
नीति सुधार चरण में, के संबंध में ग्रीडी | नीति सुधार चरण में, के संबंध में ग्रीडी नीति की गणना करके अगली नीति प्राप्त की जाती है <math>Q</math>: एक अवस्था दिया <math>s</math>, यह नई नीति अधिकतम करने वाली कार्रवाई लौटाती है <math>Q(s,\cdot)</math>. व्यावहारिक रूप से [[आलसी मूल्यांकन]] अधिकतम क्रियाओं की गणना को तब तक के लिए टाल सकता है जब उनकी आवश्यकता होती है। | ||
इस प्रक्रिया की समस्याओं में सम्मिलित हैं: | इस प्रक्रिया की समस्याओं में सम्मिलित हैं: | ||
Line 110: | Line 108: | ||
1. प्रक्रिया में एक उप-इष्टतम नीति का मूल्यांकन करने में बहुत अधिक समय लग सकता है। | 1. प्रक्रिया में एक उप-इष्टतम नीति का मूल्यांकन करने में बहुत अधिक समय लग सकता है। | ||
2. यह नमूने का अक्षमता से उपयोग करता है जिसमें एक लंबा प्रक्षेपवक्र केवल एकल | 2. यह नमूने का अक्षमता से उपयोग करता है जिसमें एक लंबा प्रक्षेपवक्र केवल एकल अवस्था -क्रिया जोड़ी के अनुमान में सुधार करता है जिसने प्रक्षेपवक्र प्रारंभ किया। | ||
3. जब प्रक्षेपवक्र के साथ रिटर्न में उच्च विचरण होता है, तो अभिसरण धीमा होता है। | 3. जब प्रक्षेपवक्र के साथ रिटर्न में उच्च विचरण होता है, तो अभिसरण धीमा होता है। | ||
4. यह <u>एपिसोडिक | 4. यह <u>एपिसोडिक</u> समस्या में ही काम करता है। | ||
5. यह छोटे, सीमित एमडीपी में ही काम करता है। | 5. यह छोटे, सीमित एमडीपी में ही काम करता है। | ||
==== | ==== अस्थायी अंतर के विधि ==== | ||
{{Main|अस्थायी अंतर सीखना}} | {{Main|अस्थायी अंतर सीखना}} | ||
मानो के व्यवस्थित होने से पहले प्रक्रिया को (कुछ या सभी अवस्थाओ में) नीति को बदलने की अनुमति देकर पहली समस्या को ठीक किया जाता है। यह भी समस्याग्रस्त हो सकता है क्योंकि यह अभिसरण को रोक सकता है। अधिकांश वर्तमान एल्गोरिदम ऐसा करते हैं सामान्यीकृत नीति पुनरावृत्ति एल्गोरिदम के वर्ग को जन्म देते हैं। अनेक अभिनेता-आलोचक विधियां इसी श्रेणी में आती हैं। | |||
दूसरे उद्देश्य को प्रक्षेपवक्र को उनमें किसी भी | दूसरे उद्देश्य को प्रक्षेपवक्र को उनमें किसी भी अवस्था -एक्शन जोड़ी में योगदान करने की अनुमति देकर ठीक किया जा सकता है। यह तीसरी समस्या के साथ कुछ सीमा तक सहायता कर सकता है चूँकि एक उत्तम समाधान जब रिटर्न में उच्च विचरण होता है तो सटन की अस्थायी अंतर (टीडी) पद्धतियां होती हैं जो पुनरावर्ती [[बेलमैन समीकरण]] पर आधारित होती हैं।<ref>{{cite thesis|last = Sutton|first = Richard S.|title= रिनफोर्समेंट लर्निंग में टेम्पोरल क्रेडिट असाइनमेंट|degree= PhD|publisher = University of Massachusetts, Amherst, MA|url= http://incompleteideas.net/sutton/publications.html#PhDthesis|author-link = Richard S. Sutton|year= 1984 }}</ref>{{sfn|Sutton|Barto|1998|loc=[http://incompleteideas.net/sutton/book/ebook/node60.html §6. Temporal-Difference Learning]}} टीडी विधियों में गणना वृद्धिशील हो सकती है (जब प्रत्येक संक्रमण के बाद स्मृति बदल जाती है और संक्रमण दूर हो जाता है) या बैच (जब संक्रमण बैच किए जाते हैं और बैच के आधार पर अनुमानों की गणना की जाती है)। बैच विधियाँ जैसे कि कम से कम वर्ग अस्थायी अंतर विधि,<ref>{{cite journal | ||
| doi = 10.1023/A:1018056104778 | | doi = 10.1023/A:1018056104778 | ||
| last1 = Bradtke | first1 = Steven J. | author-link1 = Steven J. Bradtke | | last1 = Bradtke | first1 = Steven J. | author-link1 = Steven J. Bradtke | ||
Line 133: | Line 131: | ||
| citeseerx = 10.1.1.143.857 | s2cid = 20327856 }}</ref> नमूनों में जानकारी का उत्तम उपयोग कर सकते हैं, जबकि वृद्धिशील विधियाँ एकमात्र विकल्प हैं जब बैच विधियाँ उनकी उच्च कम्प्यूटेशनल या मेमोरी जटिलता के कारण अक्षम होती हैं। कुछ विधियाँ दो दृष्टिकोणों को संयोजित करने का प्रयास करती हैं। लौकिक भिन्नताओं पर आधारित पद्धतियाँ भी चौथी समस्या को दूर करती हैं। | | citeseerx = 10.1.1.143.857 | s2cid = 20327856 }}</ref> नमूनों में जानकारी का उत्तम उपयोग कर सकते हैं, जबकि वृद्धिशील विधियाँ एकमात्र विकल्प हैं जब बैच विधियाँ उनकी उच्च कम्प्यूटेशनल या मेमोरी जटिलता के कारण अक्षम होती हैं। कुछ विधियाँ दो दृष्टिकोणों को संयोजित करने का प्रयास करती हैं। लौकिक भिन्नताओं पर आधारित पद्धतियाँ भी चौथी समस्या को दूर करती हैं। | ||
टीडी के लिए विशिष्ट एक अन्य समस्या पुनरावर्ती बेलमैन समीकरण पर उनकी निर्भरता से आती है। अधिकांश टीडी विधियों में एक तथाकथित है <math>\lambda</math> पैरामीटर <math>(0\le \lambda\le 1)</math> जो मोंटे कार्लो विधियों के बीच लगातार प्रक्षेपित कर सकता है जो बेलमैन समीकरणों पर | टीडी के लिए विशिष्ट एक अन्य समस्या पुनरावर्ती बेलमैन समीकरण पर उनकी निर्भरता से आती है। अधिकांश टीडी विधियों में एक तथाकथित है <math>\lambda</math> पैरामीटर <math>(0\le \lambda\le 1)</math> जो मोंटे कार्लो विधियों के बीच लगातार प्रक्षेपित कर सकता है जो बेलमैन समीकरणों पर विश्वास नहीं करते हैं और मूल टीडी विधियां जो पूरी तरह से बेलमैन समीकरणों पर विश्वास करती हैं। यह इस समस्या को दूर करने में कारगर हो सकता है। | ||
==== फंक्शन सन्निकटन के | ==== फंक्शन सन्निकटन के विधि ==== | ||
पांचवें उद्देश्य को संबोधित करने के लिए, कार्य सन्निकटन विधियों का उपयोग किया जाता है। | पांचवें उद्देश्य को संबोधित करने के लिए, कार्य सन्निकटन विधियों का उपयोग किया जाता है। रैखिक कार्य सन्निकटन एक मानचित्रण <math>\phi</math> से प्रारंभ होता है जो प्रत्येक अवस्था -क्रिया जोड़ी को एक परिमित-आयामी वेक्टर प्रदान करता है। फिर, अवस्था -क्रिया युग्म<math>(s,a)</math> के क्रिया मान को कुछ वज़न <math>\theta</math> के साथ <math>\phi(s,a)</math> के घटकों को रैखिक रूप से जोड़कर प्राप्त किया जाता है। | ||
:<math>Q(s,a) = \sum_{i=1}^d \theta_i \phi_i(s,a).</math> | :<math>Q(s,a) = \sum_{i=1}^d \theta_i \phi_i(s,a).</math> | ||
एल्गोरिदम तब अलग-अलग | एल्गोरिदम तब अलग-अलग अवस्था -क्रिया जोड़े से जुड़े मानो को समायोजित करने के अतिरिक्त वजन समायोजित करता है। गैर-पैरामीट्रिक आँकड़ों (जो अपनी स्वयं की विशेषताओं का निर्माण करने के लिए देखा जा सकता है) से विचारों पर आधारित विधियों का पता लगाया गया है। | ||
[[क्यू-लर्निंग]] एल्गोरिथम और इसके कई वेरिएंट को जन्म देते हुए | [[क्यू-लर्निंग]] एल्गोरिथम और इसके कई वेरिएंट को जन्म देते हुए मान इटरेशन को प्रारंभिक बिंदु के रूप में भी उपयोग किया जा सकता है।<ref>{{cite thesis | ||
| last = Watkins | first = Christopher J.C.H. | author-link = Christopher J.C.H. Watkins | | last = Watkins | first = Christopher J.C.H. | author-link = Christopher J.C.H. Watkins | ||
| degree= PhD | | degree= PhD | ||
Line 147: | Line 145: | ||
| year= 1989 | | year= 1989 | ||
| publisher = King’s College, Cambridge, UK | | publisher = King’s College, Cambridge, UK | ||
| url= http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf}}</ref> स्टोकेस्टिक खोज समस्याओं में विभिन्न अनुप्रयोगों के साथ क्यू का प्रतिनिधित्व करने के लिए एक तंत्रिका नेटवर्क का उपयोग करते समय डीप क्यू-लर्निंग विधियों को सम्मिलित | | url= http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf}}</ref> स्टोकेस्टिक खोज समस्याओं में विभिन्न अनुप्रयोगों के साथ क्यू का प्रतिनिधित्व करने के लिए एक तंत्रिका नेटवर्क का उपयोग करते समय डीप क्यू-लर्निंग विधियों को सम्मिलित करना है।<ref name="MBK">{{Cite journal |title = डीप क्यू-लर्निंग एबिलिटीज के साथ एक स्वायत्त एजेंट द्वारा स्थिर और मोबाइल लक्ष्यों का पता लगाना| journal=Entropy | year=2022 | volume=24 | issue=8 | page=1168 | doi=10.3390/e24081168 | pmid=36010832 | pmc=9407070 | bibcode=2022Entrp..24.1168M | doi-access=free | last1=Matzliach | first1=Barouch | last2=Ben-Gal | first2=Irad | last3=Kagan | first3=Evgeny }}</ref> | ||
क्रिया- | |||
क्रिया-मानो का उपयोग करने में समस्या यह है कि उन्हें प्रतिस्पर्धात्मक क्रिया मानो के अत्यधिक स्पष्ट अनुमानों की आवश्यकता हो सकती है जो रिटर्न ध्वनि होने पर प्राप्त करना कठिन हो सकता है चूँकि अस्थायी अंतर विधियों द्वारा इस समस्या को कुछ सीमा तक कम किया जाता है। तथाकथित संगत कार्य सन्निकटन पद्धति का उपयोग करना सामान्यता और दक्षता से समझौता करता है। | |||
=== प्रत्यक्ष नीति खोज === | === प्रत्यक्ष नीति खोज === | ||
एक वैकल्पिक विधि पॉलिसी स्पेस (कुछ सबसेट) में सीधे खोज करना है | एक वैकल्पिक विधि पॉलिसी स्पेस (कुछ सबसेट) में सीधे खोज करना है जिस स्थिति में समस्या [[स्टोचैस्टिक अनुकूलन]] का स्थति बन जाती है। उपलब्ध दो दृष्टिकोण [[ढाल]]-आधारित और ढाल-मुक्त विधियाँ हैं। | ||
ढाल-आधारित विधियाँ (नीति ढाल विधियाँ) एक परिमित-आयामी (पैरामीटर) स्थान से नीतियों के स्थान तक मानचित्रण के साथ प्रारंभ होती हैं: पैरामीटर वेक्टर | ढाल-आधारित विधियाँ (नीति ढाल विधियाँ) एक परिमित-आयामी (पैरामीटर) स्थान से नीतियों के स्थान तक मानचित्रण के साथ प्रारंभ होती हैं: पैरामीटर वेक्टर <math>\theta</math> दिया गया है, चलो <math>\pi_\theta</math> , <math>\theta</math>से संबंधित नीति को दर्शाता है द्वारा प्रदर्शन कार्य को परिभाषित करना है | ||
:<math>\rho(\theta) = \rho^{\pi_\theta},</math> | :<math>\rho(\theta) = \rho^{\pi_\theta},</math> | ||
हल्के परिस्थितियों में यह कार्य पैरामीटर वेक्टर <math>\theta</math> के कार्य के रूप में अलग-अलग होगा। यदि <math>\rho</math> का ग्रेडिएंट ज्ञात था, तो ग्रेडिएंट एसेंट का उपयोग किया जा सकता है। चूंकि ढाल के लिए एक विश्लेषणात्मक अभिव्यक्ति उपलब्ध नहीं है केवल ध्वनि का अनुमान उपलब्ध है। इस तरह के एक अनुमान को कई विधियों से बनाया जा सकता है जो एल्गोरिदम को जन्म देता है जैसे कि विलियम्स की रीइन्फोर्स विधि (जिसे सिमुलेशन-आधारित अनुकूलन साहित्य में संभावना अनुपात विधि के रूप में जाना जाता है)। रोबोटिक्स के संदर्भ में नीति खोज विधियों का उपयोग किया गया है।<ref>{{cite conference | |||
| last = Williams | first = Ronald J. | author-link = Ronald J. Williams | | last = Williams | first = Ronald J. | author-link = Ronald J. Williams | ||
| title = A class of gradient-estimating algorithms for reinforcement learning in neural networks | | title = A class of gradient-estimating algorithms for reinforcement learning in neural networks | ||
| book-title = Proceedings of the IEEE First International Conference on Neural Networks | | book-title = Proceedings of the IEEE First International Conference on Neural Networks | ||
| year = 1987| citeseerx = 10.1.1.129.8871 }}</ref> ( | | year = 1987| citeseerx = 10.1.1.129.8871 }}</ref> कई नीतिगत खोज विधियां स्थानीय ऑप्टिमा में फंस सकती हैं (क्योंकि वे स्थानीय खोज पर आधारित हैं)।<ref>{{Cite book|title = रोबोटिक्स के लिए नीति खोज पर एक सर्वेक्षण|last1 = Deisenroth|first1 = Marc Peter|last2 = Neumann|first2 = Gerhard|last3 = Peters|first3 = Jan|publisher = NOW Publishers|year = 2013|series = Foundations and Trends in Robotics|volume = 2|issue = 1–2|pages = 1–142 |author-link1 = Marc Peter Deisenroth|author-link2 = Gerhard Neumann|author-link3 = Jan Peters (researcher)|hdl = 10044/1/12051|doi = 10.1561/2300000021|url = http://eprints.lincoln.ac.uk/28029/1/PolicySearchReview.pdf}}</ref><ref>{{cite conference | ||
| last1 = Peters | first1 = Jan | author-link1 = Jan Peters (researcher) | | last1 = Peters | first1 = Jan | author-link1 = Jan Peters (researcher) | ||
| last2 = Vijayakumar | first2 = Sethu | author-link2 = Sethu Vijayakumar | | last2 = Vijayakumar | first2 = Sethu | author-link2 = Sethu Vijayakumar | ||
Line 167: | Line 166: | ||
| book-title = IEEE-RAS International Conference on Humanoid Robots | | book-title = IEEE-RAS International Conference on Humanoid Robots | ||
| year = 2003 | | year = 2003 | ||
| url = http://www-clmc.usc.edu/publications/p/peters-ICHR2003.pdf}}</ref> | | url = http://www-clmc.usc.edu/publications/p/peters-ICHR2003.pdf}}</ref> | ||
विधियों का एक बड़ा वर्ग ढाल की जानकारी पर | विधियों का एक बड़ा वर्ग ढाल की जानकारी पर विश्वास करने से बचता है। इनमें [[ तैयार किए हुयी धातु पे पानी चढाने की कला |तैयार किए हुयी धातु पे पानी चढाने की कला]] , [[क्रॉस-एन्ट्रॉपी विधि]] क्रॉस-एन्ट्रॉपी खोज या [[विकासवादी संगणना]] के विधि सम्मिलित हैं। कई ग्रेडियेंट-मुक्त विधियां वैश्विक इष्टतम (सिद्धांत रूप में और सीमा में) प्राप्त कर सकती हैं। | ||
नीति खोज पद्धति धीरे-धीरे दिए गए ध्वनि वाले डेटा को अभिसरण कर सकती है। उदाहरण के लिए | नीति खोज पद्धति धीरे-धीरे दिए गए ध्वनि वाले डेटा को अभिसरण कर सकती है। उदाहरण के लिए यह एपिसोडिक समस्याओं में होता है जब प्रक्षेपवक्र लंबे होते हैं और रिटर्न का विचरण बड़ा होता है। मूल्य-कार्य आधारित विधियाँ जो लौकिक अंतरों पर निर्भर करती हैं इस स्थिति में सहायता कर सकती हैं। वर्तमान के वर्षों में अभिनेता-आलोचक विधियों का प्रस्ताव किया गया है और विभिन्न समस्याओं पर अच्छा प्रदर्शन किया है।<ref>{{Cite web|url=https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-8-asynchronous-actor-critic-agents-a3c-c88f72a5e9f2|title=Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)|last=Juliani|first=Arthur|date=2016-12-17|website=Medium|access-date=2018-02-22}}</ref> | ||
=== मॉडल-आधारित एल्गोरिदम === | === मॉडल-आधारित एल्गोरिदम === | ||
अंत में | अंत में उपरोक्त सभी विधियों को एल्गोरिदम के साथ जोड़ा जा सकता है जो पहले एक मॉडल सीखते हैं। उदाहरण के लिए डायना एल्गोरिथम<ref>{{Cite conference | ||
| last1 = Sutton | first1 = Richard | | last1 = Sutton | first1 = Richard | ||
| title = Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming | | title = Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming | ||
| year = 1990 | | year = 1990 | ||
| book-title = Machine Learning: Proceedings of the Seventh International Workshop}}</ref> अनुभव से एक मॉडल सीखता है, और वास्तविक बदलाव के | | book-title = Machine Learning: Proceedings of the Seventh International Workshop}}</ref> अनुभव से एक मॉडल सीखता है, और वास्तविक बदलाव के अतिरिक्त मान कार्य के लिए अधिक मॉडल किए गए बदलाव प्रदान करने के लिए उसका उपयोग करता है। इस तरह के विधियों को कभी-कभी गैर-पैरामीट्रिक मॉडल के उपयोग के लिए बढ़ाया जा सकता है जैसे कि जब संक्रमण केवल संग्रहीत होते हैं और सीखने के एल्गोरिदम के लिए 'फिर से चलाए जाते हैं'<ref>{{Cite conference | first1 = Long-Ji | last1 = Lin | title = सुदृढीकरण सीखने, योजना और शिक्षण के आधार पर स्व-सुधार प्रतिक्रियाशील एजेंट| book-title = Machine Learning volume 8 | year = 1992 | doi = 10.1007/BF00992699 |url=https://link.springer.com/content/pdf/10.1007/BF00992699.pdf}}</ref>। | ||
मान | मान कार्य को अपडेट करने के अतिरिक्त मॉडल का उपयोग करने के अन्य विधि हैं।<ref>{{Cite conference | ||
| last1 = van Hasselt | first1 = Hado | | last1 = van Hasselt | first1 = Hado | ||
| last2 = Hessel | first2 = Matteo | | last2 = Hessel | first2 = Matteo | ||
Line 189: | Line 188: | ||
| book-title = Advances in Neural Information Processing Systems 32 | | book-title = Advances in Neural Information Processing Systems 32 | ||
| url = https://proceedings.neurips.cc/paper/2019/file/1b742ae215adf18b75449c6e272fd92d-Paper.pdf | | url = https://proceedings.neurips.cc/paper/2019/file/1b742ae215adf18b75449c6e272fd92d-Paper.pdf | ||
}}</ref> उदाहरण के लिए, [[ मॉडल भविष्य कहनेवाला नियंत्रण ]] में मॉडल का उपयोग सीधे व्यवहार को अपडेट करने के लिए किया जाता है। | }}</ref> उदाहरण के लिए, [[ मॉडल भविष्य कहनेवाला नियंत्रण |मॉडल भविष्य कहनेवाला नियंत्रण]] में मॉडल का उपयोग सीधे व्यवहार को अपडेट करने के लिए किया जाता है। | ||
== सिद्धांत == | == सिद्धांत == | ||
अधिकांश एल्गोरिदम के स्पर्शोन्मुख और परिमित-नमूना व्यवहार दोनों को अच्छी तरह से समझा जाता है। सिद्ध रूप से अच्छे ऑनलाइन प्रदर्शन (अन्वेषण उद्देश्य को संबोधित करते हुए) वाले एल्गोरिद्म ज्ञात हैं। | अधिकांश एल्गोरिदम के स्पर्शोन्मुख और परिमित-नमूना व्यवहार दोनों को अच्छी तरह से समझा जाता है। सिद्ध रूप से अच्छे ऑनलाइन प्रदर्शन (अन्वेषण उद्देश्य को संबोधित करते हुए) वाले एल्गोरिद्म ज्ञात हैं। | ||
बर्नेटास और कटेहाकिस (1997) में एमडीपी का कुशल अन्वेषण दिया गया है।<ref name="Optimal adaptive policies for Marko"/>कई एल्गोरिदम के लिए परिमित-समय की प्रदर्शन सीमाएँ भी दिखाई दी हैं | बर्नेटास और कटेहाकिस (1997) में एमडीपी का कुशल अन्वेषण दिया गया है।<ref name="Optimal adaptive policies for Marko"/> कई एल्गोरिदम के लिए परिमित-समय की प्रदर्शन सीमाएँ भी दिखाई दी हैं किन्तु इन सीमाओं के ढीले होने की उम्मीद है और इस प्रकार सापेक्ष लाभों और सीमाओं को उत्तम विधि से समझने के लिए अधिक काम करने की आवश्यकता है। | ||
वृद्धिशील एल्गोरिदम के लिए | वृद्धिशील एल्गोरिदम के लिए स्पर्शोन्मुख अभिसरण उद्देश्यों का समाधान किया गया है टेम्पोरल-अंतर-आधारित एल्गोरिदम पहले की तुलना में नियमो के एक व्यापक सेट के तहत अभिसरण करते हैं (उदाहरण के लिए जब इच्छानुसार से सुचारू कार्य सन्निकटन के साथ उपयोग किया जाता है)। | ||
== अनुसंधान == | == अनुसंधान == | ||
शोध विषयों में सम्मिलित हैं: | शोध विषयों में सम्मिलित हैं: | ||
* अभिनेता-आलोचक | * अभिनेता-आलोचक | ||
Line 205: | Line 203: | ||
* सॉफ्टवेयर परियोजनाओं में बग का पता लगाना<ref>{{Cite web |title=On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment |url=https://cie.acm.org/articles/use-reinforcements-learning-testing-game-mechanics/ |access-date=2018-11-27 |website=cie.acm.org |language=en}}</ref> | * सॉफ्टवेयर परियोजनाओं में बग का पता लगाना<ref>{{Cite web |title=On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment |url=https://cie.acm.org/articles/use-reinforcements-learning-testing-game-mechanics/ |access-date=2018-11-27 |website=cie.acm.org |language=en}}</ref> | ||
* लगातार सीखना | * लगातार सीखना | ||
* तर्क-आधारित रूपरेखाओं के साथ संयोजन<ref>{{Cite journal|last1=Riveret|first1=Regis|last2=Gao|first2=Yang|date=2019|title=सुदृढीकरण सीखने वाले एजेंटों के लिए एक संभाव्य तर्क रूपरेखा|journal=Autonomous Agents and Multi-Agent Systems|language=en|volume=33|issue=1–2|pages=216–274|doi=10.1007/s10458-019-09404-2|s2cid=71147890}}</ref> * बड़े एमडीपी में अन्वेषण | * तर्क-आधारित रूपरेखाओं के साथ संयोजन<ref>{{Cite journal|last1=Riveret|first1=Regis|last2=Gao|first2=Yang|date=2019|title=सुदृढीकरण सीखने वाले एजेंटों के लिए एक संभाव्य तर्क रूपरेखा|journal=Autonomous Agents and Multi-Agent Systems|language=en|volume=33|issue=1–2|pages=216–274|doi=10.1007/s10458-019-09404-2|s2cid=71147890}}</ref> | ||
*बड़े एमडीपी में अन्वेषण | |||
* [[मानव प्रतिक्रिया से सुदृढीकरण सीखना]]<ref>{{cite arXiv |last1=Yamagata |first1=Taku |last2=McConville |first2=Ryan |last3=Santos-Rodriguez |first3=Raul |date=2021-11-16 |title=विविध कौशल वाले कई मनुष्यों से प्रतिक्रिया के साथ सुदृढीकरण सीखना|class=cs.LG |eprint=2111.08596 }}</ref> | * [[मानव प्रतिक्रिया से सुदृढीकरण सीखना]]<ref>{{cite arXiv |last1=Yamagata |first1=Taku |last2=McConville |first2=Ryan |last3=Santos-Rodriguez |first3=Raul |date=2021-11-16 |title=विविध कौशल वाले कई मनुष्यों से प्रतिक्रिया के साथ सुदृढीकरण सीखना|class=cs.LG |eprint=2111.08596 }}</ref> | ||
* कौशल अधिग्रहण में निहित और स्पष्ट सीखने के बीच | * कौशल अधिग्रहण में निहित और स्पष्ट सीखने के बीच परस्पर क्रिया | ||
* आंतरिक प्रेरणा (कृत्रिम बुद्धिमत्ता) जो सूचना-प्राप्ति | * आंतरिक प्रेरणा (कृत्रिम बुद्धिमत्ता) जो सूचना-प्राप्ति जिज्ञासा-प्रकार के व्यवहारों को कार्य-निर्भर लक्ष्य-निर्देशित व्यवहारों से अलग करती है बड़े मापदंड पर अनुभवजन्य मूल्यांकन | ||
* बड़े (या निरंतर) क्रिया स्थान | * बड़े (या निरंतर) क्रिया स्थान | ||
* मॉड्यूलर और पदानुक्रमित सुदृढीकरण सीखना<ref>{{Cite journal|last1=Kulkarni|first1=Tejas D.|last2=Narasimhan|first2=Karthik R.|last3=Saeedi|first3=Ardavan|last4=Tenenbaum|first4=Joshua B.|date=2016|title=Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation|url=http://dl.acm.org/citation.cfm?id=3157382.3157509|journal=Proceedings of the 30th International Conference on Neural Information Processing Systems|series=NIPS'16|location=USA|publisher=Curran Associates Inc.|pages=3682–3690|isbn=978-1-5108-3881-9|bibcode=2016arXiv160406057K|arxiv=1604.06057}}</ref> | * मॉड्यूलर और पदानुक्रमित सुदृढीकरण सीखना<ref>{{Cite journal|last1=Kulkarni|first1=Tejas D.|last2=Narasimhan|first2=Karthik R.|last3=Saeedi|first3=Ardavan|last4=Tenenbaum|first4=Joshua B.|date=2016|title=Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation|url=http://dl.acm.org/citation.cfm?id=3157382.3157509|journal=Proceedings of the 30th International Conference on Neural Information Processing Systems|series=NIPS'16|location=USA|publisher=Curran Associates Inc.|pages=3682–3690|isbn=978-1-5108-3881-9|bibcode=2016arXiv160406057K|arxiv=1604.06057}}</ref> | ||
Line 219: | Line 218: | ||
* प्रतिभूति व्यापार<ref>{{cite journal |last1=Dabérius |first1=Kevin |last2=Granat |first2=Elvin |last3=Karlsson |first3=Patrik |date=2020 |title=डीप एक्ज़ीक्यूशन - ट्रेडिंग और बीटिंग मार्केट बेंचमार्क के लिए मूल्य और नीति आधारित सुदृढीकरण सीखना|ssrn=3374766 |journal=The Journal of Machine Learning in Finance |volume=1}}</ref> | * प्रतिभूति व्यापार<ref>{{cite journal |last1=Dabérius |first1=Kevin |last2=Granat |first2=Elvin |last3=Karlsson |first3=Patrik |date=2020 |title=डीप एक्ज़ीक्यूशन - ट्रेडिंग और बीटिंग मार्केट बेंचमार्क के लिए मूल्य और नीति आधारित सुदृढीकरण सीखना|ssrn=3374766 |journal=The Journal of Machine Learning in Finance |volume=1}}</ref> | ||
* [[ सीखने को स्थानांतरित करें ]]<ref>{{Cite journal|last1=George Karimpanal|first1=Thommen|last2=Bouffanais|first2=Roland|date=2019|title=सुदृढीकरण सीखने में ज्ञान के भंडारण और हस्तांतरण के लिए स्व-आयोजन मानचित्र|journal=Adaptive Behavior|language=en|volume=27|issue=2|pages=111–126|doi=10.1177/1059712318818568|issn=1059-7123|arxiv=1811.08318|s2cid=53774629}}</ref> | * [[ सीखने को स्थानांतरित करें ]]<ref>{{Cite journal|last1=George Karimpanal|first1=Thommen|last2=Bouffanais|first2=Roland|date=2019|title=सुदृढीकरण सीखने में ज्ञान के भंडारण और हस्तांतरण के लिए स्व-आयोजन मानचित्र|journal=Adaptive Behavior|language=en|volume=27|issue=2|pages=111–126|doi=10.1177/1059712318818568|issn=1059-7123|arxiv=1811.08318|s2cid=53774629}}</ref> | ||
* टीडी लर्निंग मॉडलिंग [[डोपामाइन]]-आधारित लर्निंग इन द | * टीडी लर्निंग मॉडलिंग [[डोपामाइन]]-आधारित लर्निंग इन द ब्रेन मूल नाइग्रा से [[बेसल गैन्ग्लिया]] कार्य तक [[डोपामिनर्जिक]] अनुमान पूर्वानुमान त्रुटि हैं। | ||
* मूल्य-कार्य और नीति खोज विधियाँ | * मूल्य-कार्य और नीति खोज विधियाँ | ||
Line 225: | Line 224: | ||
{| class="wikitable sortable" | {| class="wikitable sortable" | ||
|- | |- | ||
! | ! एल्गोरिथ्म !! विवरण !!नीति !! क्रिया स्थान !! अवस्था स्थान !! संचालिका | ||
|- | |- | ||
| [[Monte Carlo method| | | [[Monte Carlo method|मोंटे कार्लो]] || मोंटे कार्लो की हर यात्रा || दोनों में से एक || पृथक || पृथक || प्रतिदर्श-साधन | ||
|- | |- | ||
| [[Q-learning]] || | | [[Q-learning|क्यू-लर्निंग]] || अवस्था -कार्रवाई-इनाम-अवस्था || ऑफ नीति || पृथक || पृथक || क्यू-मूल्य | ||
|- | |- | ||
| [[State–action–reward–state–action| | | [[State–action–reward–state–action|सार्सा]] || स्टेट-एक्शन-इनाम-स्टेट-एक्शन || ऑन-नीति || पृथक || पृथक || क्यू-मूल्य | ||
|- | |- | ||
| | | क्यू-लर्निंग - लैम्ब्डा || अवस्था -कार्रवाई-इनाम-अवस्था योग्यता के निशान के साथ|| ऑफ नीति || पृथक || पृथक || क्यू-मूल्य | ||
|- | |- | ||
| | | सरसा - लैम्ब्डा || योग्यता के निशान के साथ अवस्था -कार्रवाई-इनाम-अवस्था -कार्रवाई || ऑन-नीति || पृथक || पृथक || क्यू-मूल्य | ||
|- | |- | ||
| [[Q-learning#Deep Q-learning| | | [[Q-learning#Deep Q-learning|डीक्यूएन]] || डीप क्यू नेटवर्क || ऑफ नीति || पृथक || निरंतर || क्यू-मूल्य | ||
|- | |- | ||
| | | डीडीपीजी || दीप नियतात्मक नीति ढाल || ऑफ नीति || निरंतर || निरंतर || क्यू-मूल्य | ||
|- | |- | ||
| | | ए3सी || एसिंक्रोनस एडवांटेज एक्टर-क्रिटिक एल्गोरिथम || ऑन-नीति || निरंतर || निरंतर || लाभ | ||
|- | |- | ||
| | | एनएएफ || सामान्यीकृत लाभ कार्यों के साथ क्यू-लर्निंग || ऑफ नीति || निरंतर || निरंतर || लाभ | ||
|- | |- | ||
| | | टीआरपीओ || विश्वास क्षेत्र नीति अनुकूलन || ऑन-नीति || निरंतर और पृथक || निरंतर || लाभ | ||
|- | |- | ||
| [[Proximal Policy Optimization| | | [[Proximal Policy Optimization|पीपीओ]] || समीपस्थ नीति अनुकूलन || ऑन-नीति || निरंतर और पृथक || निरंतर || लाभ | ||
|- | |- | ||
| | |टीडी3 | ||
| | |ट्विन डिलेड डीप डिटर्मिनिस्टिक पॉलिसी ग्रेडिएंट | ||
| | |ऑफ नीति | ||
| | |निरंतर | ||
| | |निरंतर | ||
| | |क्यू-मूल्य | ||
|- | |- | ||
| | |एसएसी | ||
| | |शीतल अभिनेता-आलोचक | ||
| | |ऑफ नीति | ||
| | |निरंतर | ||
| | |निरंतर | ||
| | |लाभ | ||
|} | |} | ||
=== साहचर्य सुदृढीकरण सीखना === | === साहचर्य सुदृढीकरण सीखना === | ||
साहचर्य सुदृढीकरण सीखने के कार्य स्टोकेस्टिक लर्निंग ऑटोमेटा कार्यों और पर्यवेक्षित शिक्षण | साहचर्य सुदृढीकरण सीखने के कार्य स्टोकेस्टिक लर्निंग ऑटोमेटा कार्यों और पर्यवेक्षित शिक्षण प्रतिरूप वर्गीकरण कार्यों के पहलुओं को जोड़ते हैं। साहचर्य सुदृढीकरण सीखने के कार्यों में सीखने की प्रणाली अपने पर्यावरण के साथ एक बंद लूप में इंटरैक्ट करती है।<ref>{{cite book |last1=Soucek |first1=Branko |title=Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series |date=6 May 1992 |publisher=John Wiley & Sons, Inc |isbn=0-471-55717-X |page=38}}</ref> | ||
=== गहरा सुदृढीकरण सीखना === | === गहरा सुदृढीकरण सीखना === | ||
यह दृष्टिकोण एक गहरे तंत्रिका नेटवर्क का उपयोग करके और स्पष्ट रूप से अवस्था स्थान को डिजाइन किए बिना सुदृढीकरण सीखने का विस्तार करता है।<ref name="intro_deep_RL">{{cite journal |first= Vincent|display-authors=etal|last= Francois-Lavet |year=2018 |title= गहन सुदृढीकरण सीखने का एक परिचय|journal=Foundations and Trends in Machine Learning|volume=11 |issue=3–4 |pages=219–354 |doi=10.1561/2200000071|arxiv= 1811.12560 |bibcode=2018arXiv181112560F|s2cid=54434537}</ref> | यह दृष्टिकोण एक गहरे तंत्रिका नेटवर्क का उपयोग करके और स्पष्ट रूप से अवस्था स्थान को डिजाइन किए बिना सुदृढीकरण सीखने का विस्तार करता है।<ref name="intro_deep_RL">{{cite journal |first= Vincent|display-authors=etal|last= Francois-Lavet |year=2018 |title= गहन सुदृढीकरण सीखने का एक परिचय|journal=Foundations and Trends in Machine Learning|volume=11 |issue=3–4 |pages=219–354 |doi=10.1561/2200000071|arxiv= 1811.12560 |bibcode=2018arXiv181112560F|s2cid=54434537}</ref> गूगल [[डीपमाइंड]] द्वारा अटारी गेम सीखने पर किए गए काम ने गहन सुदृढीकरण सीखना या एंड-टू-एंड रीइन्फोर्समेंट लर्निंग पर ध्यान बढ़ाया है । | ||
=== प्रतिकूल गहन सुदृढीकरण सीखना === | === प्रतिकूल गहन सुदृढीकरण सीखना === | ||
एडवर्सेरियल डीप रीइन्फोर्समेंट लर्निंग | एडवर्सेरियल डीप रीइन्फोर्समेंट लर्निंग रीइन्फोर्समेंट लर्निंग में अनुसंधान का एक सक्रिय क्षेत्र है जो सीखी हुई नीतियों की कमियों पर ध्यान केंद्रित करता है। इस शोध क्षेत्र में कुछ अध्ययनों ने प्रारंभ में दिखाया कि सुदृढीकरण सीखने की नीतियां अगोचर प्रतिकूल जोड़-तोड़ के लिए अतिसंवेदनशील हैं।<ref>{{cite journal |last1= Goodfellow|first1=Ian |last2=Shlens |first2= Jonathan|last3=Szegedy|first3=Christian|title= विरोधात्मक उदाहरणों की व्याख्या करना और उनका उपयोग करना|journal= International Conference on Learning Representations |date= 2015 |arxiv=1412.6572 }}</ref><ref>{{cite journal |last1= Behzadan|first1=Vahid |last2=Munir |first2= Arslan|title= पॉलिसी इंडक्शन अटैक के लिए डीप रीइन्फोर्समेंट लर्निंग की भेद्यता|journal= International Conference on Machine Learning and Data Mining in Pattern Recognition |series=Lecture Notes in Computer Science |date= 2017 |volume=10358 |pages=262–275 |doi=10.1007/978-3-319-62416-7_19 |arxiv=1701.04143|isbn=978-3-319-62415-0 |s2cid=1562290 }}</ref><ref>{{Cite book |last=Pieter |first=Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel |url=http://worldcat.org/oclc/1106256905 |title=तंत्रिका नेटवर्क नीतियों पर प्रतिकूल हमले|date=2017-02-07 |oclc=1106256905}}</ref> जबकि इन संवेदनशीलताओं को दूर करने के लिए कुछ विधियों का प्रस्ताव किया गया है वर्तमान के अध्ययनों में यह दिखाया गया है कि ये प्रस्तावित समाधान गहन सुदृढीकरण सीखने की नीतियों की वर्तमान कमियों का स्पष्ट प्रतिनिधित्व प्रदान करने से बहुत दूर हैं।<ref>{{cite journal |last1=Korkmaz |first1=Ezgi |date=2022 |title=डीप रीइन्फोर्समेंट लर्निंग नीतियां एमडीपी में साझा विरोधी विशेषताएं सीखें।|journal=Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22) |volume=36 |issue=7 |pages=7229–7238 |doi=10.1609/aaai.v36i7.20684 |arxiv=|s2cid=245219157 |doi-access=free }}</ref> | ||
=== अस्पष्ट सुदृढीकरण सीखना === | |||
आरएल में फजी नियंत्रण प्रणाली प्रारंभ करके<ref>{{Cite journal |last=Berenji |first=H.R. |date=1994 |title=Fuzzy Q-learning: a new approach for fuzzy dynamic programming |url=https://ieeexplore.ieee.org/document/343737 |journal=Proc. IEEE 3rd International Fuzzy Systems Conference |location=Orlando, FL, USA |publisher=IEEE |pages=486–491 |doi=10.1109/FUZZY.1994.343737|isbn=0-7803-1896-X |s2cid=56694947 }}</ref> निरंतर स्थान में फजी नियम के साथ स्टेट-एक्शन मान कार्य का अनुमान लगाना संभव हो जाता है। फजी नियमों का इफ -देन रूप इस दृष्टिकोण को प्राकृतिक भाषा के समीप के रूप में परिणामों को व्यक्त करने के लिए उपयुक्त बनाता है। फ़ज़ी रूल इंटरपोलेशन के साथ एफआरएल का विस्तार <ref>{{Cite book |last=Vincze |first=David |title=2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI) |date=2017 |chapter=Fuzzy rule interpolation and reinforcement learning |chapter-url=http://users.iit.uni-miskolc.hu/~vinczed/research/vinczed_sami2017_author_draft.pdf |publisher=IEEE |pages=173–178 |doi=10.1109/SAMI.2017.7880298|isbn=978-1-5090-5655-2 |s2cid=17590120 }}</ref> कार्डिनल नियमों (सबसे महत्वपूर्ण अवस्था -कार्रवाई मानो ) पर जोर देने के लिए कम आकार के विरल फ़ज़ी नियम-आधारों के उपयोग की अनुमति देता है। | |||
=== | === विपरीत सुदृढीकरण सीखना === | ||
विपरीत सुदृढीकरण सीखने (आईआरएल) में, कोई इनाम कार्य नहीं दिया जाता है। इसके अतिरिक्त एक विशेषज्ञ के देखे गए व्यवहार को देखते हुए इनाम कार्य का अनुमान लगाया जाता है। विचार देखे गए व्यवहार की नकल करना है जो अधिकांशतः इष्टतम या इष्टतम के समीप होता है।<ref>{{cite book |last1=Ng |first1=A. Y. |last2=Russell |first2=S. J. |year=2000 |chapter=Algorithms for Inverse Reinforcement Learning |title=मशीन लर्निंग पर सत्रहवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही ICML '00 की कार्यवाही|pages=663–670 |isbn=1-55860-707-2 |chapter-url=https://ai.stanford.edu/~ang/papers/icml00-irl.pdf }}</ref> | |||
=== सुरक्षित सुदृढीकरण सीखना === | === सुरक्षित सुदृढीकरण सीखना === | ||
सुरक्षित सुदृढीकरण सीखने ( | सुरक्षित सुदृढीकरण सीखने (एसआरएल) को सीखने की नीतियों की प्रक्रिया के रूप में परिभाषित किया जा सकता है जो समस्याओं में वापसी की अपेक्षा को अधिकतम करता है जिसमें उचित प्रणाली प्रदर्शन सुनिश्चित करना और/या सीखने और/या परिनियोजन प्रक्रियाओं के समय सुरक्षा बाधाओं का सम्मान करना महत्वपूर्ण है।<ref>{{cite journal |last1=García |first1=Javier |last2=Fernández |first2=Fernando |title=सुरक्षित सुदृढीकरण सीखने पर एक व्यापक सर्वेक्षण|url=https://jmlr.org/papers/volume16/garcia15a/garcia15a.pdf |journal=The Journal of Machine Learning Research |date=1 January 2015 |volume=16 |issue=1 |pages=1437–1480 }}</ref> | ||
Line 353: | Line 349: | ||
* [https://lilianweng.github.io/posts/2018-02-19-rl-overview/ A (Long) Peek into Reinforcement Learning] | * [https://lilianweng.github.io/posts/2018-02-19-rl-overview/ A (Long) Peek into Reinforcement Learning] | ||
[[Category:Articles with hatnote templates targeting a nonexistent page]] | |||
[[Category:CS1 English-language sources (en)]] | |||
[[Category: | [[Category:CS1 maint]] | ||
[[Category:Collapse templates]] | |||
[[Category: | |||
[[Category:Created On 29/05/2023]] | [[Category:Created On 29/05/2023]] | ||
[[Category:Lua-based templates]] | |||
[[Category:Machine Translated Page]] | |||
[[Category:Multi-column templates]] | |||
[[Category:Navigational boxes| ]] | |||
[[Category:Navigational boxes without horizontal lists]] | |||
[[Category:Pages using div col with small parameter]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Sidebars with styles needing conversion]] | |||
[[Category:Template documentation pages|Documentation/doc]] | |||
[[Category:Templates Translated in Hindi]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates generating microformats]] | |||
[[Category:Templates that add a tracking category]] | |||
[[Category:Templates that are not mobile friendly]] | |||
[[Category:Templates that generate short descriptions]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:Templates using under-protected Lua modules]] | |||
[[Category:Webarchive template wayback links]] | |||
[[Category:Wikipedia fully protected templates|Div col]] | |||
[[Category:Wikipedia metatemplates]] | |||
[[Category:मार्कोव मॉडल]] | |||
[[Category:विश्वास संशोधन]] | |||
[[Category:सुदृढीकरण सीखना| सुदृढीकरण सीखना ]] |
Latest revision as of 16:37, 18 September 2023
रीइंफोर्समेंट लर्निंग (आरएल) मशीन लर्निंग का एक क्षेत्र है जो इस बात से संबंधित है कि बुद्धिमान एजेंटों को संचयी इनाम की धारणा को अधिकतम करने के लिए पर्यावरण में कार्रवाई कैसे करनी चाहिए। रीइन्फोर्समेंट लर्निंग सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग के साथ-साथ तीन मूलभूत मशीन लर्निंग प्रतिमानों में से एक है।
सुदृढीकरण सीखना पर्यवेक्षित शिक्षण से भिन्न होता है जिसमें लेबल किए गए इनपुट/आउटपुट जोड़े प्रस्तुत करने की आवश्यकता नहीं होती है और उप-इष्टतम क्रियाओं को स्पष्ट रूप से ठीक करने की आवश्यकता नहीं होती है। इसके अतिरिक्त ध्यान अन्वेषण (अज्ञात क्षेत्र का) और शोषण (वर्तमान ज्ञान का) के बीच संतुलन खोजने पर है।[1]
पर्यावरण को सामान्यतः मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में कहा जाता है, क्योंकि इस संदर्भ के लिए कई सुदृढीकरण सीखने वाले एल्गोरिदम डायनामिक प्रोग्रामिंग विधियों का उपयोग करते हैं।[2] मौलिक डायनामिक प्रोग्रामिंग विधियों और सुदृढीकरण सीखने के एल्गोरिदम के बीच मुख्य अंतर यह है कि बाद वाले एमडीपी के एक स्पष्ट गणितीय मॉडल के ज्ञान को नहीं मानते हैं और वे बड़े एमडीपी को लक्षित करते हैं जहां स्पष्ट विधि अव्यवहारिक हो जाते हैं।
परिचय
इसकी व्यापकता के कारण खेल सिद्धांत कंट्रोल सिद्धांत गतिविधि अनुसंधान सूचना सिद्धांत अनुकरण आधारित अनुकूलन बहु एजेंट प्रणाली और आंकड़े जैसे कई विषयों में रीइन्फोर्समेंट लर्निंग का अध्ययन किया जाता है। संचालन अनुसंधान और नियंत्रण साहित्य में सुदृढीकरण सीखने को अनुमानित डायनामिक प्रोग्रामिंग या न्यूरो-डायनामिक प्रोग्रामिंग कहा जाता है। सुदृढीकरण सीखने में रुचि की समस्याओं का इष्टतम नियंत्रण सिद्धांत में भी अध्ययन किया गया है जो अधिकत्तर इष्टतम समाधानों के अस्तित्व और लक्षण वर्णन से संबंधित है और उनकी स्पष्ट गणना के लिए एल्गोरिदम और सीखने या सन्निकटन के साथ कम विशेष रूप से अनुपस्थिति में पर्यावरण का गणितीय मॉडल अर्थशास्त्र और गेम सिद्धांत में रीइन्फोर्समेंट लर्निंग का उपयोग यह समझाने के लिए किया जा सकता है कि बाध्य तर्कसंगतता के तहत संतुलन कैसे उत्पन्न हो सकता है।
मूलभूत सुदृढीकरण सीखने को मार्कोव निर्णय प्रक्रिया मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में तैयार किया गया है:
- पर्यावरण और एजेंट अवस्थाओ का एक सेट, S;
- एजेंट के कार्यों A का एक सेट;
- संक्रमण की संभावना है (पर समय ) अवस्था से अवस्था कार्रवाई के तहत।
- कार्रवाई के साथ से में संक्रमण के बाद तत्काल इनाम है।
सुदृढीकरण सीखने का उद्देश्य एजेंट के लिए एक इष्टतम या लगभग-इष्टतम नीति सीखना है जो इनाम कार्य या अन्य उपयोगकर्ता द्वारा प्रदान किए गए सुदृढीकरण संकेत को अधिकतम करता है जो तत्काल पुरस्कारों से जमा होता है। यह पशु मनोविज्ञान में होने वाली प्रक्रियाओं के समान है। उदाहरण के लिए जैविक सर दर्द और भूख जैसे संकेतों को नकारात्मक सुदृढीकरण के रूप में व्याख्या करने के लिए कठोर होते हैं और सकारात्मक सुदृढीकरण के रूप में आनंद और भोजन के सेवन की व्याख्या करते हैं। कुछ परिस्थितियों में, जानवर इन पुरस्कारों को अनुकूलित करने वाले व्यवहारों में सम्मिलित होना सीख सकते हैं। इससे पता चलता है कि जानवर सुदृढीकरण सीखने में सक्षम हैं।[3][4]
एक मूलभूत सुदृढीकरण सीखने वाला एजेंट AI अपने पर्यावरण के साथ असतत समय चरणों में परस्पर क्रिया करता है। प्रत्येक समय t पर, एजेंट को वर्तमान स्थिति और पुरस्कार प्राप्त होता है। इसके बाद यह उपलब्ध क्रियाओं के सेट से एक क्रिया चुनता है, जिसे बाद में पर्यावरण को भेजा जाता है। पर्यावरण एक नई अवस्था में जाता है और संक्रमण से जुड़ा इनाम निर्धारित होता है। सुदृढीकरण सीखने वाले एजेंट का लक्ष्य एक नीति सीखना है: , जो अपेक्षित संचयी इनाम को अधिकतम करता है।
एमडीपी के रूप में समस्या का सूत्रीकरण यह मानता है कि एजेंट वर्तमान पर्यावरणीय स्थिति को सीधे देखता है इस स्थिति में कहा जाता है कि समस्या का पूर्ण अवलोकन है। यदि एजेंट के पास केवल अवस्थाओ के एक सबसेट तक पहुंच है,या यदि देखे गए अवस्था ध्वनि से दूषित हैं तो एजेंट को आंशिक अवलोकन क्षमता कहा जाता है और औपचारिक रूप से समस्या को आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया के रूप में तैयार किया जाना चाहिए। दोनों ही स्थिति में एजेंट के लिए उपलब्ध कार्रवाइयों के सेट को प्रतिबंधित किया जा सकता है. उदाहरण के लिए खाते की शेष राशि की स्थिति सकारात्मक होने के लिए प्रतिबंधित की जा सकती है; यदि अवस्था का वर्तमान मान 3 है और अवस्था संक्रमण मान को 4 से कम करने का प्रयास करता है, तो संक्रमण की अनुमति नहीं दी जाएगी।
जब एजेंट के प्रदर्शन की तुलना एक ऐसे एजेंट से की जाती है जो उत्तम विधि से काम करता है, तो प्रदर्शन में अंतर शोक की धारणा (गेम सिद्धांत ) को जन्म देता है। उत्तम विधि से कार्य करने के लिए एजेंट को अपने कार्यों के दीर्घकालिक परिणामों (अर्थात भविष्य की आय को अधिकतम करना) के बारे में तर्क करना चाहिए, चूँकि इससे जुड़ा तत्काल इनाम नकारात्मक हो सकता है।
इस प्रकार सुदृढीकरण सीखना विशेष रूप से उन समस्याओं के अनुकूल है जिनमें दीर्घकालिक बनाम अल्पकालिक इनाम व्यापार बंद सम्मिलित है। इसे रोबोट नियंत्रण, एलिवेटर शेड्यूलिंग, दूरसंचार, बैकगैमौन, चेकर्स और गो (अल्फागो) सहित विभिन्न समस्याओं पर सफलतापूर्वक प्रयुक्त किया गया है।
दो तत्व सुदृढीकरण सीखने को शक्तिशाली बनाते हैं: प्रदर्शन को अनुकूलित करने के लिए नमूनों का उपयोग और बड़े वातावरण से निपटने के लिए कार्य सन्निकटन का उपयोग इन दो प्रमुख घटकों के लिए धन्यवाद सुदृढीकरण सीखने का उपयोग निम्नलिखित स्थितियों में बड़े वातावरण में किया जा सकता है:
- पर्यावरण का एक मॉडल ज्ञात है किन्तु एक बंद रूप अभिव्यक्ति उपलब्ध नहीं है;
- पर्यावरण का केवल एक सिमुलेशन मॉडल दिया गया है (सिमुलेशन-आधारित अनुकूलन का विषय);[5]
- पर्यावरण के बारे में जानकारी एकत्र करने का एकमात्र विधि इसके साथ अंतःक्रिया करना है।
इन समस्याओं में से पहली दो समस्याओं को नियोजन समस्या माना जा सकता है (चूंकि मॉडल का कोई रूप उपलब्ध है) जबकि अंतिम समस्या को वास्तविक सीखने की समस्या माना जा सकता है। चूँकि सुदृढीकरण सीखने से दोनों नियोजन समस्याओं को मशीन सीखने की समस्याओं में बदल दिया जाता है।
अन्वेषण
बर्नेटास और कटेहाकिस (1997) में बहु-हथियारबंद दस्यु समस्या और परिमित अवस्था अंतरिक्ष एमडीपी के माध्यम से अन्वेषण बनाम शोषण व्यापार-बंद का सबसे गहन अध्ययन किया गया है।[6]
सुदृढीकरण सीखने के लिए चतुर अन्वेषण तंत्र की आवश्यकता होती है; अनुमानित संभाव्यता वितरण के संदर्भ के बिना व्यवस्थित विधि से क्रियाओं का चयन करना खराब प्रदर्शन दर्शाता है। (छोटे) परिमित एमडीपी का स्थति अपेक्षाकृत अच्छी तरह से समझा गया है। चूँकि एल्गोरिदम की कमी के कारण जो अवस्थाओ की संख्या (या अनंत अवस्था रिक्त स्थान के साथ समस्याओं के मापदंड) के साथ अच्छी तरह से स्केल करते हैं सरल अन्वेषण विधियां सबसे व्यावहारिक हैं।
ऐसा ही एक विधि है -ग्रीडी जहां एक पैरामीटर है जो अन्वेषण बनाम शोषण की मात्रा को नियंत्रित करता है। प्रायिकता के साथ शोषण का चयन किया जाता है, और एजेंट उस क्रिया को चुनता है जिसके बारे में उसका मानना है कि इसका सबसे अच्छा दीर्घकालिक प्रभाव होता है (कार्रवाई के बीच संबंध यादृच्छिक रूप से समान रूप से टूट जाते हैं)। वैकल्पिक रूप से प्रायिकता के साथ अन्वेषण को चुना जाता है और क्रिया को यादृच्छिक रूप से समान रूप से चुना जाता है। सामान्यतः एक निश्चित पैरामीटर होता है, किन्तु या तो एक शेड्यूल के अनुसार समायोजित किया जा सकता है (एजेंट को उत्तरोत्तर कम खोजता है) या अनुकूली रूप से ह्यूरिस्टिक्स पर आधारित होता है।
नियंत्रण सीखने के लिए एल्गोरिदम
यहां तक कि यदि अन्वेषण के उद्देश्य की अवहेलना की जाती है और यहां तक कि यदि अवस्था अवलोकनीय था (इसके बाद माना जाता है) समस्या यह पता लगाने के लिए पिछले अनुभव का उपयोग करने के लिए बनी हुई है कि कौन से कार्य उच्च संचयी पुरस्कारों की ओर ले जाते हैं।
इष्टतमता का मानदंड
नीति
एजेंट की कार्रवाई का चयन एक मानचित्र के रूप में किया जाता है जिसे नीति कहा जाता है:
नीति मानचित्र जब स्थिति में कार्रवाई करने की संभावना देता है। .[7]: 61 नियतात्मक नीतियां भी हैं।
अवस्था -मान कार्य
मान कार्य के रूप में परिभाषित किया गया है अवस्था से प्रारंभ होने वाली अपेक्षित वापसी , अर्थात , और क्रमिक रूप से नीति का पालन करना . इसलिए, मोटे तौर पर बोलते हुए, मान कार्य का अनुमान है कि यह किसी दिए गए अवस्था में कितना अच्छा है।[7]: 60
जहां यादृच्छिक चर वापसी को दर्शाता है, और इसे भविष्य के रियायती पुरस्कारों के योग के रूप में परिभाषित किया गया है:
जहां चरण पर पुरस्कार है छूट-दर है। गामा 1 से कम है इसलिए दूर के भविष्य की घटनाओं को तत्काल भविष्य की घटनाओं से कम भारित किया जाता है।
एल्गोरिद्म को अधिकतम प्रत्याशित प्रतिफल वाली नीति खोजनी चाहिए। एमडीपी के सिद्धांत से यह ज्ञात होता है कि सामान्यता के हानि के बिना खोज को तथाकथित स्थिर नीतियों के सेट तक सीमित किया जा सकता है। एक नीति स्थिर होती है यदि उसके द्वारा लौटाया गया क्रिया-वितरण केवल अंतिम सीमा पर निर्भर करता है (अवलोकन एजेंट के इतिहास से)। खोज को नियतात्मक स्थिर नीतियों तक सीमित किया जा सकता है। एक नियतात्मक स्थिर नीति निश्चित रूप से वर्तमान स्थिति के आधार पर क्रियाओं का चयन करती है। चूंकि इस तरह की किसी भी नीति को अवस्थाओ के सेट से लेकर कार्रवाई के सेट तक मैपिंग के साथ पहचाना जा सकता है, इसलिए इन नीतियों की पहचान ऐसे मैपिंग से की जा सकती है, जिसमें व्यापकता का कोई हानि नहीं है।
क्रूर बल
क्रूर-बल खोज एप्रोच में दो चरण होते हैं:
- प्रत्येक संभावित नीति के लिए, इसका पालन करते हुए नमूना रिटर्न
- अधिकतम प्रत्याशित रिटर्न वाली पॉलिसी चुनें
इसके साथ एक समस्या यह है कि नीतियों की संख्या बड़ी या अनंत भी हो सकती है। दूसरा यह है कि रिटर्न का अंतर बड़ा हो सकता है, जिसके लिए प्रत्येक पॉलिसी की वापसी का स्पष्ट अनुमान लगाने के लिए कई नमूनों की आवश्यकता होती है।
इन समस्याओं में सुधार किया जा सकता है यदि हम कुछ संरचना मान लें और एक नीति से उत्पन्न नमूनों को दूसरों के लिए किए गए अनुमानों को प्रभावित करने की अनुमति दें। इसे प्राप्त करने के लिए दो मुख्य दृष्टिकोण मूल्य प्रकार्य अनुमान और प्रत्यक्ष नीति खोज हैं।
मान कार्य
मान कार्य दृष्टिकोण ऐसी नीति खोजने का प्रयास करता है जो कुछ नीति के लिए अपेक्षित रिटर्न के अनुमानों के एक सेट को बनाए रखते हुए रिटर्न को अधिकतम करता है (सामान्यतः या तो वर्तमान [ऑन-पॉलिसी] या इष्टतम [ऑफ-पॉलिसी] एक)।
ये विधियाँ मार्कोव निर्णय प्रक्रियाओं के सिद्धांत पर निर्भर करती हैं, जहाँ इष्टतमता को एक अर्थ में परिभाषित किया गया है जो ऊपर वाले से अधिक शक्तिशाली है: एक नीति को इष्टतम कहा जाता है यदि यह किसी भी प्रारंभिक अवस्था से सर्वोत्तम-प्रत्याशित प्रतिफल प्राप्त करती है (अर्थात, प्रारंभिक वितरण नहीं खेलते हैं) इस परिभाषा में भूमिका) फिर से स्थिर नीतियों के बीच एक इष्टतम नीति सदैव पाई जा सकती है।
इष्टतमता को औपचारिक विधि से परिभाषित करने के लिए, नीति के मान को परिभाषित करें
जहाँ निम्नलिखित से जुड़े रिटर्न के लिए खड़ा है प्रारंभिक अवस्था से . परिभाषित के अधिकतम संभव मान के रूप में , जहाँ बदलने की अनुमति है,
एक नीति जो प्रत्येक अवस्था में इन इष्टतम मानो को प्राप्त करती है, इष्टतम कहलाती है। स्पष्ट रूप से, एक नीति जो इस शक्तिशाली अर्थ में इष्टतम है, इस अर्थ में भी इष्टतम है कि यह अपेक्षित प्रतिफल को अधिकतम करती है , तब से , जहाँ वितरण से बेतरतीब विधि से नमूना लिया गया अवस्था है प्रारंभिक अवस्थाओं की (इसलिए ).
यद्यपि अवस्था -मान इष्टतमता को परिभाषित करने के लिए पर्याप्त हैं, यह क्रिया-मानो को परिभाषित करने के लिए उपयोगी है। एक अवस्था दिया , एक कार्यवाही और एक नीति , जोड़ी का क्रिया-मान अंतर्गत द्वारा परिभाषित किया गया है
जहां अब अवस्था में पहली बार कार्रवाई करने और उसके बाद के बाद से जुड़े यादृच्छिक रिटर्न के लिए है।
एमडीपी के सिद्धांत में कहा गया है कि यदि एक इष्टतम नीति है, हम कार्रवाई का चयन करके इष्टतम रूप से कार्य करते हैं (इष्टतम कार्रवाई करें)। प्रत्येक अवस्था में उच्चतम मान के साथ, . ऐसी इष्टतम नीति का क्रिया-मान कार्य () को इष्टतम क्रिया-मान कार्य कहा जाता है और सामान्यतः इसे निरूपित किया जाता है . संक्षेप में, केवल इष्टतम क्रिया-मान कार्य का ज्ञान ही यह जानने के लिए पर्याप्त है कि उत्तम विधि से कैसे कार्य किया जाए।
एमडीपी के पूर्ण ज्ञान को मानते हुए, इष्टतम क्रिया-मान कार्य की गणना करने के लिए दो मूलभूत दृष्टिकोण मान पुनरावृत्ति और नीति पुनरावृत्ति हैं। दोनों एल्गोरिदम कार्यों के अनुक्रम की गणना करते हैं () जो अभिसरण करता है . इन कार्यों की गणना में पूरे अवस्था -स्थान पर अपेक्षाओं की गणना करना सम्मिलित है जो कि सबसे छोटे (परिमित) एमडीपी के अतिरिक्त सभी के लिए अव्यावहारिक है। सुदृढीकरण सीखने के विधियों में, बड़े अवस्था -कार्रवाई स्थानों पर मान कार्यों का प्रतिनिधित्व करने की आवश्यकता से निपटने के लिए नमूनों पर औसत और कार्य सन्निकटन विधियों का उपयोग करके अपेक्षाओं का अनुमान लगाया जाता है।
मोंटे कार्लो के विधि
मोंटे कार्लो नमूनाकरण का उपयोग एल्गोरिथम में किया जा सकता है जो नीति पुनरावृत्ति की नकल करता है। नीति पुनरावृत्ति में दो चरण होते हैं: नीति मूल्यांकन और नीति सुधार है ।
मोंटे कार्लो का उपयोग नीति मूल्यांकन चरण में किया जाता है। इस चरण में, एक स्थिर, नियतात्मक नीति दी गई है , लक्ष्य कार्य मानों की गणना करना है (या उनके लिए एक अच्छा सन्निकटन) सभी स्टेट-एक्शन जोड़े के लिए . मान लें (सरलता के लिए) कि एमडीपी परिमित है, कार्रवाई-मानो को समायोजित करने के लिए पर्याप्त मेमोरी उपलब्ध है और यह कि समस्या एपिसोडिक है और प्रत्येक एपिसोड के बाद कुछ यादृच्छिक प्रारंभिक अवस्था से एक नया प्रारंभ होता है। फिर किसी दिए गए स्टेट-एक्शन जोड़ी के मान का अनुमान से उत्पन्न होने वाले नमूना रिटर्न के औसत से गणना की जा सकती है अधिक समय तक। पर्याप्त समय दिया गया है, इस प्रकार यह प्रक्रिया एक स्पष्ट अनुमान का निर्माण कर सकती है क्रिया-मान कार्य का . यह नीति मूल्यांकन चरण के विवरण को समाप्त करता है।
नीति सुधार चरण में, के संबंध में ग्रीडी नीति की गणना करके अगली नीति प्राप्त की जाती है : एक अवस्था दिया , यह नई नीति अधिकतम करने वाली कार्रवाई लौटाती है . व्यावहारिक रूप से आलसी मूल्यांकन अधिकतम क्रियाओं की गणना को तब तक के लिए टाल सकता है जब उनकी आवश्यकता होती है।
इस प्रक्रिया की समस्याओं में सम्मिलित हैं:
1. प्रक्रिया में एक उप-इष्टतम नीति का मूल्यांकन करने में बहुत अधिक समय लग सकता है।
2. यह नमूने का अक्षमता से उपयोग करता है जिसमें एक लंबा प्रक्षेपवक्र केवल एकल अवस्था -क्रिया जोड़ी के अनुमान में सुधार करता है जिसने प्रक्षेपवक्र प्रारंभ किया।
3. जब प्रक्षेपवक्र के साथ रिटर्न में उच्च विचरण होता है, तो अभिसरण धीमा होता है।
4. यह एपिसोडिक समस्या में ही काम करता है।
5. यह छोटे, सीमित एमडीपी में ही काम करता है।
अस्थायी अंतर के विधि
मानो के व्यवस्थित होने से पहले प्रक्रिया को (कुछ या सभी अवस्थाओ में) नीति को बदलने की अनुमति देकर पहली समस्या को ठीक किया जाता है। यह भी समस्याग्रस्त हो सकता है क्योंकि यह अभिसरण को रोक सकता है। अधिकांश वर्तमान एल्गोरिदम ऐसा करते हैं सामान्यीकृत नीति पुनरावृत्ति एल्गोरिदम के वर्ग को जन्म देते हैं। अनेक अभिनेता-आलोचक विधियां इसी श्रेणी में आती हैं।
दूसरे उद्देश्य को प्रक्षेपवक्र को उनमें किसी भी अवस्था -एक्शन जोड़ी में योगदान करने की अनुमति देकर ठीक किया जा सकता है। यह तीसरी समस्या के साथ कुछ सीमा तक सहायता कर सकता है चूँकि एक उत्तम समाधान जब रिटर्न में उच्च विचरण होता है तो सटन की अस्थायी अंतर (टीडी) पद्धतियां होती हैं जो पुनरावर्ती बेलमैन समीकरण पर आधारित होती हैं।[8][9] टीडी विधियों में गणना वृद्धिशील हो सकती है (जब प्रत्येक संक्रमण के बाद स्मृति बदल जाती है और संक्रमण दूर हो जाता है) या बैच (जब संक्रमण बैच किए जाते हैं और बैच के आधार पर अनुमानों की गणना की जाती है)। बैच विधियाँ जैसे कि कम से कम वर्ग अस्थायी अंतर विधि,[10] नमूनों में जानकारी का उत्तम उपयोग कर सकते हैं, जबकि वृद्धिशील विधियाँ एकमात्र विकल्प हैं जब बैच विधियाँ उनकी उच्च कम्प्यूटेशनल या मेमोरी जटिलता के कारण अक्षम होती हैं। कुछ विधियाँ दो दृष्टिकोणों को संयोजित करने का प्रयास करती हैं। लौकिक भिन्नताओं पर आधारित पद्धतियाँ भी चौथी समस्या को दूर करती हैं।
टीडी के लिए विशिष्ट एक अन्य समस्या पुनरावर्ती बेलमैन समीकरण पर उनकी निर्भरता से आती है। अधिकांश टीडी विधियों में एक तथाकथित है पैरामीटर जो मोंटे कार्लो विधियों के बीच लगातार प्रक्षेपित कर सकता है जो बेलमैन समीकरणों पर विश्वास नहीं करते हैं और मूल टीडी विधियां जो पूरी तरह से बेलमैन समीकरणों पर विश्वास करती हैं। यह इस समस्या को दूर करने में कारगर हो सकता है।
फंक्शन सन्निकटन के विधि
पांचवें उद्देश्य को संबोधित करने के लिए, कार्य सन्निकटन विधियों का उपयोग किया जाता है। रैखिक कार्य सन्निकटन एक मानचित्रण से प्रारंभ होता है जो प्रत्येक अवस्था -क्रिया जोड़ी को एक परिमित-आयामी वेक्टर प्रदान करता है। फिर, अवस्था -क्रिया युग्म के क्रिया मान को कुछ वज़न के साथ के घटकों को रैखिक रूप से जोड़कर प्राप्त किया जाता है।
एल्गोरिदम तब अलग-अलग अवस्था -क्रिया जोड़े से जुड़े मानो को समायोजित करने के अतिरिक्त वजन समायोजित करता है। गैर-पैरामीट्रिक आँकड़ों (जो अपनी स्वयं की विशेषताओं का निर्माण करने के लिए देखा जा सकता है) से विचारों पर आधारित विधियों का पता लगाया गया है।
क्यू-लर्निंग एल्गोरिथम और इसके कई वेरिएंट को जन्म देते हुए मान इटरेशन को प्रारंभिक बिंदु के रूप में भी उपयोग किया जा सकता है।[11] स्टोकेस्टिक खोज समस्याओं में विभिन्न अनुप्रयोगों के साथ क्यू का प्रतिनिधित्व करने के लिए एक तंत्रिका नेटवर्क का उपयोग करते समय डीप क्यू-लर्निंग विधियों को सम्मिलित करना है।[12]
क्रिया-मानो का उपयोग करने में समस्या यह है कि उन्हें प्रतिस्पर्धात्मक क्रिया मानो के अत्यधिक स्पष्ट अनुमानों की आवश्यकता हो सकती है जो रिटर्न ध्वनि होने पर प्राप्त करना कठिन हो सकता है चूँकि अस्थायी अंतर विधियों द्वारा इस समस्या को कुछ सीमा तक कम किया जाता है। तथाकथित संगत कार्य सन्निकटन पद्धति का उपयोग करना सामान्यता और दक्षता से समझौता करता है।
प्रत्यक्ष नीति खोज
एक वैकल्पिक विधि पॉलिसी स्पेस (कुछ सबसेट) में सीधे खोज करना है जिस स्थिति में समस्या स्टोचैस्टिक अनुकूलन का स्थति बन जाती है। उपलब्ध दो दृष्टिकोण ढाल-आधारित और ढाल-मुक्त विधियाँ हैं।
ढाल-आधारित विधियाँ (नीति ढाल विधियाँ) एक परिमित-आयामी (पैरामीटर) स्थान से नीतियों के स्थान तक मानचित्रण के साथ प्रारंभ होती हैं: पैरामीटर वेक्टर दिया गया है, चलो , से संबंधित नीति को दर्शाता है द्वारा प्रदर्शन कार्य को परिभाषित करना है
हल्के परिस्थितियों में यह कार्य पैरामीटर वेक्टर के कार्य के रूप में अलग-अलग होगा। यदि का ग्रेडिएंट ज्ञात था, तो ग्रेडिएंट एसेंट का उपयोग किया जा सकता है। चूंकि ढाल के लिए एक विश्लेषणात्मक अभिव्यक्ति उपलब्ध नहीं है केवल ध्वनि का अनुमान उपलब्ध है। इस तरह के एक अनुमान को कई विधियों से बनाया जा सकता है जो एल्गोरिदम को जन्म देता है जैसे कि विलियम्स की रीइन्फोर्स विधि (जिसे सिमुलेशन-आधारित अनुकूलन साहित्य में संभावना अनुपात विधि के रूप में जाना जाता है)। रोबोटिक्स के संदर्भ में नीति खोज विधियों का उपयोग किया गया है।[13] कई नीतिगत खोज विधियां स्थानीय ऑप्टिमा में फंस सकती हैं (क्योंकि वे स्थानीय खोज पर आधारित हैं)।[14][15]
विधियों का एक बड़ा वर्ग ढाल की जानकारी पर विश्वास करने से बचता है। इनमें तैयार किए हुयी धातु पे पानी चढाने की कला , क्रॉस-एन्ट्रॉपी विधि क्रॉस-एन्ट्रॉपी खोज या विकासवादी संगणना के विधि सम्मिलित हैं। कई ग्रेडियेंट-मुक्त विधियां वैश्विक इष्टतम (सिद्धांत रूप में और सीमा में) प्राप्त कर सकती हैं।
नीति खोज पद्धति धीरे-धीरे दिए गए ध्वनि वाले डेटा को अभिसरण कर सकती है। उदाहरण के लिए यह एपिसोडिक समस्याओं में होता है जब प्रक्षेपवक्र लंबे होते हैं और रिटर्न का विचरण बड़ा होता है। मूल्य-कार्य आधारित विधियाँ जो लौकिक अंतरों पर निर्भर करती हैं इस स्थिति में सहायता कर सकती हैं। वर्तमान के वर्षों में अभिनेता-आलोचक विधियों का प्रस्ताव किया गया है और विभिन्न समस्याओं पर अच्छा प्रदर्शन किया है।[16]
मॉडल-आधारित एल्गोरिदम
अंत में उपरोक्त सभी विधियों को एल्गोरिदम के साथ जोड़ा जा सकता है जो पहले एक मॉडल सीखते हैं। उदाहरण के लिए डायना एल्गोरिथम[17] अनुभव से एक मॉडल सीखता है, और वास्तविक बदलाव के अतिरिक्त मान कार्य के लिए अधिक मॉडल किए गए बदलाव प्रदान करने के लिए उसका उपयोग करता है। इस तरह के विधियों को कभी-कभी गैर-पैरामीट्रिक मॉडल के उपयोग के लिए बढ़ाया जा सकता है जैसे कि जब संक्रमण केवल संग्रहीत होते हैं और सीखने के एल्गोरिदम के लिए 'फिर से चलाए जाते हैं'[18]।
मान कार्य को अपडेट करने के अतिरिक्त मॉडल का उपयोग करने के अन्य विधि हैं।[19] उदाहरण के लिए, मॉडल भविष्य कहनेवाला नियंत्रण में मॉडल का उपयोग सीधे व्यवहार को अपडेट करने के लिए किया जाता है।
सिद्धांत
अधिकांश एल्गोरिदम के स्पर्शोन्मुख और परिमित-नमूना व्यवहार दोनों को अच्छी तरह से समझा जाता है। सिद्ध रूप से अच्छे ऑनलाइन प्रदर्शन (अन्वेषण उद्देश्य को संबोधित करते हुए) वाले एल्गोरिद्म ज्ञात हैं।
बर्नेटास और कटेहाकिस (1997) में एमडीपी का कुशल अन्वेषण दिया गया है।[6] कई एल्गोरिदम के लिए परिमित-समय की प्रदर्शन सीमाएँ भी दिखाई दी हैं किन्तु इन सीमाओं के ढीले होने की उम्मीद है और इस प्रकार सापेक्ष लाभों और सीमाओं को उत्तम विधि से समझने के लिए अधिक काम करने की आवश्यकता है।
वृद्धिशील एल्गोरिदम के लिए स्पर्शोन्मुख अभिसरण उद्देश्यों का समाधान किया गया है टेम्पोरल-अंतर-आधारित एल्गोरिदम पहले की तुलना में नियमो के एक व्यापक सेट के तहत अभिसरण करते हैं (उदाहरण के लिए जब इच्छानुसार से सुचारू कार्य सन्निकटन के साथ उपयोग किया जाता है)।
अनुसंधान
शोध विषयों में सम्मिलित हैं:
- अभिनेता-आलोचक
- अनुकूली विधियां जो बड़ी संख्या में स्थितियों के तहत कम (या नहीं) पैरामीटर के साथ काम करती हैं
- सॉफ्टवेयर परियोजनाओं में बग का पता लगाना[20]
- लगातार सीखना
- तर्क-आधारित रूपरेखाओं के साथ संयोजन[21]
- बड़े एमडीपी में अन्वेषण
- मानव प्रतिक्रिया से सुदृढीकरण सीखना[22]
- कौशल अधिग्रहण में निहित और स्पष्ट सीखने के बीच परस्पर क्रिया
- आंतरिक प्रेरणा (कृत्रिम बुद्धिमत्ता) जो सूचना-प्राप्ति जिज्ञासा-प्रकार के व्यवहारों को कार्य-निर्भर लक्ष्य-निर्देशित व्यवहारों से अलग करती है बड़े मापदंड पर अनुभवजन्य मूल्यांकन
- बड़े (या निरंतर) क्रिया स्थान
- मॉड्यूलर और पदानुक्रमित सुदृढीकरण सीखना[23]
- मल्टी-एजेंट/डिस्ट्रीब्यूटेड रिइन्फोर्समेंट लर्निंग रुचि का विषय है। अनुप्रयोगों का विस्तार हो रहा है।[24]
- निवासी-केंद्रित नियंत्रण
- कंप्यूटिंग संसाधनों का अनुकूलन[25][26][27]
- आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया (उदाहरण के लिए, भविष्य कहनेवाला अवस्था प्रतिनिधित्व का उपयोग करके)
- इनाम कार्य उपन्यास जानकारी को अधिकतम करने पर आधारित है[28][29][30]
- नमूना-आधारित योजना (जैसे, मोंटे कार्लो ट्री खोज पर आधारित)।
- प्रतिभूति व्यापार[31]
- सीखने को स्थानांतरित करें [32]
- टीडी लर्निंग मॉडलिंग डोपामाइन-आधारित लर्निंग इन द ब्रेन मूल नाइग्रा से बेसल गैन्ग्लिया कार्य तक डोपामिनर्जिक अनुमान पूर्वानुमान त्रुटि हैं।
- मूल्य-कार्य और नीति खोज विधियाँ
सुदृढीकरण सीखने के एल्गोरिदम की तुलना
एल्गोरिथ्म | विवरण | नीति | क्रिया स्थान | अवस्था स्थान | संचालिका |
---|---|---|---|---|---|
मोंटे कार्लो | मोंटे कार्लो की हर यात्रा | दोनों में से एक | पृथक | पृथक | प्रतिदर्श-साधन |
क्यू-लर्निंग | अवस्था -कार्रवाई-इनाम-अवस्था | ऑफ नीति | पृथक | पृथक | क्यू-मूल्य |
सार्सा | स्टेट-एक्शन-इनाम-स्टेट-एक्शन | ऑन-नीति | पृथक | पृथक | क्यू-मूल्य |
क्यू-लर्निंग - लैम्ब्डा | अवस्था -कार्रवाई-इनाम-अवस्था योग्यता के निशान के साथ | ऑफ नीति | पृथक | पृथक | क्यू-मूल्य |
सरसा - लैम्ब्डा | योग्यता के निशान के साथ अवस्था -कार्रवाई-इनाम-अवस्था -कार्रवाई | ऑन-नीति | पृथक | पृथक | क्यू-मूल्य |
डीक्यूएन | डीप क्यू नेटवर्क | ऑफ नीति | पृथक | निरंतर | क्यू-मूल्य |
डीडीपीजी | दीप नियतात्मक नीति ढाल | ऑफ नीति | निरंतर | निरंतर | क्यू-मूल्य |
ए3सी | एसिंक्रोनस एडवांटेज एक्टर-क्रिटिक एल्गोरिथम | ऑन-नीति | निरंतर | निरंतर | लाभ |
एनएएफ | सामान्यीकृत लाभ कार्यों के साथ क्यू-लर्निंग | ऑफ नीति | निरंतर | निरंतर | लाभ |
टीआरपीओ | विश्वास क्षेत्र नीति अनुकूलन | ऑन-नीति | निरंतर और पृथक | निरंतर | लाभ |
पीपीओ | समीपस्थ नीति अनुकूलन | ऑन-नीति | निरंतर और पृथक | निरंतर | लाभ |
टीडी3 | ट्विन डिलेड डीप डिटर्मिनिस्टिक पॉलिसी ग्रेडिएंट | ऑफ नीति | निरंतर | निरंतर | क्यू-मूल्य |
एसएसी | शीतल अभिनेता-आलोचक | ऑफ नीति | निरंतर | निरंतर | लाभ |
साहचर्य सुदृढीकरण सीखना
साहचर्य सुदृढीकरण सीखने के कार्य स्टोकेस्टिक लर्निंग ऑटोमेटा कार्यों और पर्यवेक्षित शिक्षण प्रतिरूप वर्गीकरण कार्यों के पहलुओं को जोड़ते हैं। साहचर्य सुदृढीकरण सीखने के कार्यों में सीखने की प्रणाली अपने पर्यावरण के साथ एक बंद लूप में इंटरैक्ट करती है।[33]
गहरा सुदृढीकरण सीखना
यह दृष्टिकोण एक गहरे तंत्रिका नेटवर्क का उपयोग करके और स्पष्ट रूप से अवस्था स्थान को डिजाइन किए बिना सुदृढीकरण सीखने का विस्तार करता है।[34] गूगल डीपमाइंड द्वारा अटारी गेम सीखने पर किए गए काम ने गहन सुदृढीकरण सीखना या एंड-टू-एंड रीइन्फोर्समेंट लर्निंग पर ध्यान बढ़ाया है ।
प्रतिकूल गहन सुदृढीकरण सीखना
एडवर्सेरियल डीप रीइन्फोर्समेंट लर्निंग रीइन्फोर्समेंट लर्निंग में अनुसंधान का एक सक्रिय क्षेत्र है जो सीखी हुई नीतियों की कमियों पर ध्यान केंद्रित करता है। इस शोध क्षेत्र में कुछ अध्ययनों ने प्रारंभ में दिखाया कि सुदृढीकरण सीखने की नीतियां अगोचर प्रतिकूल जोड़-तोड़ के लिए अतिसंवेदनशील हैं।[35][36][37] जबकि इन संवेदनशीलताओं को दूर करने के लिए कुछ विधियों का प्रस्ताव किया गया है वर्तमान के अध्ययनों में यह दिखाया गया है कि ये प्रस्तावित समाधान गहन सुदृढीकरण सीखने की नीतियों की वर्तमान कमियों का स्पष्ट प्रतिनिधित्व प्रदान करने से बहुत दूर हैं।[38]
अस्पष्ट सुदृढीकरण सीखना
आरएल में फजी नियंत्रण प्रणाली प्रारंभ करके[39] निरंतर स्थान में फजी नियम के साथ स्टेट-एक्शन मान कार्य का अनुमान लगाना संभव हो जाता है। फजी नियमों का इफ -देन रूप इस दृष्टिकोण को प्राकृतिक भाषा के समीप के रूप में परिणामों को व्यक्त करने के लिए उपयुक्त बनाता है। फ़ज़ी रूल इंटरपोलेशन के साथ एफआरएल का विस्तार [40] कार्डिनल नियमों (सबसे महत्वपूर्ण अवस्था -कार्रवाई मानो ) पर जोर देने के लिए कम आकार के विरल फ़ज़ी नियम-आधारों के उपयोग की अनुमति देता है।
विपरीत सुदृढीकरण सीखना
विपरीत सुदृढीकरण सीखने (आईआरएल) में, कोई इनाम कार्य नहीं दिया जाता है। इसके अतिरिक्त एक विशेषज्ञ के देखे गए व्यवहार को देखते हुए इनाम कार्य का अनुमान लगाया जाता है। विचार देखे गए व्यवहार की नकल करना है जो अधिकांशतः इष्टतम या इष्टतम के समीप होता है।[41]
सुरक्षित सुदृढीकरण सीखना
सुरक्षित सुदृढीकरण सीखने (एसआरएल) को सीखने की नीतियों की प्रक्रिया के रूप में परिभाषित किया जा सकता है जो समस्याओं में वापसी की अपेक्षा को अधिकतम करता है जिसमें उचित प्रणाली प्रदर्शन सुनिश्चित करना और/या सीखने और/या परिनियोजन प्रक्रियाओं के समय सुरक्षा बाधाओं का सम्मान करना महत्वपूर्ण है।[42]
यह भी देखें
- अस्थायी अंतर सीखना
- प्र-सीखना
- स्टेट-एक्शन-इनाम-स्टेट-एक्शन (एसएआरएसए)
- मानव प्रतिक्रिया से सुदृढीकरण सीखना
- काल्पनिक नाटक
- लर्निंग क्लासिफायर सिस्टम
- इष्टतम नियंत्रण
- गतिशील उपचार व्यवस्था
- त्रुटि चालित शिक्षा
- मल्टी-एजेंट सुदृढीकरण सीखना
- मल्टी-एजेंट सिस्टम
- वितरित कृत्रिम बुद्धि
- आंतरिक प्रेरणा (कृत्रिम बुद्धि)
- आनुवंशिक एल्गोरिदम
- शिक्षुता सीखना
- मॉडल-मुक्त (सुदृढ़ीकरण सीखना)
संदर्भ
- ↑ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. S2CID 1708582. Archived from the original on 2001-11-20.
- ↑ van Otterlo, M.; Wiering, M. (2012). सुदृढीकरण सीखने और मार्कोव निर्णय प्रक्रिया. pp. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
{{cite book}}
:|journal=
ignored (help) - ↑ Russell, Stuart J.; Norvig, Peter (2010). Artificial intelligence : a modern approach (Third ed.). Upper Saddle River, New Jersey. pp. 830, 831. ISBN 978-0-13-604259-4.
{{cite book}}
: CS1 maint: location missing publisher (link) - ↑ Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 July 2012). "सुदृढीकरण सीखने और निर्णय लेने का तंत्रिका आधार". Annual Review of Neuroscience. 35 (1): 287–308. doi:10.1146/annurev-neuro-062111-150512. PMC 3490621. PMID 22462543.
- ↑ Gosavi, Abhijit (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Operations Research/Computer Science Interfaces Series. Springer. ISBN 978-1-4020-7454-7.
- ↑ 6.0 6.1 Burnetas, Apostolos N.; Katehakis, Michael N. (1997), "Optimal adaptive policies for Markov Decision Processes", Mathematics of Operations Research, 22: 222–255, doi:10.1287/moor.22.1.222
- ↑ 7.0 7.1 "Reinforcement learning: An introduction" (PDF).
- ↑ Sutton, Richard S. (1984). रिनफोर्समेंट लर्निंग में टेम्पोरल क्रेडिट असाइनमेंट (PhD thesis). University of Massachusetts, Amherst, MA.
- ↑ Sutton & Barto 1998, §6. Temporal-Difference Learning.
- ↑ Bradtke, Steven J.; Barto, Andrew G. (1996). "Learning to predict by the method of temporal differences". Machine Learning. 22: 33–57. CiteSeerX 10.1.1.143.857. doi:10.1023/A:1018056104778. S2CID 20327856.
- ↑ Watkins, Christopher J.C.H. (1989). Learning from Delayed Rewards (PDF) (PhD thesis). King’s College, Cambridge, UK.
- ↑ Matzliach, Barouch; Ben-Gal, Irad; Kagan, Evgeny (2022). "डीप क्यू-लर्निंग एबिलिटीज के साथ एक स्वायत्त एजेंट द्वारा स्थिर और मोबाइल लक्ष्यों का पता लगाना". Entropy. 24 (8): 1168. Bibcode:2022Entrp..24.1168M. doi:10.3390/e24081168. PMC 9407070. PMID 36010832.
- ↑ Williams, Ronald J. (1987). "A class of gradient-estimating algorithms for reinforcement learning in neural networks". Proceedings of the IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871.
- ↑ Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). रोबोटिक्स के लिए नीति खोज पर एक सर्वेक्षण (PDF). Foundations and Trends in Robotics. Vol. 2. NOW Publishers. pp. 1–142. doi:10.1561/2300000021. hdl:10044/1/12051.
- ↑ Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). "Reinforcement Learning for Humanoid Robotics" (PDF). IEEE-RAS International Conference on Humanoid Robots.
- ↑ Juliani, Arthur (2016-12-17). "Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)". Medium. Retrieved 2018-02-22.
- ↑ Sutton, Richard (1990). "Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming". Machine Learning: Proceedings of the Seventh International Workshop.
- ↑ Lin, Long-Ji (1992). "सुदृढीकरण सीखने, योजना और शिक्षण के आधार पर स्व-सुधार प्रतिक्रियाशील एजेंट" (PDF). Machine Learning volume 8. doi:10.1007/BF00992699.
- ↑ van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "When to use parametric models in reinforcement learning?" (PDF). Advances in Neural Information Processing Systems 32.
- ↑ "On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment". cie.acm.org (in English). Retrieved 2018-11-27.
- ↑ Riveret, Regis; Gao, Yang (2019). "सुदृढीकरण सीखने वाले एजेंटों के लिए एक संभाव्य तर्क रूपरेखा". Autonomous Agents and Multi-Agent Systems (in English). 33 (1–2): 216–274. doi:10.1007/s10458-019-09404-2. S2CID 71147890.
- ↑ Yamagata, Taku; McConville, Ryan; Santos-Rodriguez, Raul (2021-11-16). "विविध कौशल वाले कई मनुष्यों से प्रतिक्रिया के साथ सुदृढीकरण सीखना". arXiv:2111.08596 [cs.LG].
- ↑ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). "Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation". Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS'16. USA: Curran Associates Inc.: 3682–3690. arXiv:1604.06057. Bibcode:2016arXiv160406057K. ISBN 978-1-5108-3881-9.
- ↑ "Reinforcement Learning / Successes of Reinforcement Learning". umichrl.pbworks.com. Retrieved 2017-08-06.
- ↑ Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (March 2020). "सीपीयू-जीपीयू मोबाइल एमपीएसओसी की पावर और थर्मल दक्षता के लिए यूजर इंटरेक्शन अवेयर रीइन्फोर्समेंट लर्निंग". 2020 Design, Automation Test in Europe Conference Exhibition (DATE): 1728–1733. doi:10.23919/DATE48585.2020.9116294. ISBN 978-3-9819263-4-7. S2CID 219858480.
- ↑ Quested, Tony. "एसेक्स इनोवेशन के साथ स्मार्टफोन और स्मार्ट हो जाते हैं". Business Weekly. Retrieved 2021-06-17.
{{cite web}}
: CS1 maint: url-status (link) - ↑ Williams, Rhiannon (2020-07-21). "भविष्य के स्मार्टफोन 'मालिकों के व्यवहार की निगरानी करके अपनी खुद की बैटरी लाइफ बढ़ाएंगे'". i (in English). Retrieved 2021-06-17.
{{cite web}}
: CS1 maint: url-status (link) - ↑ Kaplan, F.; Oudeyer, P. (2004). "Maximizing learning progress: an internal reward system for development". In Iida, F.; Pfeifer, R.; Steels, L.; Kuniyoshi, Y. (eds.). सन्निहित आर्टिफिशियल इंटेलिजेंस. Lecture Notes in Computer Science. Vol. 3139. Berlin; Heidelberg: Springer. pp. 259–270. doi:10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6. S2CID 9781221.
- ↑ Klyubin, A.; Polani, D.; Nehaniv, C. (2008). "Keep your options open: an information-based driving principle for sensorimotor systems". PLOS ONE. 3 (12): e4018. Bibcode:2008PLoSO...3.4018K. doi:10.1371/journal.pone.0004018. PMC 2607028. PMID 19107219.
- ↑ Barto, A. G. (2013). "Intrinsic motivation and reinforcement learning". प्राकृतिक और कृत्रिम प्रणालियों में आंतरिक रूप से प्रेरित शिक्षा (PDF). Berlin; Heidelberg: Springer. pp. 17–47.
- ↑ Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). "डीप एक्ज़ीक्यूशन - ट्रेडिंग और बीटिंग मार्केट बेंचमार्क के लिए मूल्य और नीति आधारित सुदृढीकरण सीखना". The Journal of Machine Learning in Finance. 1. SSRN 3374766.
- ↑ George Karimpanal, Thommen; Bouffanais, Roland (2019). "सुदृढीकरण सीखने में ज्ञान के भंडारण और हस्तांतरण के लिए स्व-आयोजन मानचित्र". Adaptive Behavior (in English). 27 (2): 111–126. arXiv:1811.08318. doi:10.1177/1059712318818568. ISSN 1059-7123. S2CID 53774629.
- ↑ Soucek, Branko (6 May 1992). Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series. John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X.
- ↑ {{cite journal |first= Vincent|display-authors=etal|last= Francois-Lavet |year=2018 |title= गहन सुदृढीकरण सीखने का एक परिचय|journal=Foundations and Trends in Machine Learning|volume=11 |issue=3–4 |pages=219–354 |doi=10.1561/2200000071|arxiv= 1811.12560 |bibcode=2018arXiv181112560F|s2cid=54434537}
- ↑ Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). "विरोधात्मक उदाहरणों की व्याख्या करना और उनका उपयोग करना". International Conference on Learning Representations. arXiv:1412.6572.
- ↑ Behzadan, Vahid; Munir, Arslan (2017). "पॉलिसी इंडक्शन अटैक के लिए डीप रीइन्फोर्समेंट लर्निंग की भेद्यता". International Conference on Machine Learning and Data Mining in Pattern Recognition. Lecture Notes in Computer Science. 10358: 262–275. arXiv:1701.04143. doi:10.1007/978-3-319-62416-7_19. ISBN 978-3-319-62415-0. S2CID 1562290.
- ↑ Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (2017-02-07). तंत्रिका नेटवर्क नीतियों पर प्रतिकूल हमले. OCLC 1106256905.
{{cite book}}
: CS1 maint: multiple names: authors list (link) - ↑ Korkmaz, Ezgi (2022). "डीप रीइन्फोर्समेंट लर्निंग नीतियां एमडीपी में साझा विरोधी विशेषताएं सीखें।". Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22). 36 (7): 7229–7238. doi:10.1609/aaai.v36i7.20684. S2CID 245219157.
- ↑ Berenji, H.R. (1994). "Fuzzy Q-learning: a new approach for fuzzy dynamic programming". Proc. IEEE 3rd International Fuzzy Systems Conference. Orlando, FL, USA: IEEE: 486–491. doi:10.1109/FUZZY.1994.343737. ISBN 0-7803-1896-X. S2CID 56694947.
- ↑ Vincze, David (2017). "Fuzzy rule interpolation and reinforcement learning" (PDF). 2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE. pp. 173–178. doi:10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2. S2CID 17590120.
- ↑ Ng, A. Y.; Russell, S. J. (2000). "Algorithms for Inverse Reinforcement Learning" (PDF). मशीन लर्निंग पर सत्रहवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही ICML '00 की कार्यवाही. pp. 663–670. ISBN 1-55860-707-2.
- ↑ García, Javier; Fernández, Fernando (1 January 2015). "सुरक्षित सुदृढीकरण सीखने पर एक व्यापक सर्वेक्षण" (PDF). The Journal of Machine Learning Research. 16 (1): 1437–1480.
अग्रिम पठन
- Annaswamy, Anuradha M. (3 May 2023). "Adaptive Control and Intersections with Reinforcement Learning". Annual Review of Control, Robotics, and Autonomous Systems (in English). 6 (1): 65–93. doi:10.1146/annurev-control-062922-090153. ISSN 2573-5144.
- Auer, Peter; Jaksch, Thomas; Ortner, Ronald (2010). "Near-optimal regret bounds for reinforcement learning". Journal of Machine Learning Research. 11: 1563–1600.
- Busoniu, Lucian; Babuska, Robert; De Schutter, Bart; Ernst, Damien (2010). Reinforcement Learning and Dynamic Programming using Function Approximators. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
- François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4): 219–354. arXiv:1811.12560. Bibcode:2018arXiv181112560F. doi:10.1561/2200000071. S2CID 54434537.
- Powell, Warren (2011). Approximate dynamic programming: solving the curses of dimensionality. Wiley-Interscience.
- Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction (2 ed.). MIT Press. ISBN 978-0-262-03924-6.
- Sutton, Richard S. (1988). "Learning to predict by the method of temporal differences". Machine Learning. 3: 9–44. doi:10.1007/BF00115009.
- Szita, Istvan; Szepesvari, Csaba (2010). "Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds" (PDF). ICML 2010. Omnipress. pp. 1031–1038. Archived from the original (PDF) on 2010-07-14.
बाहरी संबंध
- Reinforcement Learning Repository
- Reinforcement Learning and Artificial Intelligence (RLAI, Rich Sutton's lab at the University of Alberta)
- Autonomous Learning Laboratory (ALL, Andrew Barto's lab at the University of Massachusetts Amherst)
- Real-world reinforcement learning experiments Archived 2018-10-08 at the Wayback Machine at Delft University of Technology
- Stanford University Andrew Ng Lecture on Reinforcement Learning
- Dissecting Reinforcement Learning Series of blog post on RL with Python code
- A (Long) Peek into Reinforcement Learning