रीइंफोर्समेंट लर्निंग: Difference between revisions

From Vigyanwiki
No edit summary
 
(8 intermediate revisions by 5 users not shown)
Line 1: Line 1:
{{Short description|Field of machine learning}}
{{Short description|Field of machine learning}}
{{For|मनोविज्ञान में सुदृढीकरण सीखना|सुदृढीकरण|स्फूर्त अनुकूलन}}
{{Machine learning|Reinforcement learning}}




रीइंफोर्समेंट लर्निंग (आरएल) मशीन लर्निंग का एक क्षेत्र है जो इस बात से संबंधित है कि बुद्धिमान एजेंटों को संचयी इनाम की धारणा को अधिकतम करने के लिए पर्यावरण में कार्रवाई कैसे करनी चाहिए। रीइन्फोर्समेंट लर्निंग सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग के साथ-साथ तीन मूलभूत मशीन लर्निंग प्रतिमानों में से एक है।
 
 
'''रीइंफोर्समेंट लर्निंग (आरएल)''' मशीन लर्निंग का एक क्षेत्र है जो इस बात से संबंधित है कि बुद्धिमान एजेंटों को संचयी इनाम की धारणा को अधिकतम करने के लिए पर्यावरण में कार्रवाई कैसे करनी चाहिए। रीइन्फोर्समेंट लर्निंग सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग के साथ-साथ तीन मूलभूत मशीन लर्निंग प्रतिमानों में से एक है।


सुदृढीकरण सीखना पर्यवेक्षित शिक्षण से भिन्न होता है जिसमें लेबल किए गए इनपुट/आउटपुट जोड़े प्रस्तुत करने की आवश्यकता नहीं होती है और उप-इष्टतम क्रियाओं को स्पष्ट रूप से ठीक करने की आवश्यकता नहीं होती है। इसके अतिरिक्त ध्यान अन्वेषण (अज्ञात क्षेत्र का) और शोषण (वर्तमान ज्ञान का) के बीच संतुलन खोजने पर है।<ref name="kaelbling">{{cite journal|last1=Kaelbling|first1=Leslie P.|last2=Littman|first2=Michael L.|author-link2=Michael L. Littman|last3=Moore|first3=Andrew W.|author-link3=Andrew W. Moore|year=1996|title=Reinforcement Learning: A Survey|url=http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html|url-status=dead|journal=Journal of Artificial Intelligence Research|volume=4|pages=237–285|doi=10.1613/jair.301|archive-url=http://webarchive.loc.gov/all/20011120234539/http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html|archive-date=2001-11-20 |author-link1=Leslie P. Kaelbling|arxiv=cs/9605103|s2cid=1708582}}</ref>
सुदृढीकरण सीखना पर्यवेक्षित शिक्षण से भिन्न होता है जिसमें लेबल किए गए इनपुट/आउटपुट जोड़े प्रस्तुत करने की आवश्यकता नहीं होती है और उप-इष्टतम क्रियाओं को स्पष्ट रूप से ठीक करने की आवश्यकता नहीं होती है। इसके अतिरिक्त ध्यान अन्वेषण (अज्ञात क्षेत्र का) और शोषण (वर्तमान ज्ञान का) के बीच संतुलन खोजने पर है।<ref name="kaelbling">{{cite journal|last1=Kaelbling|first1=Leslie P.|last2=Littman|first2=Michael L.|author-link2=Michael L. Littman|last3=Moore|first3=Andrew W.|author-link3=Andrew W. Moore|year=1996|title=Reinforcement Learning: A Survey|url=http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html|url-status=dead|journal=Journal of Artificial Intelligence Research|volume=4|pages=237–285|doi=10.1613/jair.301|archive-url=http://webarchive.loc.gov/all/20011120234539/http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html|archive-date=2001-11-20 |author-link1=Leslie P. Kaelbling|arxiv=cs/9605103|s2cid=1708582}}</ref>


पर्यावरण को सामान्यतः [[मार्कोव निर्णय प्रक्रिया]] (एमडीपी) के रूप में कहा जाता है, क्योंकि इस संदर्भ के लिए कई सुदृढीकरण सीखने वाले एल्गोरिदम [[गतिशील प्रोग्रामिंग]] विधियों का उपयोग करते हैं।<ref>{{Cite book|title=सुदृढीकरण सीखने और मार्कोव निर्णय प्रक्रिया|author1=van Otterlo, M.|author2=Wiering, M.|journal=Reinforcement Learning |volume=12|pages=3–42 |year=2012 |doi=10.1007/978-3-642-27645-3_1|series=Adaptation, Learning, and Optimization|isbn=978-3-642-27644-6}}</ref> मौलिक गतिशील प्रोग्रामिंग विधियों और सुदृढीकरण सीखने के एल्गोरिदम के बीच मुख्य अंतर यह है कि बाद वाले एमडीपी के एक स्पष्ट गणितीय मॉडल के ज्ञान को नहीं मानते हैं और वे बड़े एमडीपी को लक्षित करते हैं जहां स्पष्ट विधि अव्यवहारिक हो जाते हैं।{{toclimit|3}}
पर्यावरण को सामान्यतः [[मार्कोव निर्णय प्रक्रिया]] (एमडीपी) के रूप में कहा जाता है, क्योंकि इस संदर्भ के लिए कई सुदृढीकरण सीखने वाले एल्गोरिदम डायनामिक प्रोग्रामिंग विधियों का उपयोग करते हैं।<ref>{{Cite book|title=सुदृढीकरण सीखने और मार्कोव निर्णय प्रक्रिया|author1=van Otterlo, M.|author2=Wiering, M.|journal=Reinforcement Learning |volume=12|pages=3–42 |year=2012 |doi=10.1007/978-3-642-27645-3_1|series=Adaptation, Learning, and Optimization|isbn=978-3-642-27644-6}}</ref> मौलिक डायनामिक प्रोग्रामिंग विधियों और सुदृढीकरण सीखने के एल्गोरिदम के बीच मुख्य अंतर यह है कि बाद वाले एमडीपी के एक स्पष्ट गणितीय मॉडल के ज्ञान को नहीं मानते हैं और वे बड़े एमडीपी को लक्षित करते हैं जहां स्पष्ट विधि अव्यवहारिक हो जाते हैं।{{toclimit|3}}


== परिचय ==
== परिचय ==


इसकी व्यापकता के कारण [[ खेल सिद्धांत ]] कंट्रोल सिद्धांत  [[ गतिविधि अनुसंधान ]] [[सूचना सिद्धांत]] [[अनुकरण आधारित अनुकूलन]] [[ बहु एजेंट प्रणाली ]][[झुंड खुफिया]] और [[ आंकड़े ]] जैसे कई विषयों में रीइन्फोर्समेंट लर्निंग का अध्ययन किया जाता है। संचालन अनुसंधान और नियंत्रण साहित्य में सुदृढीकरण सीखने को अनुमानित गतिशील प्रोग्रामिंग या न्यूरो-गतिशील प्रोग्रामिंग कहा जाता है। सुदृढीकरण सीखने में रुचि की समस्याओं का इष्टतम [[नियंत्रण सिद्धांत]] में भी अध्ययन किया गया है जो अधिकत्तर इष्टतम समाधानों के अस्तित्व और लक्षण वर्णन से संबंधित है और उनकी स्पष्ट गणना के लिए एल्गोरिदम और सीखने या सन्निकटन के साथ कम विशेष रूप से अनुपस्थिति में पर्यावरण का गणितीय मॉडल [[अर्थशास्त्र]] और गेम सिद्धांत में रीइन्फोर्समेंट लर्निंग का उपयोग यह समझाने के लिए किया जा सकता है कि बाध्य तर्कसंगतता के तहत संतुलन कैसे उत्पन्न हो सकता है।
इसकी व्यापकता के कारण [[ खेल सिद्धांत |खेल सिद्धांत]] कंट्रोल सिद्धांत  [[गतिविधि अनुसंधान]] सूचना सिद्धांत अनुकरण आधारित अनुकूलन बहु एजेंट प्रणाली और [[ आंकड़े |आंकड़े]] जैसे कई विषयों में रीइन्फोर्समेंट लर्निंग का अध्ययन किया जाता है। संचालन अनुसंधान और नियंत्रण साहित्य में सुदृढीकरण सीखने को अनुमानित डायनामिक प्रोग्रामिंग या न्यूरो-डायनामिक प्रोग्रामिंग कहा जाता है। सुदृढीकरण सीखने में रुचि की समस्याओं का इष्टतम [[नियंत्रण सिद्धांत]] में भी अध्ययन किया गया है जो अधिकत्तर इष्टतम समाधानों के अस्तित्व और लक्षण वर्णन से संबंधित है और उनकी स्पष्ट गणना के लिए एल्गोरिदम और सीखने या सन्निकटन के साथ कम विशेष रूप से अनुपस्थिति में पर्यावरण का गणितीय मॉडल [[अर्थशास्त्र]] और गेम सिद्धांत में रीइन्फोर्समेंट लर्निंग का उपयोग यह समझाने के लिए किया जा सकता है कि बाध्य तर्कसंगतता के तहत संतुलन कैसे उत्पन्न हो सकता है।


मूलभूत सुदृढीकरण सीखने को मार्कोव निर्णय प्रक्रिया मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में तैयार किया गया है:
मूलभूत सुदृढीकरण सीखने को मार्कोव निर्णय प्रक्रिया मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में तैयार किया गया है:
Line 25: Line 25:
एक मूलभूत सुदृढीकरण सीखने वाला एजेंट AI अपने पर्यावरण के साथ असतत समय चरणों में परस्पर क्रिया करता है। प्रत्येक समय {{mvar|t}} पर, एजेंट को वर्तमान स्थिति <math>s_t</math> और पुरस्कार <math>r_t</math> प्राप्त होता है। इसके बाद यह उपलब्ध क्रियाओं के सेट से एक क्रिया <math>a_t</math> चुनता है, जिसे बाद में पर्यावरण को भेजा जाता है। पर्यावरण एक नई अवस्था <math>s_{t+1}</math> में जाता है और संक्रमण <math>(s_t,a_t,s_{t+1})</math> से जुड़ा इनाम <math>r_{t+1}</math> निर्धारित होता है। सुदृढीकरण सीखने वाले एजेंट का लक्ष्य एक नीति सीखना है: <math>\pi: A \times S \rightarrow [0,1] </math>,<math>\pi(a,s) = \Pr(a_t = a\mid s_t =s)</math> जो अपेक्षित संचयी इनाम को अधिकतम करता है।
एक मूलभूत सुदृढीकरण सीखने वाला एजेंट AI अपने पर्यावरण के साथ असतत समय चरणों में परस्पर क्रिया करता है। प्रत्येक समय {{mvar|t}} पर, एजेंट को वर्तमान स्थिति <math>s_t</math> और पुरस्कार <math>r_t</math> प्राप्त होता है। इसके बाद यह उपलब्ध क्रियाओं के सेट से एक क्रिया <math>a_t</math> चुनता है, जिसे बाद में पर्यावरण को भेजा जाता है। पर्यावरण एक नई अवस्था <math>s_{t+1}</math> में जाता है और संक्रमण <math>(s_t,a_t,s_{t+1})</math> से जुड़ा इनाम <math>r_{t+1}</math> निर्धारित होता है। सुदृढीकरण सीखने वाले एजेंट का लक्ष्य एक नीति सीखना है: <math>\pi: A \times S \rightarrow [0,1] </math>,<math>\pi(a,s) = \Pr(a_t = a\mid s_t =s)</math> जो अपेक्षित संचयी इनाम को अधिकतम करता है।


एमडीपी के रूप में समस्या का सूत्रीकरण यह मानता है कि एजेंट वर्तमान पर्यावरणीय स्थिति को सीधे देखता है इस स्थिति में कहा जाता है कि समस्या का पूर्ण अवलोकन है। यदि एजेंट के पास केवल अवस्थाओ के एक सबसेट तक पहुंच है,या यदि देखे गए अवस्था ध्वनि से दूषित हैं तो एजेंट को आंशिक अवलोकन क्षमता कहा जाता है और औपचारिक रूप से समस्या को [[आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया]] के रूप में तैयार किया जाना चाहिए। दोनों ही स्थिति में एजेंट के लिए उपलब्ध कार्रवाइयों के सेट को प्रतिबंधित किया जा सकता है. उदाहरण के लिए खाते की शेष राशि की स्थिति सकारात्मक होने के लिए प्रतिबंधित की जा सकती है; यदि अवस्था का वर्तमान मान 3 है और अवस्था संक्रमण मान को 4 से कम करने का प्रयास करता है, तो संक्रमण की अनुमति नहीं दी जाएगी।
एमडीपी के रूप में समस्या का सूत्रीकरण यह मानता है कि एजेंट वर्तमान पर्यावरणीय स्थिति को सीधे देखता है इस स्थिति में कहा जाता है कि समस्या का पूर्ण अवलोकन है। यदि एजेंट के पास केवल अवस्थाओ के एक सबसेट तक पहुंच है,या यदि देखे गए अवस्था ध्वनि से दूषित हैं तो एजेंट को आंशिक अवलोकन क्षमता कहा जाता है और औपचारिक रूप से समस्या को [[आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया]] के रूप में तैयार किया जाना चाहिए। दोनों ही स्थिति में एजेंट के लिए उपलब्ध कार्रवाइयों के सेट को प्रतिबंधित किया जा सकता है. उदाहरण के लिए खाते की शेष राशि की स्थिति सकारात्मक होने के लिए प्रतिबंधित की जा सकती है; यदि अवस्था का वर्तमान मान 3 है और अवस्था संक्रमण मान को 4 से कम करने का प्रयास करता है, तो संक्रमण की अनुमति नहीं दी जाएगी।


जब एजेंट के प्रदर्शन की तुलना एक ऐसे एजेंट से की जाती है जो उत्तम विधि से काम करता है, तो प्रदर्शन में अंतर शोक की धारणा (गेम सिद्धांत ) को जन्म देता है। उत्तम विधि से कार्य करने के लिए एजेंट को अपने कार्यों के दीर्घकालिक परिणामों (अर्थात भविष्य की आय को अधिकतम करना) के बारे में तर्क करना चाहिए, चूँकि इससे जुड़ा तत्काल इनाम नकारात्मक हो सकता है।
जब एजेंट के प्रदर्शन की तुलना एक ऐसे एजेंट से की जाती है जो उत्तम विधि से काम करता है, तो प्रदर्शन में अंतर शोक की धारणा (गेम सिद्धांत ) को जन्म देता है। उत्तम विधि से कार्य करने के लिए एजेंट को अपने कार्यों के दीर्घकालिक परिणामों (अर्थात भविष्य की आय को अधिकतम करना) के बारे में तर्क करना चाहिए, चूँकि इससे जुड़ा तत्काल इनाम नकारात्मक हो सकता है।
Line 38: Line 38:


== अन्वेषण ==
== अन्वेषण ==
बर्नेटास और कटेहाकिस (1997) में [[बहु-सशस्त्र डाकू]] समस्या और परिमित अवस्था अंतरिक्ष एमडीपी के माध्यम से अन्वेषण बनाम शोषण व्यापार-बंद का सबसे गहन अध्ययन किया गया है।<ref name="Optimal adaptive policies for Marko">{{citation | last1 = Burnetas|first1 = Apostolos N.|last2 = Katehakis|first2 = Michael N.|author-link2 = Michael N. Katehakis|year = 1997|title = Optimal adaptive policies for Markov Decision Processes|journal = Mathematics of Operations Research|volume = 22|pages = 222–255 |doi=10.1287/moor.22.1.222}}</ref>
बर्नेटास और कटेहाकिस (1997) में [[बहु-सशस्त्र डाकू|बहु-हथियारबंद दस्यु]] समस्या और परिमित अवस्था अंतरिक्ष एमडीपी के माध्यम से अन्वेषण बनाम शोषण व्यापार-बंद का सबसे गहन अध्ययन किया गया है।<ref name="Optimal adaptive policies for Marko">{{citation | last1 = Burnetas|first1 = Apostolos N.|last2 = Katehakis|first2 = Michael N.|author-link2 = Michael N. Katehakis|year = 1997|title = Optimal adaptive policies for Markov Decision Processes|journal = Mathematics of Operations Research|volume = 22|pages = 222–255 |doi=10.1287/moor.22.1.222}}</ref>


सुदृढीकरण सीखने के लिए चतुर अन्वेषण तंत्र की आवश्यकता होती है; अनुमानित संभाव्यता वितरण के संदर्भ के बिना व्यवस्थित ढंग से क्रियाओं का चयन करना खराब प्रदर्शन दर्शाता है। (छोटे) परिमित एमडीपी का स्थति अपेक्षाकृत अच्छी तरह से समझा गया है। चूँकि एल्गोरिदम की कमी के कारण जो अवस्थाओ की संख्या (या अनंत अवस्था रिक्त स्थान के साथ समस्याओं के मापदंड) के साथ अच्छी तरह से स्केल करते हैं सरल अन्वेषण विधियां सबसे व्यावहारिक हैं।
सुदृढीकरण सीखने के लिए चतुर अन्वेषण तंत्र की आवश्यकता होती है; अनुमानित संभाव्यता वितरण के संदर्भ के बिना व्यवस्थित विधि से क्रियाओं का चयन करना खराब प्रदर्शन दर्शाता है। (छोटे) परिमित एमडीपी का स्थति अपेक्षाकृत अच्छी तरह से समझा गया है। चूँकि एल्गोरिदम की कमी के कारण जो अवस्थाओ की संख्या (या अनंत अवस्था रिक्त स्थान के साथ समस्याओं के मापदंड) के साथ अच्छी तरह से स्केल करते हैं सरल अन्वेषण विधियां सबसे व्यावहारिक हैं।


ऐसा ही एक विधि है <math>\varepsilon</math>-ग्रीडी जहां <math>0 < \varepsilon < 1</math> एक पैरामीटर है जो अन्वेषण बनाम शोषण की मात्रा को नियंत्रित करता है। प्रायिकता <math>1-\varepsilon</math> के साथ शोषण का चयन किया जाता है, और एजेंट उस क्रिया को चुनता है जिसके बारे में उसका मानना है कि इसका सबसे अच्छा दीर्घकालिक प्रभाव होता है (कार्रवाई के बीच संबंध यादृच्छिक रूप से समान रूप से टूट जाते हैं)। वैकल्पिक रूप से प्रायिकता <math>\varepsilon</math> के साथ अन्वेषण को चुना जाता है और क्रिया को यादृच्छिक रूप से समान रूप से चुना जाता है। <math>\varepsilon</math> सामान्यतः एक निश्चित पैरामीटर होता है, किन्तु या तो एक शेड्यूल के अनुसार समायोजित किया जा सकता है (एजेंट को उत्तरोत्तर कम खोजता है) या अनुकूली रूप से ह्यूरिस्टिक्स पर आधारित होता है।
ऐसा ही एक विधि है <math>\varepsilon</math>-ग्रीडी जहां <math>0 < \varepsilon < 1</math> एक पैरामीटर है जो अन्वेषण बनाम शोषण की मात्रा को नियंत्रित करता है। प्रायिकता <math>1-\varepsilon</math> के साथ शोषण का चयन किया जाता है, और एजेंट उस क्रिया को चुनता है जिसके बारे में उसका मानना है कि इसका सबसे अच्छा दीर्घकालिक प्रभाव होता है (कार्रवाई के बीच संबंध यादृच्छिक रूप से समान रूप से टूट जाते हैं)। वैकल्पिक रूप से प्रायिकता <math>\varepsilon</math> के साथ अन्वेषण को चुना जाता है और क्रिया को यादृच्छिक रूप से समान रूप से चुना जाता है। <math>\varepsilon</math> सामान्यतः एक निश्चित पैरामीटर होता है, किन्तु या तो एक शेड्यूल के अनुसार समायोजित किया जा सकता है (एजेंट को उत्तरोत्तर कम खोजता है) या अनुकूली रूप से ह्यूरिस्टिक्स पर आधारित होता है।
== नियंत्रण सीखने के लिए एल्गोरिदम ==
== नियंत्रण सीखने के लिए एल्गोरिदम ==
यहां तक ​​​​कि यदि अन्वेषण के उद्देश्य की अवहेलना की जाती है और यहां तक ​​​​कि यदि अवस्था अवलोकनीय था (इसके बाद माना जाता है) समस्या यह पता लगाने के लिए पिछले अनुभव का उपयोग करने के लिए बनी हुई है कि कौन से कार्य उच्च संचयी पुरस्कारों की ओर ले जाते हैं।
यहां तक ​​​​कि यदि अन्वेषण के उद्देश्य की अवहेलना की जाती है और यहां तक ​​​​कि यदि अवस्था अवलोकनीय था (इसके बाद माना जाता है) समस्या यह पता लगाने के लिए पिछले अनुभव का उपयोग करने के लिए बनी हुई है कि कौन से कार्य उच्च संचयी पुरस्कारों की ओर ले जाते हैं।
Line 54: Line 54:
नीति मानचित्र <math>a</math> जब स्थिति में कार्रवाई करने की संभावना देता है। <math>s</math>.<ref name=":0">{{Cite web|url=http://people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf|title=Reinforcement learning: An introduction}}</ref>{{Rp|61}} नियतात्मक नीतियां भी हैं।
नीति मानचित्र <math>a</math> जब स्थिति में कार्रवाई करने की संभावना देता है। <math>s</math>.<ref name=":0">{{Cite web|url=http://people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf|title=Reinforcement learning: An introduction}}</ref>{{Rp|61}} नियतात्मक नीतियां भी हैं।


==== '''अवस्था''' -मान कार्य ====
==== '''अवस्था''' -मान कार्य ====
मान कार्य <math>V_\pi(s)</math> के रूप में परिभाषित किया गया है अवस्था से प्रारंभ होने वाली अपेक्षित वापसी <math>s</math>, अर्थात। <math>s_0 = s</math>, और क्रमिक रूप से नीति का पालन करना <math>\pi</math>. इसलिए, मोटे तौर पर बोलते हुए, मान कार्य का अनुमान है कि यह किसी दिए गए अवस्था में कितना अच्छा है।<ref name=":0" />{{Rp|60}}
मान कार्य <math>V_\pi(s)</math> के रूप में परिभाषित किया गया है अवस्था से प्रारंभ होने वाली अपेक्षित वापसी <math>s</math>, अर्थात <math>s_0 = s</math>, और क्रमिक रूप से नीति का पालन करना <math>\pi</math>. इसलिए, मोटे तौर पर बोलते हुए, मान कार्य का अनुमान है कि यह किसी दिए गए अवस्था में कितना अच्छा है।<ref name=":0" />{{Rp|60}}
 
मान फंक्शन <math>V_\pi(s)</math> को इस तरह परिभाषित किया गया है, स्टेट <math>s</math> से शुरू होने वाला अपेक्षित वापसी  अर्थात{<math>s_0 = s</math>}, और क्रमिक रूप से <math>\pi</math> नीति का पालन करना इसलिए, सामान्यतः मूल्य फ़ंक्शन का अनुमान है कि किसी दिए गए अवस्था  में "कितना अच्छा" होना चाहिए। [10]: 60


:<math>V_\pi(s) = \operatorname E[R\mid s_0 = s] = \operatorname E\left[\sum_{t=0}^\infty \gamma^t r_t\mid s_0 = s\right],</math>
:<math>V_\pi(s) = \operatorname E[R\mid s_0 = s] = \operatorname E\left[\sum_{t=0}^\infty \gamma^t r_t\mid s_0 = s\right],</math>
Line 63: Line 61:


:<math>R=\sum_{t=0}^\infty \gamma^t r_t,</math>
:<math>R=\sum_{t=0}^\infty \gamma^t r_t,</math>
कहाँ <math>r_t</math> कदम पर इनाम है <math>t</math>, <math>\gamma \in [0,1) </math> क्यू-लर्निंग #डिस्काउंट फैक्टर है|डिस्काउंट-रेट। गामा 1 से कम है, इसलिए दूर के भविष्य की घटनाओं को तत्काल भविष्य की घटनाओं से कम भारित किया जाता है।
जहां <math>r_t</math> चरण <math>t</math> पर पुरस्कार है <math>\gamma \in [0,1) </math> छूट-दर है। गामा 1 से कम है इसलिए दूर के भविष्य की घटनाओं को तत्काल भविष्य की घटनाओं से कम भारित किया जाता है।


एल्गोरिद्म को अधिकतम प्रत्याशित प्रतिफल वाली नीति खोजनी चाहिए। एमडीपी के सिद्धांत से यह ज्ञात होता है कि सामान्यता के नुकसान के बिना, खोज को तथाकथित स्थिर नीतियों के सेट तक सीमित किया जा सकता है। एक नीति स्थिर होती है यदि उसके द्वारा लौटाया गया क्रिया-वितरण केवल अंतिम दौरे पर निर्भर करता है (अवलोकन एजेंट के इतिहास से)। खोज को नियतात्मक स्थिर नीतियों तक सीमित किया जा सकता है। एक नियतात्मक स्थिर नीति निश्चित रूप से वर्तमान स्थिति के आधार पर क्रियाओं का चयन करती है। चूंकि इस तरह की किसी भी नीति को अवस्थाओ के सेट से लेकर कार्रवाई के सेट तक मैपिंग के साथ पहचाना जा सकता है, इसलिए इन नीतियों की पहचान ऐसे मैपिंग से की जा सकती है, जिसमें व्यापकता का कोई नुकसान नहीं है।
एल्गोरिद्म को अधिकतम प्रत्याशित प्रतिफल वाली नीति खोजनी चाहिए। एमडीपी के सिद्धांत से यह ज्ञात होता है कि सामान्यता के हानि के बिना खोज को तथाकथित स्थिर नीतियों के सेट तक सीमित किया जा सकता है। एक नीति स्थिर होती है यदि उसके द्वारा लौटाया गया क्रिया-वितरण केवल अंतिम सीमा पर निर्भर करता है (अवलोकन एजेंट के इतिहास से)। खोज को नियतात्मक स्थिर नीतियों तक सीमित किया जा सकता है। एक नियतात्मक स्थिर नीति निश्चित रूप से वर्तमान स्थिति के आधार पर क्रियाओं का चयन करती है। चूंकि इस तरह की किसी भी नीति को अवस्थाओ के सेट से लेकर कार्रवाई के सेट तक मैपिंग के साथ पहचाना जा सकता है, इसलिए इन नीतियों की पहचान ऐसे मैपिंग से की जा सकती है, जिसमें व्यापकता का कोई हानि नहीं है।


=== क्रूर बल ===
=== क्रूर बल ===
[[ क्रूर-बल खोज ]] एप्रोच में दो चरण होते हैं:
[[ क्रूर-बल खोज | क्रूर-बल खोज]] एप्रोच में दो चरण होते हैं:
* प्रत्येक संभावित नीति के लिए, इसका पालन करते हुए नमूना रिटर्न
* प्रत्येक संभावित नीति के लिए, इसका पालन करते हुए नमूना रिटर्न
* अधिकतम प्रत्याशित रिटर्न वाली पॉलिसी चुनें
* अधिकतम प्रत्याशित रिटर्न वाली पॉलिसी चुनें
Line 74: Line 72:
इसके साथ एक समस्या यह है कि नीतियों की संख्या बड़ी या अनंत भी हो सकती है। दूसरा यह है कि रिटर्न का अंतर बड़ा हो सकता है, जिसके लिए प्रत्येक पॉलिसी की वापसी का स्पष्ट अनुमान लगाने के लिए कई नमूनों की आवश्यकता होती है।
इसके साथ एक समस्या यह है कि नीतियों की संख्या बड़ी या अनंत भी हो सकती है। दूसरा यह है कि रिटर्न का अंतर बड़ा हो सकता है, जिसके लिए प्रत्येक पॉलिसी की वापसी का स्पष्ट अनुमान लगाने के लिए कई नमूनों की आवश्यकता होती है।


इन समस्याओं में सुधार किया जा सकता है यदि हम कुछ संरचना मान लें और एक नीति से उत्पन्न नमूनों को दूसरों के लिए किए गए अनुमानों को प्रभावित करने की अनुमति दें। इसे प्राप्त करने के लिए दो मुख्य दृष्टिकोण #Value कार्य और #Direct नीति खोज हैं।
इन समस्याओं में सुधार किया जा सकता है यदि हम कुछ संरचना मान लें और एक नीति से उत्पन्न नमूनों को दूसरों के लिए किए गए अनुमानों को प्रभावित करने की अनुमति दें। इसे प्राप्त करने के लिए दो मुख्य दृष्टिकोण मूल्य प्रकार्य अनुमान और प्रत्यक्ष नीति खोज हैं।


=== मान समारोह ===
=== मान कार्य ===
{{see also|मूल्य कार्य }}
{{see also|मूल्य कार्य}}
मान कार्य दृष्टिकोण ऐसी नीति खोजने का प्रयास करता है जो कुछ नीति के लिए अपेक्षित रिटर्न के अनुमानों के एक सेट को बनाए रखते हुए रिटर्न को अधिकतम करता है (आमतौर पर या तो वर्तमान [ऑन-पॉलिसी] या इष्टतम [ऑफ-पॉलिसी] एक)।
मान कार्य दृष्टिकोण ऐसी नीति खोजने का प्रयास करता है जो कुछ नीति के लिए अपेक्षित रिटर्न के अनुमानों के एक सेट को बनाए रखते हुए रिटर्न को अधिकतम करता है (सामान्यतः या तो वर्तमान [ऑन-पॉलिसी] या इष्टतम [ऑफ-पॉलिसी] एक)।


ये विधियाँ मार्कोव निर्णय प्रक्रियाओं के सिद्धांत पर निर्भर करती हैं, जहाँ इष्टतमता को एक अर्थ में परिभाषित किया गया है जो ऊपर वाले से अधिक मजबूत है: एक नीति को इष्टतम कहा जाता है यदि यह किसी भी प्रारंभिक अवस्था से सर्वोत्तम-प्रत्याशित प्रतिफल प्राप्त करती है (अर्थात, प्रारंभिक वितरण नहीं खेलते हैं) इस परिभाषा में भूमिका)फिर से, स्थिर नीतियों के बीच एक इष्टतम नीति हमेशा पाई जा सकती है।
ये विधियाँ मार्कोव निर्णय प्रक्रियाओं के सिद्धांत पर निर्भर करती हैं, जहाँ इष्टतमता को एक अर्थ में परिभाषित किया गया है जो ऊपर वाले से अधिक शक्तिशाली है: एक नीति को इष्टतम कहा जाता है यदि यह किसी भी प्रारंभिक अवस्था से सर्वोत्तम-प्रत्याशित प्रतिफल प्राप्त करती है (अर्थात, प्रारंभिक वितरण नहीं खेलते हैं) इस परिभाषा में भूमिका) फिर से स्थिर नीतियों के बीच एक इष्टतम नीति सदैव पाई जा सकती है।


इष्टतमता को औपचारिक विधि से परिभाषित करने के लिए, नीति के मान  को परिभाषित करें <math>\pi</math> द्वारा
इष्टतमता को औपचारिक विधि से परिभाषित करने के लिए, नीति <math>\pi</math> के मान को परिभाषित करें


:<math> V^{\pi} (s) = E[R\mid s,\pi],</math>
:<math> V^{\pi} (s) = E[R\mid s,\pi],</math>
कहाँ <math>R</math> निम्नलिखित से जुड़े रिटर्न के लिए खड़ा है <math>\pi</math> प्रारंभिक अवस्था से <math>s</math>. परिभाषित <math>V^*(s)</math> के अधिकतम संभव मान के रूप में <math>V^\pi(s)</math>, कहाँ <math>\pi</math> बदलने की अनुमति है,
जहाँ <math>R</math> निम्नलिखित से जुड़े रिटर्न के लिए खड़ा है <math>\pi</math> प्रारंभिक अवस्था से <math>s</math>. परिभाषित <math>V^*(s)</math> के अधिकतम संभव मान के रूप में <math>V^\pi(s)</math>, जहाँ <math>\pi</math> बदलने की अनुमति है,


:<math>V^*(s) = \max_\pi V^\pi(s).</math>
:<math>V^*(s) = \max_\pi V^\pi(s).</math>
एक नीति जो प्रत्येक अवस्था में इन इष्टतम मानो को प्राप्त करती है, इष्टतम कहलाती है। स्पष्ट रूप से, एक नीति जो इस मजबूत अर्थ में इष्टतम है, इस अर्थ में भी इष्टतम है कि यह अपेक्षित प्रतिफल को अधिकतम करती है <math>\rho^\pi</math>, तब से <math>\rho^\pi = E[ V^\pi(S) ]</math>, कहाँ <math>S</math> वितरण से बेतरतीब ढंग से नमूना लिया गया अवस्था है <math>\mu</math> प्रारंभिक अवस्थाओं की (इसलिए <math>\mu(s) = \Pr(s_0 = s)</math>).
एक नीति जो प्रत्येक अवस्था में इन इष्टतम मानो को प्राप्त करती है, इष्टतम कहलाती है। स्पष्ट रूप से, एक नीति जो इस शक्तिशाली अर्थ में इष्टतम है, इस अर्थ में भी इष्टतम है कि यह अपेक्षित प्रतिफल को अधिकतम करती है <math>\rho^\pi</math>, तब से <math>\rho^\pi = E[ V^\pi(S) ]</math>, जहाँ <math>S</math> वितरण से बेतरतीब विधि से नमूना लिया गया अवस्था है <math>\mu</math> प्रारंभिक अवस्थाओं की (इसलिए <math>\mu(s) = \Pr(s_0 = s)</math>).


यद्यपि अवस्था -मान इष्टतमता को परिभाषित करने के लिए पर्याप्त हैं, यह क्रिया-मानो को परिभाषित करने के लिए उपयोगी है। एक अवस्था दिया <math>s</math>, एक कार्यवाही <math>a</math> और एक नीति <math>\pi</math>, जोड़ी का क्रिया-मान <math>(s,a)</math> अंतर्गत <math>\pi</math> द्वारा परिभाषित किया गया है
यद्यपि अवस्था -मान इष्टतमता को परिभाषित करने के लिए पर्याप्त हैं, यह क्रिया-मानो को परिभाषित करने के लिए उपयोगी है। एक अवस्था दिया <math>s</math>, एक कार्यवाही <math>a</math> और एक नीति <math>\pi</math>, जोड़ी का क्रिया-मान <math>(s,a)</math> अंतर्गत <math>\pi</math> द्वारा परिभाषित किया गया है


:<math>Q^\pi(s,a) = \operatorname E[R\mid s,a,\pi],\,</math>
:<math>Q^\pi(s,a) = \operatorname E[R\mid s,a,\pi],\,</math>
कहाँ <math>R</math> अब पहली कार्रवाई से जुड़े यादृच्छिक रिटर्न के लिए खड़ा है <math>a</math> अवस्था में <math>s</math> और निम्नलिखित <math>\pi</math>, उसके बाद।
जहां <math>R</math> अब अवस्था <math>s</math> में पहली बार <math>a</math> कार्रवाई करने और उसके बाद <math>\pi</math> के बाद से जुड़े यादृच्छिक रिटर्न के लिए है।


एमडीपी के सिद्धांत में कहा गया है कि यदि <math>\pi^*</math> एक इष्टतम नीति है, हम कार्रवाई का चयन करके इष्टतम रूप से कार्य करते हैं (इष्टतम कार्रवाई करें)। <math>Q^{\pi^*}(s,\cdot)</math> प्रत्येक अवस्था में उच्चतम मान के साथ, <math>s</math>. ऐसी इष्टतम नीति का क्रिया-मान कार्य (<math>Q^{\pi^*}</math>) को इष्टतम क्रिया-मान कार्य कहा जाता है और आमतौर पर इसे निरूपित किया जाता है <math>Q^*</math>. संक्षेप में, केवल इष्टतम क्रिया-मान कार्य का ज्ञान ही यह जानने के लिए पर्याप्त है कि उत्तम विधि से कैसे कार्य किया जाए।
एमडीपी के सिद्धांत में कहा गया है कि यदि <math>\pi^*</math> एक इष्टतम नीति है, हम कार्रवाई का चयन करके इष्टतम रूप से कार्य करते हैं (इष्टतम कार्रवाई करें)। <math>Q^{\pi^*}(s,\cdot)</math> प्रत्येक अवस्था में उच्चतम मान के साथ, <math>s</math>. ऐसी इष्टतम नीति का क्रिया-मान कार्य (<math>Q^{\pi^*}</math>) को इष्टतम क्रिया-मान कार्य कहा जाता है और सामान्यतः इसे निरूपित किया जाता है <math>Q^*</math>. संक्षेप में, केवल इष्टतम क्रिया-मान कार्य का ज्ञान ही यह जानने के लिए पर्याप्त है कि उत्तम विधि से कैसे कार्य किया जाए।


एमडीपी के पूर्ण ज्ञान को मानते हुए, इष्टतम क्रिया-मान कार्य की गणना करने के लिए दो मूलभूत दृष्टिकोण [[मूल्य पुनरावृत्ति|मान पुनरावृत्ति]] और [[नीति पुनरावृत्ति]] हैं। दोनों एल्गोरिदम कार्यों के अनुक्रम की गणना करते हैं <math>Q_k</math> (<math>k=0,1,2,\ldots</math>) जो अभिसरण करता है <math>Q^*</math>. इन कार्यों की गणना में पूरे अवस्था -स्थान पर अपेक्षाओं की गणना करना सम्मिलित है, जो कि सबसे छोटे (परिमित) एमडीपी के अलावा सभी के लिए अव्यावहारिक है। सुदृढीकरण सीखने के विधियों में, बड़े अवस्था -कार्रवाई स्थानों पर मान कार्यों का प्रतिनिधित्व करने की आवश्यकता से निपटने के लिए नमूनों पर औसत और कार्य सन्निकटन तकनीकों का उपयोग करके अपेक्षाओं का अनुमान लगाया जाता है।
एमडीपी के पूर्ण ज्ञान को मानते हुए, इष्टतम क्रिया-मान कार्य की गणना करने के लिए दो मूलभूत दृष्टिकोण [[मूल्य पुनरावृत्ति|मान पुनरावृत्ति]] और [[नीति पुनरावृत्ति]] हैं। दोनों एल्गोरिदम कार्यों के अनुक्रम की गणना करते हैं <math>Q_k</math> (<math>k=0,1,2,\ldots</math>) जो अभिसरण करता है <math>Q^*</math>. इन कार्यों की गणना में पूरे अवस्था -स्थान पर अपेक्षाओं की गणना करना सम्मिलित है जो कि सबसे छोटे (परिमित) एमडीपी के अतिरिक्त सभी के लिए अव्यावहारिक है। सुदृढीकरण सीखने के विधियों में, बड़े अवस्था -कार्रवाई स्थानों पर मान कार्यों का प्रतिनिधित्व करने की आवश्यकता से निपटने के लिए नमूनों पर औसत और कार्य सन्निकटन विधियों का उपयोग करके अपेक्षाओं का अनुमान लगाया जाता है।


==== मोंटे कार्लो के तरीके ====
==== मोंटे कार्लो के विधि ====
[[मोंटे कार्लो नमूनाकरण]] का उपयोग एल्गोरिथम में किया जा सकता है जो नीति पुनरावृत्ति की नकल करता है। नीति पुनरावृत्ति में दो चरण होते हैं: नीति मूल्यांकन और नीति सुधार।
[[मोंटे कार्लो नमूनाकरण]] का उपयोग एल्गोरिथम में किया जा सकता है जो नीति पुनरावृत्ति की नकल करता है। नीति पुनरावृत्ति में दो चरण होते हैं: नीति मूल्यांकन और नीति सुधार है ।


मोंटे कार्लो का उपयोग नीति मूल्यांकन चरण में किया जाता है। इस चरण में, एक स्थिर, नियतात्मक नीति दी गई है <math>\pi</math>, लक्ष्य कार्य मानों की गणना करना है <math>Q^\pi(s,a)</math> (या उनके लिए एक अच्छा सन्निकटन) सभी स्टेट-एक्शन जोड़े के लिए <math>(s,a)</math>. मान लें (सरलता के लिए) कि एमडीपी परिमित है, कार्रवाई-मानो को समायोजित करने के लिए पर्याप्त मेमोरी उपलब्ध है और यह कि समस्या एपिसोडिक है और प्रत्येक एपिसोड के बाद कुछ यादृच्छिक प्रारंभिक अवस्था से एक नया प्रारंभ होता है। फिर, किसी दिए गए स्टेट-एक्शन जोड़ी के मान का अनुमान <math>(s,a)</math> से उत्पन्न होने वाले नमूना रिटर्न के औसत से गणना की जा सकती है <math>(s,a)</math> अधिक समय तक। पर्याप्त समय दिया गया है, इस प्रकार यह प्रक्रिया एक स्पष्ट अनुमान का निर्माण कर सकती है <math>Q</math> क्रिया-मान कार्य का <math>Q^\pi</math>. यह नीति मूल्यांकन चरण के विवरण को समाप्त करता है।
मोंटे कार्लो का उपयोग नीति मूल्यांकन चरण में किया जाता है। इस चरण में, एक स्थिर, नियतात्मक नीति दी गई है <math>\pi</math>, लक्ष्य कार्य मानों की गणना करना है <math>Q^\pi(s,a)</math> (या उनके लिए एक अच्छा सन्निकटन) सभी स्टेट-एक्शन जोड़े के लिए <math>(s,a)</math>. मान लें (सरलता के लिए) कि एमडीपी परिमित है, कार्रवाई-मानो को समायोजित करने के लिए पर्याप्त मेमोरी उपलब्ध है और यह कि समस्या एपिसोडिक है और प्रत्येक एपिसोड के बाद कुछ यादृच्छिक प्रारंभिक अवस्था से एक नया प्रारंभ होता है। फिर किसी दिए गए स्टेट-एक्शन जोड़ी के मान का अनुमान <math>(s,a)</math> से उत्पन्न होने वाले नमूना रिटर्न के औसत से गणना की जा सकती है <math>(s,a)</math> अधिक समय तक। पर्याप्त समय दिया गया है, इस प्रकार यह प्रक्रिया एक स्पष्ट अनुमान का निर्माण कर सकती है <math>Q</math> क्रिया-मान कार्य का <math>Q^\pi</math>. यह नीति मूल्यांकन चरण के विवरण को समाप्त करता है।


नीति सुधार चरण में, के संबंध में ग्रीडी नीति की गणना करके अगली नीति प्राप्त की जाती है <math>Q</math>: एक अवस्था दिया <math>s</math>, यह नई नीति अधिकतम करने वाली कार्रवाई लौटाती है <math>Q(s,\cdot)</math>. व्यावहारिक रूप से [[आलसी मूल्यांकन]] अधिकतम क्रियाओं की गणना को तब तक के लिए टाल सकता है जब उनकी आवश्यकता होती है।
नीति सुधार चरण में, के संबंध में ग्रीडी नीति की गणना करके अगली नीति प्राप्त की जाती है <math>Q</math>: एक अवस्था दिया <math>s</math>, यह नई नीति अधिकतम करने वाली कार्रवाई लौटाती है <math>Q(s,\cdot)</math>. व्यावहारिक रूप से [[आलसी मूल्यांकन]] अधिकतम क्रियाओं की गणना को तब तक के लिए टाल सकता है जब उनकी आवश्यकता होती है।


इस प्रक्रिया की समस्याओं में सम्मिलित हैं:
इस प्रक्रिया की समस्याओं में सम्मिलित हैं:
Line 114: Line 112:
3. जब प्रक्षेपवक्र के साथ रिटर्न में उच्च विचरण होता है, तो अभिसरण धीमा होता है।
3. जब प्रक्षेपवक्र के साथ रिटर्न में उच्च विचरण होता है, तो अभिसरण धीमा होता है।


4. यह <u>एपिसोडिक प्रॉब्लम्स</u> में ही काम करता है।
4. यह <u>एपिसोडिक</u> समस्या में ही काम करता है।


5. यह छोटे, सीमित एमडीपी में ही काम करता है।
5. यह छोटे, सीमित एमडीपी में ही काम करता है।


==== टेम्पोरल डिफरेंस मेथड्स ====
==== अस्थायी अंतर के विधि ====
{{Main|अस्थायी अंतर सीखना}}
{{Main|अस्थायी अंतर सीखना}}
मानो के व्यवस्थित होने से पहले प्रक्रिया को (कुछ या सभी अवस्थाओ में) नीति को बदलने की अनुमति देकर पहली समस्या को ठीक किया जाता है। यह भी समस्याग्रस्त हो सकता है क्योंकि यह अभिसरण को रोक सकता है। अधिकांश वर्तमान एल्गोरिदम ऐसा करते हैं, सामान्यीकृत नीति पुनरावृत्ति एल्गोरिदम के वर्ग को जन्म देते हैं। अनेक अभिनेता-आलोचक विधियां इसी श्रेणी में आती हैं।
मानो के व्यवस्थित होने से पहले प्रक्रिया को (कुछ या सभी अवस्थाओ में) नीति को बदलने की अनुमति देकर पहली समस्या को ठीक किया जाता है। यह भी समस्याग्रस्त हो सकता है क्योंकि यह अभिसरण को रोक सकता है। अधिकांश वर्तमान एल्गोरिदम ऐसा करते हैं सामान्यीकृत नीति पुनरावृत्ति एल्गोरिदम के वर्ग को जन्म देते हैं। अनेक अभिनेता-आलोचक विधियां इसी श्रेणी में आती हैं।


दूसरे उद्देश्य को प्रक्षेपवक्र को उनमें किसी भी अवस्था -एक्शन जोड़ी में योगदान करने की अनुमति देकर ठीक किया जा सकता है। यह तीसरी समस्या के साथ कुछ हद तक मदद कर सकता है, चूँकि एक उत्तम समाधान जब रिटर्न में उच्च विचरण होता है, तो सटन की अस्थायी अंतर (टीडी) पद्धतियां होती हैं जो पुनरावर्ती [[बेलमैन समीकरण]] पर आधारित होती हैं।<ref>{{cite thesis|last = Sutton|first = Richard S.|title= रिनफोर्समेंट लर्निंग में टेम्पोरल क्रेडिट असाइनमेंट|degree= PhD|publisher = University of Massachusetts, Amherst, MA|url= http://incompleteideas.net/sutton/publications.html#PhDthesis|author-link = Richard S. Sutton|year= 1984 }}</ref>{{sfn|Sutton|Barto|1998|loc=[http://incompleteideas.net/sutton/book/ebook/node60.html §6. Temporal-Difference Learning]}} टीडी विधियों में गणना वृद्धिशील हो सकती है (जब प्रत्येक संक्रमण के बाद स्मृति बदल जाती है और संक्रमण दूर हो जाता है), या बैच (जब संक्रमण बैच किए जाते हैं और बैच के आधार पर अनुमानों की गणना की जाती है)। बैच विधियाँ, जैसे कि कम से कम वर्ग अस्थायी अंतर विधि,<ref>{{cite journal
दूसरे उद्देश्य को प्रक्षेपवक्र को उनमें किसी भी अवस्था -एक्शन जोड़ी में योगदान करने की अनुमति देकर ठीक किया जा सकता है। यह तीसरी समस्या के साथ कुछ सीमा तक सहायता कर सकता है चूँकि एक उत्तम समाधान जब रिटर्न में उच्च विचरण होता है तो सटन की अस्थायी अंतर (टीडी) पद्धतियां होती हैं जो पुनरावर्ती [[बेलमैन समीकरण]] पर आधारित होती हैं।<ref>{{cite thesis|last = Sutton|first = Richard S.|title= रिनफोर्समेंट लर्निंग में टेम्पोरल क्रेडिट असाइनमेंट|degree= PhD|publisher = University of Massachusetts, Amherst, MA|url= http://incompleteideas.net/sutton/publications.html#PhDthesis|author-link = Richard S. Sutton|year= 1984 }}</ref>{{sfn|Sutton|Barto|1998|loc=[http://incompleteideas.net/sutton/book/ebook/node60.html §6. Temporal-Difference Learning]}} टीडी विधियों में गणना वृद्धिशील हो सकती है (जब प्रत्येक संक्रमण के बाद स्मृति बदल जाती है और संक्रमण दूर हो जाता है) या बैच (जब संक्रमण बैच किए जाते हैं और बैच के आधार पर अनुमानों की गणना की जाती है)। बैच विधियाँ जैसे कि कम से कम वर्ग अस्थायी अंतर विधि,<ref>{{cite journal
   | doi = 10.1023/A:1018056104778
   | doi = 10.1023/A:1018056104778
   | last1 = Bradtke | first1 = Steven J. | author-link1 = Steven J. Bradtke
   | last1 = Bradtke | first1 = Steven J. | author-link1 = Steven J. Bradtke
Line 133: Line 131:
   | citeseerx = 10.1.1.143.857 | s2cid = 20327856 }}</ref> नमूनों में जानकारी का उत्तम उपयोग कर सकते हैं, जबकि वृद्धिशील विधियाँ एकमात्र विकल्प हैं जब बैच विधियाँ उनकी उच्च कम्प्यूटेशनल या मेमोरी जटिलता के कारण अक्षम होती हैं। कुछ विधियाँ दो दृष्टिकोणों को संयोजित करने का प्रयास करती हैं। लौकिक भिन्नताओं पर आधारित पद्धतियाँ भी चौथी समस्या को दूर करती हैं।
   | citeseerx = 10.1.1.143.857 | s2cid = 20327856 }}</ref> नमूनों में जानकारी का उत्तम उपयोग कर सकते हैं, जबकि वृद्धिशील विधियाँ एकमात्र विकल्प हैं जब बैच विधियाँ उनकी उच्च कम्प्यूटेशनल या मेमोरी जटिलता के कारण अक्षम होती हैं। कुछ विधियाँ दो दृष्टिकोणों को संयोजित करने का प्रयास करती हैं। लौकिक भिन्नताओं पर आधारित पद्धतियाँ भी चौथी समस्या को दूर करती हैं।


टीडी के लिए विशिष्ट एक अन्य समस्या पुनरावर्ती बेलमैन समीकरण पर उनकी निर्भरता से आती है। अधिकांश टीडी विधियों में एक तथाकथित है <math>\lambda</math> पैरामीटर <math>(0\le \lambda\le 1)</math> जो मोंटे कार्लो विधियों के बीच लगातार प्रक्षेपित कर सकता है जो बेलमैन समीकरणों पर भरोसा नहीं करते हैं और मूल टीडी विधियां जो पूरी तरह से बेलमैन समीकरणों पर भरोसा करती हैं। यह इस समस्या को दूर करने में कारगर हो सकता है।
टीडी के लिए विशिष्ट एक अन्य समस्या पुनरावर्ती बेलमैन समीकरण पर उनकी निर्भरता से आती है। अधिकांश टीडी विधियों में एक तथाकथित है <math>\lambda</math> पैरामीटर <math>(0\le \lambda\le 1)</math> जो मोंटे कार्लो विधियों के बीच लगातार प्रक्षेपित कर सकता है जो बेलमैन समीकरणों पर विश्वास नहीं करते हैं और मूल टीडी विधियां जो पूरी तरह से बेलमैन समीकरणों पर विश्वास करती हैं। यह इस समस्या को दूर करने में कारगर हो सकता है।


==== फंक्शन सन्निकटन के तरीके ====
==== फंक्शन सन्निकटन के विधि ====
पांचवें उद्देश्य को संबोधित करने के लिए, कार्य सन्निकटन विधियों का उपयोग किया जाता है। रेखीय कार्य सन्निकटन एक मानचित्रण के साथ प्रारंभ होता है <math>\phi</math> जो प्रत्येक स्टेट-एक्शन जोड़ी को एक परिमित-आयामी वेक्टर प्रदान करता है। फिर, अवस्था -क्रिया युग्म के क्रिया मान <math>(s,a)</math> के घटकों को रैखिक रूप से जोड़कर प्राप्त किया जाता है <math>\phi(s,a)</math> कुछ भार के साथ <math>\theta</math>:
पांचवें उद्देश्य को संबोधित करने के लिए, कार्य सन्निकटन विधियों का उपयोग किया जाता है। रैखिक कार्य सन्निकटन एक मानचित्रण <math>\phi</math> से प्रारंभ होता है जो प्रत्येक अवस्था -क्रिया जोड़ी को एक परिमित-आयामी वेक्टर प्रदान करता है। फिर, अवस्था -क्रिया युग्म<math>(s,a)</math> के क्रिया मान को कुछ वज़न <math>\theta</math> के साथ <math>\phi(s,a)</math> के घटकों को रैखिक रूप से जोड़कर प्राप्त किया जाता है।


:<math>Q(s,a) = \sum_{i=1}^d \theta_i \phi_i(s,a).</math>
:<math>Q(s,a) = \sum_{i=1}^d \theta_i \phi_i(s,a).</math>
एल्गोरिदम तब अलग-अलग अवस्था -क्रिया जोड़े से जुड़े मानो को समायोजित करने के अतिरिक्त वजन समायोजित करता है। गैर-पैरामीट्रिक आँकड़ों (जो अपनी स्वयं की विशेषताओं का निर्माण करने के लिए देखा जा सकता है) से विचारों पर आधारित विधियों का पता लगाया गया है।
एल्गोरिदम तब अलग-अलग अवस्था -क्रिया जोड़े से जुड़े मानो को समायोजित करने के अतिरिक्त वजन समायोजित करता है। गैर-पैरामीट्रिक आँकड़ों (जो अपनी स्वयं की विशेषताओं का निर्माण करने के लिए देखा जा सकता है) से विचारों पर आधारित विधियों का पता लगाया गया है।


[[क्यू-लर्निंग]] एल्गोरिथम और इसके कई वेरिएंट को जन्म देते हुए मान इटरेशन को शुरुआती बिंदु के रूप में भी इस्तेमाल किया जा सकता है।<ref>{{cite thesis
[[क्यू-लर्निंग]] एल्गोरिथम और इसके कई वेरिएंट को जन्म देते हुए मान इटरेशन को प्रारंभिक बिंदु के रूप में भी उपयोग किया जा सकता है।<ref>{{cite thesis
   | last = Watkins | first = Christopher J.C.H. | author-link = Christopher J.C.H. Watkins
   | last = Watkins | first = Christopher J.C.H. | author-link = Christopher J.C.H. Watkins
   | degree= PhD
   | degree= PhD
Line 147: Line 145:
   | year= 1989  
   | year= 1989  
   | publisher = King’s College, Cambridge, UK
   | publisher = King’s College, Cambridge, UK
   | url= http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf}}</ref> स्टोकेस्टिक खोज समस्याओं में विभिन्न अनुप्रयोगों के साथ क्यू का प्रतिनिधित्व करने के लिए एक तंत्रिका नेटवर्क का उपयोग करते समय डीप क्यू-लर्निंग विधियों को सम्मिलित करना।<ref name="MBK">{{Cite journal |title = डीप क्यू-लर्निंग एबिलिटीज के साथ एक स्वायत्त एजेंट द्वारा स्थिर और मोबाइल लक्ष्यों का पता लगाना| journal=Entropy | year=2022 | volume=24 | issue=8 | page=1168  | doi=10.3390/e24081168 | pmid=36010832 | pmc=9407070 | bibcode=2022Entrp..24.1168M | doi-access=free | last1=Matzliach | first1=Barouch | last2=Ben-Gal | first2=Irad | last3=Kagan | first3=Evgeny }}</ref>
   | url= http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf}}</ref> स्टोकेस्टिक खोज समस्याओं में विभिन्न अनुप्रयोगों के साथ क्यू का प्रतिनिधित्व करने के लिए एक तंत्रिका नेटवर्क का उपयोग करते समय डीप क्यू-लर्निंग विधियों को सम्मिलित करना है।<ref name="MBK">{{Cite journal |title = डीप क्यू-लर्निंग एबिलिटीज के साथ एक स्वायत्त एजेंट द्वारा स्थिर और मोबाइल लक्ष्यों का पता लगाना| journal=Entropy | year=2022 | volume=24 | issue=8 | page=1168  | doi=10.3390/e24081168 | pmid=36010832 | pmc=9407070 | bibcode=2022Entrp..24.1168M | doi-access=free | last1=Matzliach | first1=Barouch | last2=Ben-Gal | first2=Irad | last3=Kagan | first3=Evgeny }}</ref>
क्रिया-मानो का उपयोग करने में समस्या यह है कि उन्हें प्रतिस्पर्धात्मक क्रिया मानो के अत्यधिक स्पष्ट अनुमानों की आवश्यकता हो सकती है जो रिटर्न ध्वनि होने पर प्राप्त करना कठिन हो सकता है, चूँकि अस्थायी अंतर विधियों द्वारा इस समस्या को कुछ हद तक कम किया जाता है। तथाकथित संगत कार्य सन्निकटन पद्धति का उपयोग करना सामान्यता और दक्षता से समझौता करता है।
 
क्रिया-मानो का उपयोग करने में समस्या यह है कि उन्हें प्रतिस्पर्धात्मक क्रिया मानो के अत्यधिक स्पष्ट अनुमानों की आवश्यकता हो सकती है जो रिटर्न ध्वनि होने पर प्राप्त करना कठिन हो सकता है चूँकि अस्थायी अंतर विधियों द्वारा इस समस्या को कुछ सीमा तक कम किया जाता है। तथाकथित संगत कार्य सन्निकटन पद्धति का उपयोग करना सामान्यता और दक्षता से समझौता करता है।


=== प्रत्यक्ष नीति खोज ===
=== प्रत्यक्ष नीति खोज ===
एक वैकल्पिक विधि पॉलिसी स्पेस (कुछ सबसेट) में सीधे खोज करना है, जिस स्थिति में समस्या [[स्टोचैस्टिक अनुकूलन]] का स्थति बन जाती है। उपलब्ध दो दृष्टिकोण [[ढाल]]-आधारित और ढाल-मुक्त विधियाँ हैं।
एक वैकल्पिक विधि पॉलिसी स्पेस (कुछ सबसेट) में सीधे खोज करना है जिस स्थिति में समस्या [[स्टोचैस्टिक अनुकूलन]] का स्थति बन जाती है। उपलब्ध दो दृष्टिकोण [[ढाल]]-आधारित और ढाल-मुक्त विधियाँ हैं।


ढाल-आधारित विधियाँ (नीति ढाल विधियाँ) एक परिमित-आयामी (पैरामीटर) स्थान से नीतियों के स्थान तक मानचित्रण के साथ प्रारंभ होती हैं: पैरामीटर वेक्टर दिया गया <math>\theta</math>, होने देना <math>\pi_\theta</math> से संबंधित नीति को निरूपित करें <math>\theta</math>. द्वारा प्रदर्शन कार्य को परिभाषित करना
ढाल-आधारित विधियाँ (नीति ढाल विधियाँ) एक परिमित-आयामी (पैरामीटर) स्थान से नीतियों के स्थान तक मानचित्रण के साथ प्रारंभ होती हैं: पैरामीटर वेक्टर <math>\theta</math> दिया गया है, चलो <math>\pi_\theta</math> , <math>\theta</math>से संबंधित नीति को दर्शाता है द्वारा प्रदर्शन कार्य को परिभाषित करना है


:<math>\rho(\theta) = \rho^{\pi_\theta},</math>
:<math>\rho(\theta) = \rho^{\pi_\theta},</math>
हल्की परिस्थितियों में यह कार्य पैरामीटर वेक्टर के कार्य के रूप में अलग-अलग होगा <math>\theta</math>. यदि की ढाल <math>\rho</math> ज्ञात था, कोई [[ ढतला हुआ वंश ]] का उपयोग कर सकता है। चूंकि ढाल के लिए एक विश्लेषणात्मक अभिव्यक्ति उपलब्ध नहीं है, केवल ध्वनि का अनुमान उपलब्ध है। इस तरह के अनुमान को कई तरह से बनाया जा सकता है, जिससे विलियम्स की रीइन्फोर्स विधि जैसे एल्गोरिदम को जन्म दिया जा सकता है<ref>{{cite conference
हल्के परिस्थितियों में यह कार्य पैरामीटर वेक्टर <math>\theta</math> के कार्य के रूप में अलग-अलग होगा। यदि <math>\rho</math> का ग्रेडिएंट ज्ञात था, तो ग्रेडिएंट एसेंट का उपयोग किया जा सकता है। चूंकि ढाल के लिए एक विश्लेषणात्मक अभिव्यक्ति उपलब्ध नहीं है केवल ध्वनि का अनुमान उपलब्ध है। इस तरह के एक अनुमान को कई विधियों से बनाया जा सकता है जो एल्गोरिदम को जन्म देता है जैसे कि विलियम्स की रीइन्फोर्स विधि (जिसे सिमुलेशन-आधारित अनुकूलन साहित्य में संभावना अनुपात विधि के रूप में जाना जाता है)। रोबोटिक्स के संदर्भ में नीति खोज विधियों का उपयोग किया गया है।<ref>{{cite conference
   | last = Williams | first = Ronald J. | author-link = Ronald J. Williams  
   | last = Williams | first = Ronald J. | author-link = Ronald J. Williams  
   | title = A class of gradient-estimating algorithms for reinforcement learning in neural networks
   | title = A class of gradient-estimating algorithms for reinforcement learning in neural networks
   | book-title = Proceedings of the IEEE First International Conference on Neural Networks
   | book-title = Proceedings of the IEEE First International Conference on Neural Networks
   | year = 1987| citeseerx = 10.1.1.129.8871 }}</ref> (जिसे सिमुलेशन-आधारित अनुकूलन साहित्य में संभावना अनुपात पद्धति के रूप में जाना जाता है)<ref>{{cite conference
   | year = 1987| citeseerx = 10.1.1.129.8871 }}</ref> कई नीतिगत खोज विधियां स्थानीय ऑप्टिमा में फंस सकती हैं (क्योंकि वे स्थानीय खोज पर आधारित हैं)।<ref>{{Cite book|title = रोबोटिक्स के लिए नीति खोज पर एक सर्वेक्षण|last1 = Deisenroth|first1 = Marc Peter|last2 = Neumann|first2 = Gerhard|last3 = Peters|first3 = Jan|publisher = NOW Publishers|year = 2013|series = Foundations and Trends in Robotics|volume = 2|issue = 1–2|pages = 1–142 |author-link1 = Marc Peter Deisenroth|author-link2 = Gerhard Neumann|author-link3 = Jan Peters (researcher)|hdl = 10044/1/12051|doi = 10.1561/2300000021|url = http://eprints.lincoln.ac.uk/28029/1/PolicySearchReview.pdf}}</ref><ref>{{cite conference
   | last1 = Peters | first1 = Jan | author-link1 = Jan Peters (researcher)
   | last1 = Peters | first1 = Jan | author-link1 = Jan Peters (researcher)
   | last2 = Vijayakumar | first2 = Sethu | author-link2 = Sethu Vijayakumar
   | last2 = Vijayakumar | first2 = Sethu | author-link2 = Sethu Vijayakumar
Line 167: Line 166:
   | book-title = IEEE-RAS International Conference on Humanoid Robots
   | book-title = IEEE-RAS International Conference on Humanoid Robots
   | year = 2003
   | year = 2003
   | url = http://www-clmc.usc.edu/publications/p/peters-ICHR2003.pdf}}</ref> [[रोबोटिक]]्स के संदर्भ में नीति खोज विधियों का उपयोग किया गया है।<ref>{{Cite book|title = रोबोटिक्स के लिए नीति खोज पर एक सर्वेक्षण|last1 = Deisenroth|first1 = Marc Peter|last2 = Neumann|first2 = Gerhard|last3 = Peters|first3 = Jan|publisher = NOW Publishers|year = 2013|series = Foundations and Trends in Robotics|volume = 2|issue = 1–2|pages = 1–142 |author-link1 = Marc Peter Deisenroth|author-link2 = Gerhard Neumann|author-link3 = Jan Peters (researcher)|hdl = 10044/1/12051|doi = 10.1561/2300000021|url = http://eprints.lincoln.ac.uk/28029/1/PolicySearchReview.pdf}}</ref> कई नीतिगत खोज विधियां स्थानीय ऑप्टिमा में फंस सकती हैं (क्योंकि वे [[स्थानीय खोज (अनुकूलन)]] पर आधारित हैं)।
   | url = http://www-clmc.usc.edu/publications/p/peters-ICHR2003.pdf}}</ref>


विधियों का एक बड़ा वर्ग ढाल की जानकारी पर भरोसा करने से बचता है। इनमें [[ तैयार किए हुयी धातु पे पानी चढाने की कला ]], [[क्रॉस-एन्ट्रॉपी विधि]] | क्रॉस-एन्ट्रॉपी खोज या [[विकासवादी संगणना]] के विधि सम्मिलित हैं। कई ग्रेडियेंट-मुक्त विधियां वैश्विक इष्टतम (सिद्धांत रूप में और सीमा में) प्राप्त कर सकती हैं।
विधियों का एक बड़ा वर्ग ढाल की जानकारी पर विश्वास करने से बचता है। इनमें [[ तैयार किए हुयी धातु पे पानी चढाने की कला |तैयार किए हुयी धातु पे पानी चढाने की कला]] , [[क्रॉस-एन्ट्रॉपी विधि]] क्रॉस-एन्ट्रॉपी खोज या [[विकासवादी संगणना]] के विधि सम्मिलित हैं। कई ग्रेडियेंट-मुक्त विधियां वैश्विक इष्टतम (सिद्धांत रूप में और सीमा में) प्राप्त कर सकती हैं।


नीति खोज पद्धति धीरे-धीरे दिए गए ध्वनि वाले डेटा को अभिसरण कर सकती है। उदाहरण के लिए, यह एपिसोडिक समस्याओं में होता है जब प्रक्षेपवक्र लंबे होते हैं और रिटर्न का विचरण बड़ा होता है। मूल्य-कार्य आधारित विधियाँ जो लौकिक अंतरों पर निर्भर करती हैं, इस स्थिति में मदद कर सकती हैं। वर्तमान के वर्षों में, अभिनेता-आलोचक विधियों का प्रस्ताव किया गया है और विभिन्न समस्याओं पर अच्छा प्रदर्शन किया है।<ref>{{Cite web|url=https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-8-asynchronous-actor-critic-agents-a3c-c88f72a5e9f2|title=Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)|last=Juliani|first=Arthur|date=2016-12-17|website=Medium|access-date=2018-02-22}}</ref>
नीति खोज पद्धति धीरे-धीरे दिए गए ध्वनि वाले डेटा को अभिसरण कर सकती है। उदाहरण के लिए यह एपिसोडिक समस्याओं में होता है जब प्रक्षेपवक्र लंबे होते हैं और रिटर्न का विचरण बड़ा होता है। मूल्य-कार्य आधारित विधियाँ जो लौकिक अंतरों पर निर्भर करती हैं इस स्थिति में सहायता कर सकती हैं। वर्तमान के वर्षों में अभिनेता-आलोचक विधियों का प्रस्ताव किया गया है और विभिन्न समस्याओं पर अच्छा प्रदर्शन किया है।<ref>{{Cite web|url=https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-8-asynchronous-actor-critic-agents-a3c-c88f72a5e9f2|title=Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)|last=Juliani|first=Arthur|date=2016-12-17|website=Medium|access-date=2018-02-22}}</ref>




=== मॉडल-आधारित एल्गोरिदम ===
=== मॉडल-आधारित एल्गोरिदम ===
अंत में, उपरोक्त सभी विधियों को एल्गोरिदम के साथ जोड़ा जा सकता है जो पहले एक मॉडल सीखते हैं। उदाहरण के लिए, डायना एल्गोरिथम<ref>{{Cite conference
अंत में उपरोक्त सभी विधियों को एल्गोरिदम के साथ जोड़ा जा सकता है जो पहले एक मॉडल सीखते हैं। उदाहरण के लिए डायना एल्गोरिथम<ref>{{Cite conference
| last1 = Sutton | first1 = Richard
| last1 = Sutton | first1 = Richard
| title = Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming
| title = Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming
     | year = 1990
     | year = 1990
     | book-title = Machine Learning: Proceedings of the Seventh International Workshop}}</ref> अनुभव से एक मॉडल सीखता है, और वास्तविक बदलाव के अलावा, मान कार्य के लिए अधिक मॉडल किए गए बदलाव प्रदान करने के लिए उसका उपयोग करता है। इस तरह के विधियों को कभी-कभी गैर-पैरामीट्रिक मॉडल के उपयोग के लिए बढ़ाया जा सकता है, जैसे कि जब संक्रमण केवल संग्रहीत होते हैं और 'फिर से चलाए जाते हैं'<ref>{{Cite conference | first1 = Long-Ji | last1 = Lin | title = सुदृढीकरण सीखने, योजना और शिक्षण के आधार पर स्व-सुधार प्रतिक्रियाशील एजेंट| book-title = Machine Learning volume 8 | year = 1992 | doi = 10.1007/BF00992699 |url=https://link.springer.com/content/pdf/10.1007/BF00992699.pdf}}</ref> सीखने के एल्गोरिदम के लिए।
     | book-title = Machine Learning: Proceedings of the Seventh International Workshop}}</ref> अनुभव से एक मॉडल सीखता है, और वास्तविक बदलाव के अतिरिक्त मान कार्य के लिए अधिक मॉडल किए गए बदलाव प्रदान करने के लिए उसका उपयोग करता है। इस तरह के विधियों को कभी-कभी गैर-पैरामीट्रिक मॉडल के उपयोग के लिए बढ़ाया जा सकता है जैसे कि जब संक्रमण केवल संग्रहीत होते हैं और सीखने के एल्गोरिदम के लिए 'फिर से चलाए जाते हैं'<ref>{{Cite conference | first1 = Long-Ji | last1 = Lin | title = सुदृढीकरण सीखने, योजना और शिक्षण के आधार पर स्व-सुधार प्रतिक्रियाशील एजेंट| book-title = Machine Learning volume 8 | year = 1992 | doi = 10.1007/BF00992699 |url=https://link.springer.com/content/pdf/10.1007/BF00992699.pdf}}</ref>


मान कार्य को अपडेट करने के अलावा मॉडल का उपयोग करने के अन्य विधि हैं।<ref>{{Cite conference
मान कार्य को अपडेट करने के अतिरिक्त मॉडल का उपयोग करने के अन्य विधि हैं।<ref>{{Cite conference
     | last1 = van Hasselt | first1 = Hado
     | last1 = van Hasselt | first1 = Hado
     | last2 = Hessel | first2 = Matteo
     | last2 = Hessel | first2 = Matteo
Line 189: Line 188:
     | book-title = Advances in Neural Information Processing Systems 32
     | book-title = Advances in Neural Information Processing Systems 32
     | url = https://proceedings.neurips.cc/paper/2019/file/1b742ae215adf18b75449c6e272fd92d-Paper.pdf
     | url = https://proceedings.neurips.cc/paper/2019/file/1b742ae215adf18b75449c6e272fd92d-Paper.pdf
}}</ref> उदाहरण के लिए, [[ मॉडल भविष्य कहनेवाला नियंत्रण ]] में मॉडल का उपयोग सीधे व्यवहार को अपडेट करने के लिए किया जाता है।
}}</ref> उदाहरण के लिए, [[ मॉडल भविष्य कहनेवाला नियंत्रण |मॉडल भविष्य कहनेवाला नियंत्रण]] में मॉडल का उपयोग सीधे व्यवहार को अपडेट करने के लिए किया जाता है।


== सिद्धांत ==
== सिद्धांत ==
अधिकांश एल्गोरिदम के स्पर्शोन्मुख और परिमित-नमूना व्यवहार दोनों को अच्छी तरह से समझा जाता है। सिद्ध रूप से अच्छे ऑनलाइन प्रदर्शन (अन्वेषण उद्देश्य को संबोधित करते हुए) वाले एल्गोरिद्म ज्ञात हैं।
अधिकांश एल्गोरिदम के स्पर्शोन्मुख और परिमित-नमूना व्यवहार दोनों को अच्छी तरह से समझा जाता है। सिद्ध रूप से अच्छे ऑनलाइन प्रदर्शन (अन्वेषण उद्देश्य को संबोधित करते हुए) वाले एल्गोरिद्म ज्ञात हैं।


बर्नेटास और कटेहाकिस (1997) में एमडीपी का कुशल अन्वेषण दिया गया है।<ref name="Optimal adaptive policies for Marko"/>कई एल्गोरिदम के लिए परिमित-समय की प्रदर्शन सीमाएँ भी दिखाई दी हैं, किन्तु इन सीमाओं के ढीले होने की उम्मीद है और इस प्रकार सापेक्ष लाभों और सीमाओं को उत्तम ढंग से समझने के लिए अधिक काम करने की आवश्यकता है।
बर्नेटास और कटेहाकिस (1997) में एमडीपी का कुशल अन्वेषण दिया गया है।<ref name="Optimal adaptive policies for Marko"/> कई एल्गोरिदम के लिए परिमित-समय की प्रदर्शन सीमाएँ भी दिखाई दी हैं किन्तु इन सीमाओं के ढीले होने की उम्मीद है और इस प्रकार सापेक्ष लाभों और सीमाओं को उत्तम विधि से समझने के लिए अधिक काम करने की आवश्यकता है।


वृद्धिशील एल्गोरिदम के लिए, स्पर्शोन्मुख अभिसरण मुद्दों का समाधान किया गया है{{Clarify|reason=What are the issues that have been settled?|date=January 2020}}. टेम्पोरल-अंतर-आधारित एल्गोरिदम पहले की तुलना में शर्तों के एक व्यापक सेट के तहत अभिसरण करते हैं (उदाहरण के लिए, जब मनमाने ढंग से, सुचारू कार्य सन्निकटन के साथ उपयोग किया जाता है)।
वृद्धिशील एल्गोरिदम के लिए स्पर्शोन्मुख अभिसरण उद्देश्यों का समाधान किया गया है टेम्पोरल-अंतर-आधारित एल्गोरिदम पहले की तुलना में नियमो के एक व्यापक सेट के तहत अभिसरण करते हैं (उदाहरण के लिए जब इच्छानुसार से सुचारू कार्य सन्निकटन के साथ उपयोग किया जाता है)।


== अनुसंधान ==
== अनुसंधान ==
{{More citations needed section|date=October 2022}}
शोध विषयों में सम्मिलित हैं:
शोध विषयों में सम्मिलित हैं:
* अभिनेता-आलोचक
* अभिनेता-आलोचक
Line 205: Line 203:
* सॉफ्टवेयर परियोजनाओं में बग का पता लगाना<ref>{{Cite web |title=On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment |url=https://cie.acm.org/articles/use-reinforcements-learning-testing-game-mechanics/ |access-date=2018-11-27 |website=cie.acm.org |language=en}}</ref>
* सॉफ्टवेयर परियोजनाओं में बग का पता लगाना<ref>{{Cite web |title=On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment |url=https://cie.acm.org/articles/use-reinforcements-learning-testing-game-mechanics/ |access-date=2018-11-27 |website=cie.acm.org |language=en}}</ref>
* लगातार सीखना
* लगातार सीखना
* तर्क-आधारित रूपरेखाओं के साथ संयोजन<ref>{{Cite journal|last1=Riveret|first1=Regis|last2=Gao|first2=Yang|date=2019|title=सुदृढीकरण सीखने वाले एजेंटों के लिए एक संभाव्य तर्क रूपरेखा|journal=Autonomous Agents and Multi-Agent Systems|language=en|volume=33|issue=1–2|pages=216–274|doi=10.1007/s10458-019-09404-2|s2cid=71147890}}</ref> * बड़े एमडीपी में अन्वेषण
* तर्क-आधारित रूपरेखाओं के साथ संयोजन<ref>{{Cite journal|last1=Riveret|first1=Regis|last2=Gao|first2=Yang|date=2019|title=सुदृढीकरण सीखने वाले एजेंटों के लिए एक संभाव्य तर्क रूपरेखा|journal=Autonomous Agents and Multi-Agent Systems|language=en|volume=33|issue=1–2|pages=216–274|doi=10.1007/s10458-019-09404-2|s2cid=71147890}}</ref>
*बड़े एमडीपी में अन्वेषण
* [[मानव प्रतिक्रिया से सुदृढीकरण सीखना]]<ref>{{cite arXiv |last1=Yamagata |first1=Taku |last2=McConville |first2=Ryan |last3=Santos-Rodriguez |first3=Raul |date=2021-11-16 |title=विविध कौशल वाले कई मनुष्यों से प्रतिक्रिया के साथ सुदृढीकरण सीखना|class=cs.LG |eprint=2111.08596 }}</ref>
* [[मानव प्रतिक्रिया से सुदृढीकरण सीखना]]<ref>{{cite arXiv |last1=Yamagata |first1=Taku |last2=McConville |first2=Ryan |last3=Santos-Rodriguez |first3=Raul |date=2021-11-16 |title=विविध कौशल वाले कई मनुष्यों से प्रतिक्रिया के साथ सुदृढीकरण सीखना|class=cs.LG |eprint=2111.08596 }}</ref>
* कौशल अधिग्रहण में निहित और स्पष्ट सीखने के बीच बातचीत
* कौशल अधिग्रहण में निहित और स्पष्ट सीखने के बीच परस्पर क्रिया
* आंतरिक प्रेरणा (कृत्रिम बुद्धिमत्ता) जो सूचना-प्राप्ति, जिज्ञासा-प्रकार के व्यवहारों को कार्य-निर्भर लक्ष्य-निर्देशित व्यवहारों से अलग करती है, बड़े मापदंड पर अनुभवजन्य मूल्यांकन
* आंतरिक प्रेरणा (कृत्रिम बुद्धिमत्ता) जो सूचना-प्राप्ति जिज्ञासा-प्रकार के व्यवहारों को कार्य-निर्भर लक्ष्य-निर्देशित व्यवहारों से अलग करती है बड़े मापदंड पर अनुभवजन्य मूल्यांकन
* बड़े (या निरंतर) क्रिया स्थान
* बड़े (या निरंतर) क्रिया स्थान
* मॉड्यूलर और पदानुक्रमित सुदृढीकरण सीखना<ref>{{Cite journal|last1=Kulkarni|first1=Tejas D.|last2=Narasimhan|first2=Karthik R.|last3=Saeedi|first3=Ardavan|last4=Tenenbaum|first4=Joshua B.|date=2016|title=Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation|url=http://dl.acm.org/citation.cfm?id=3157382.3157509|journal=Proceedings of the 30th International Conference on Neural Information Processing Systems|series=NIPS'16|location=USA|publisher=Curran Associates Inc.|pages=3682–3690|isbn=978-1-5108-3881-9|bibcode=2016arXiv160406057K|arxiv=1604.06057}}</ref>
* मॉड्यूलर और पदानुक्रमित सुदृढीकरण सीखना<ref>{{Cite journal|last1=Kulkarni|first1=Tejas D.|last2=Narasimhan|first2=Karthik R.|last3=Saeedi|first3=Ardavan|last4=Tenenbaum|first4=Joshua B.|date=2016|title=Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation|url=http://dl.acm.org/citation.cfm?id=3157382.3157509|journal=Proceedings of the 30th International Conference on Neural Information Processing Systems|series=NIPS'16|location=USA|publisher=Curran Associates Inc.|pages=3682–3690|isbn=978-1-5108-3881-9|bibcode=2016arXiv160406057K|arxiv=1604.06057}}</ref>
Line 219: Line 218:
* प्रतिभूति व्यापार<ref>{{cite journal |last1=Dabérius |first1=Kevin |last2=Granat |first2=Elvin |last3=Karlsson |first3=Patrik |date=2020 |title=डीप एक्ज़ीक्यूशन - ट्रेडिंग और बीटिंग मार्केट बेंचमार्क के लिए मूल्य और नीति आधारित सुदृढीकरण सीखना|ssrn=3374766 |journal=The Journal of Machine Learning in Finance |volume=1}}</ref>
* प्रतिभूति व्यापार<ref>{{cite journal |last1=Dabérius |first1=Kevin |last2=Granat |first2=Elvin |last3=Karlsson |first3=Patrik |date=2020 |title=डीप एक्ज़ीक्यूशन - ट्रेडिंग और बीटिंग मार्केट बेंचमार्क के लिए मूल्य और नीति आधारित सुदृढीकरण सीखना|ssrn=3374766 |journal=The Journal of Machine Learning in Finance |volume=1}}</ref>
* [[ सीखने को स्थानांतरित करें ]]<ref>{{Cite journal|last1=George Karimpanal|first1=Thommen|last2=Bouffanais|first2=Roland|date=2019|title=सुदृढीकरण सीखने में ज्ञान के भंडारण और हस्तांतरण के लिए स्व-आयोजन मानचित्र|journal=Adaptive Behavior|language=en|volume=27|issue=2|pages=111–126|doi=10.1177/1059712318818568|issn=1059-7123|arxiv=1811.08318|s2cid=53774629}}</ref>
* [[ सीखने को स्थानांतरित करें ]]<ref>{{Cite journal|last1=George Karimpanal|first1=Thommen|last2=Bouffanais|first2=Roland|date=2019|title=सुदृढीकरण सीखने में ज्ञान के भंडारण और हस्तांतरण के लिए स्व-आयोजन मानचित्र|journal=Adaptive Behavior|language=en|volume=27|issue=2|pages=111–126|doi=10.1177/1059712318818568|issn=1059-7123|arxiv=1811.08318|s2cid=53774629}}</ref>
* टीडी लर्निंग मॉडलिंग [[डोपामाइन]]-आधारित लर्निंग इन द ब्रेन। मूल नाइग्रा से [[बेसल गैन्ग्लिया]] कार्य तक [[डोपामिनर्जिक]] अनुमान पूर्वानुमान त्रुटि हैं।
* टीडी लर्निंग मॉडलिंग [[डोपामाइन]]-आधारित लर्निंग इन द ब्रेन मूल नाइग्रा से [[बेसल गैन्ग्लिया]] कार्य तक [[डोपामिनर्जिक]] अनुमान पूर्वानुमान त्रुटि हैं।
* मूल्य-कार्य और नीति खोज विधियाँ
* मूल्य-कार्य और नीति खोज विधियाँ


Line 229: Line 228:
| [[Monte Carlo method|मोंटे कार्लो]] || मोंटे कार्लो की हर यात्रा ||  दोनों में से एक || पृथक || पृथक || प्रतिदर्श-साधन
| [[Monte Carlo method|मोंटे कार्लो]] || मोंटे कार्लो की हर यात्रा ||  दोनों में से एक || पृथक || पृथक || प्रतिदर्श-साधन
|-
|-
| [[Q-learning|क्यू-लर्निंग]] || राज्य-कार्रवाई-इनाम-राज्य ||  ऑफ नीति || पृथक || पृथक || क्यू-मूल्य
| [[Q-learning|क्यू-लर्निंग]] || अवस्था -कार्रवाई-इनाम-अवस्था ||  ऑफ नीति || पृथक || पृथक || क्यू-मूल्य
|-
|-
| [[State–action–reward–state–action|सार्सा]] || स्टेट-एक्शन-इनाम-स्टेट-एक्शन  || ऑन-नीति || पृथक || पृथक || क्यू-मूल्य
| [[State–action–reward–state–action|सार्सा]] || स्टेट-एक्शन-इनाम-स्टेट-एक्शन  || ऑन-नीति || पृथक || पृथक || क्यू-मूल्य
|-
|-
| क्यू-लर्निंग - लैम्ब्डा || राज्य-कार्रवाई-इनाम-राज्य योग्यता के निशान के साथ||  ऑफ नीति || पृथक || पृथक || क्यू-मूल्य
| क्यू-लर्निंग - लैम्ब्डा || अवस्था -कार्रवाई-इनाम-अवस्था योग्यता के निशान के साथ||  ऑफ नीति || पृथक || पृथक || क्यू-मूल्य
|-
|-
| सरसा - लैम्ब्डा || योग्यता के निशान के साथ राज्य-कार्रवाई-इनाम-राज्य-कार्रवाई || ऑन-नीति || पृथक || पृथक || क्यू-मूल्य
| सरसा - लैम्ब्डा || योग्यता के निशान के साथ अवस्था -कार्रवाई-इनाम-अवस्था -कार्रवाई || ऑन-नीति || पृथक || पृथक || क्यू-मूल्य
|-
|-
| [[Q-learning#Deep Q-learning|डीक्यूएन]] || डीप क्यू नेटवर्क  || ऑफ नीति || पृथक || निरंतर || क्यू-मूल्य
| [[Q-learning#Deep Q-learning|डीक्यूएन]] || डीप क्यू नेटवर्क  || ऑफ नीति || पृथक || निरंतर || क्यू-मूल्य
Line 268: Line 267:
साहचर्य सुदृढीकरण सीखने के कार्य स्टोकेस्टिक लर्निंग ऑटोमेटा कार्यों और पर्यवेक्षित शिक्षण प्रतिरूप वर्गीकरण कार्यों के पहलुओं को जोड़ते हैं। साहचर्य सुदृढीकरण सीखने के कार्यों में सीखने की प्रणाली अपने पर्यावरण के साथ एक बंद लूप में इंटरैक्ट करती है।<ref>{{cite book |last1=Soucek |first1=Branko |title=Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series |date=6 May 1992 |publisher=John Wiley & Sons, Inc |isbn=0-471-55717-X |page=38}}</ref>
साहचर्य सुदृढीकरण सीखने के कार्य स्टोकेस्टिक लर्निंग ऑटोमेटा कार्यों और पर्यवेक्षित शिक्षण प्रतिरूप वर्गीकरण कार्यों के पहलुओं को जोड़ते हैं। साहचर्य सुदृढीकरण सीखने के कार्यों में सीखने की प्रणाली अपने पर्यावरण के साथ एक बंद लूप में इंटरैक्ट करती है।<ref>{{cite book |last1=Soucek |first1=Branko |title=Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series |date=6 May 1992 |publisher=John Wiley & Sons, Inc |isbn=0-471-55717-X |page=38}}</ref>
=== गहरा सुदृढीकरण सीखना ===
=== गहरा सुदृढीकरण सीखना ===
यह दृष्टिकोण एक गहरे तंत्रिका नेटवर्क का उपयोग करके और स्पष्ट रूप से अवस्था स्थान को डिजाइन किए बिना सुदृढीकरण सीखने का विस्तार करता है।<ref name="intro_deep_RL">{{cite journal |first= Vincent|display-authors=etal|last= Francois-Lavet |year=2018 |title= गहन सुदृढीकरण सीखने का एक परिचय|journal=Foundations and Trends in Machine Learning|volume=11 |issue=3–4 |pages=219–354 |doi=10.1561/2200000071|arxiv= 1811.12560 |bibcode=2018arXiv181112560F|s2cid=54434537}</ref> गूगल [[डीपमाइंड]] द्वारा अटारी गेम सीखने पर किए गए काम ने [[गहन सुदृढीकरण सीखना]] या [[एंड-टू-एंड रीइन्फोर्समेंट लर्निंग]] पर ध्यान बढ़ाया है ।  
यह दृष्टिकोण एक गहरे तंत्रिका नेटवर्क का उपयोग करके और स्पष्ट रूप से अवस्था स्थान को डिजाइन किए बिना सुदृढीकरण सीखने का विस्तार करता है।<ref name="intro_deep_RL">{{cite journal |first= Vincent|display-authors=etal|last= Francois-Lavet |year=2018 |title= गहन सुदृढीकरण सीखने का एक परिचय|journal=Foundations and Trends in Machine Learning|volume=11 |issue=3–4 |pages=219–354 |doi=10.1561/2200000071|arxiv= 1811.12560 |bibcode=2018arXiv181112560F|s2cid=54434537}</ref> गूगल [[डीपमाइंड]] द्वारा अटारी गेम सीखने पर किए गए काम ने गहन सुदृढीकरण सीखना या एंड-टू-एंड रीइन्फोर्समेंट लर्निंग पर ध्यान बढ़ाया है ।  


=== प्रतिकूल गहन सुदृढीकरण सीखना ===
=== प्रतिकूल गहन सुदृढीकरण सीखना ===
एडवर्सेरियल डीप रीइन्फोर्समेंट लर्निंग रीइन्फोर्समेंट लर्निंग में अनुसंधान का एक सक्रिय क्षेत्र है जो सीखी हुई नीतियों की कमियों पर ध्यान केंद्रित करता है। इस शोध क्षेत्र में कुछ अध्ययनों ने प्रारंभ में दिखाया कि सुदृढीकरण सीखने की नीतियां अगोचर प्रतिकूल जोड़-तोड़ के लिए अतिसंवेदनशील हैं।<ref>{{cite journal |last1= Goodfellow|first1=Ian  |last2=Shlens |first2= Jonathan|last3=Szegedy|first3=Christian|title= विरोधात्मक उदाहरणों की व्याख्या करना और उनका उपयोग करना|journal= International Conference on Learning Representations |date= 2015 |arxiv=1412.6572 }}</ref><ref>{{cite journal |last1= Behzadan|first1=Vahid  |last2=Munir |first2= Arslan|title= पॉलिसी इंडक्शन अटैक के लिए डीप रीइन्फोर्समेंट लर्निंग की भेद्यता|journal= International Conference on Machine Learning and Data Mining in Pattern Recognition |series=Lecture Notes in Computer Science |date= 2017 |volume=10358 |pages=262–275 |doi=10.1007/978-3-319-62416-7_19 |arxiv=1701.04143|isbn=978-3-319-62415-0 |s2cid=1562290 }}</ref><ref>{{Cite book |last=Pieter |first=Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel |url=http://worldcat.org/oclc/1106256905 |title=तंत्रिका नेटवर्क नीतियों पर प्रतिकूल हमले|date=2017-02-07 |oclc=1106256905}}</ref> जबकि इन संवेदनशीलताओं को दूर करने के लिए कुछ विधियों का प्रस्ताव किया गया है वर्तमान के अध्ययनों में यह दिखाया गया है कि ये प्रस्तावित समाधान गहन सुदृढीकरण सीखने की नीतियों की वर्तमान कमियों का स्पष्ट प्रतिनिधित्व प्रदान करने से बहुत दूर हैं।<ref>{{cite journal |last1=Korkmaz |first1=Ezgi |date=2022 |title=डीप रीइन्फोर्समेंट लर्निंग नीतियां एमडीपी में साझा विरोधी विशेषताएं सीखें।|journal=Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22) |volume=36 |issue=7 |pages=7229–7238 |doi=10.1609/aaai.v36i7.20684 |arxiv=|s2cid=245219157 |doi-access=free }}</ref>
एडवर्सेरियल डीप रीइन्फोर्समेंट लर्निंग रीइन्फोर्समेंट लर्निंग में अनुसंधान का एक सक्रिय क्षेत्र है जो सीखी हुई नीतियों की कमियों पर ध्यान केंद्रित करता है। इस शोध क्षेत्र में कुछ अध्ययनों ने प्रारंभ में दिखाया कि सुदृढीकरण सीखने की नीतियां अगोचर प्रतिकूल जोड़-तोड़ के लिए अतिसंवेदनशील हैं।<ref>{{cite journal |last1= Goodfellow|first1=Ian  |last2=Shlens |first2= Jonathan|last3=Szegedy|first3=Christian|title= विरोधात्मक उदाहरणों की व्याख्या करना और उनका उपयोग करना|journal= International Conference on Learning Representations |date= 2015 |arxiv=1412.6572 }}</ref><ref>{{cite journal |last1= Behzadan|first1=Vahid  |last2=Munir |first2= Arslan|title= पॉलिसी इंडक्शन अटैक के लिए डीप रीइन्फोर्समेंट लर्निंग की भेद्यता|journal= International Conference on Machine Learning and Data Mining in Pattern Recognition |series=Lecture Notes in Computer Science |date= 2017 |volume=10358 |pages=262–275 |doi=10.1007/978-3-319-62416-7_19 |arxiv=1701.04143|isbn=978-3-319-62415-0 |s2cid=1562290 }}</ref><ref>{{Cite book |last=Pieter |first=Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel |url=http://worldcat.org/oclc/1106256905 |title=तंत्रिका नेटवर्क नीतियों पर प्रतिकूल हमले|date=2017-02-07 |oclc=1106256905}}</ref> जबकि इन संवेदनशीलताओं को दूर करने के लिए कुछ विधियों का प्रस्ताव किया गया है वर्तमान के अध्ययनों में यह दिखाया गया है कि ये प्रस्तावित समाधान गहन सुदृढीकरण सीखने की नीतियों की वर्तमान कमियों का स्पष्ट प्रतिनिधित्व प्रदान करने से बहुत दूर हैं।<ref>{{cite journal |last1=Korkmaz |first1=Ezgi |date=2022 |title=डीप रीइन्फोर्समेंट लर्निंग नीतियां एमडीपी में साझा विरोधी विशेषताएं सीखें।|journal=Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22) |volume=36 |issue=7 |pages=7229–7238 |doi=10.1609/aaai.v36i7.20684 |arxiv=|s2cid=245219157 |doi-access=free }}</ref>


 
=== अस्पष्ट सुदृढीकरण सीखना ===
=== फ़ज़ी रीइन्फोर्समेंट लर्निंग ===
आरएल में फजी नियंत्रण प्रणाली प्रारंभ करके<ref>{{Cite journal |last=Berenji |first=H.R. |date=1994 |title=Fuzzy Q-learning: a new approach for fuzzy dynamic programming |url=https://ieeexplore.ieee.org/document/343737 |journal=Proc. IEEE 3rd International Fuzzy Systems Conference |location=Orlando, FL, USA |publisher=IEEE |pages=486–491 |doi=10.1109/FUZZY.1994.343737|isbn=0-7803-1896-X |s2cid=56694947 }}</ref> निरंतर स्थान में फजी नियम के साथ स्टेट-एक्शन मान कार्य का अनुमान लगाना संभव हो जाता है। फजी नियमों का इफ -देन रूप इस दृष्टिकोण को प्राकृतिक भाषा के समीप के रूप में परिणामों को व्यक्त करने के लिए उपयुक्त बनाता है। फ़ज़ी रूल इंटरपोलेशन के साथ एफआरएल का विस्तार <ref>{{Cite book |last=Vincze |first=David |title=2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI) |date=2017 |chapter=Fuzzy rule interpolation and reinforcement learning |chapter-url=http://users.iit.uni-miskolc.hu/~vinczed/research/vinczed_sami2017_author_draft.pdf |publisher=IEEE |pages=173–178 |doi=10.1109/SAMI.2017.7880298|isbn=978-1-5090-5655-2 |s2cid=17590120 }}</ref> कार्डिनल नियमों (सबसे महत्वपूर्ण अवस्था -कार्रवाई मानो ) पर जोर देने के लिए कम आकार के विरल फ़ज़ी नियम-आधारों के उपयोग की अनुमति देता है।
आरएल में [[ फजी नियंत्रण प्रणाली ]] प्रारंभ करके<ref>{{Cite journal |last=Berenji |first=H.R. |date=1994 |title=Fuzzy Q-learning: a new approach for fuzzy dynamic programming |url=https://ieeexplore.ieee.org/document/343737 |journal=Proc. IEEE 3rd International Fuzzy Systems Conference |location=Orlando, FL, USA |publisher=IEEE |pages=486–491 |doi=10.1109/FUZZY.1994.343737|isbn=0-7803-1896-X |s2cid=56694947 }}</ref> निरंतर स्थान में [[फजी नियम]] के साथ स्टेट-एक्शन मान कार्य का अनुमान लगाना संभव हो जाता है। फजी नियमों का इफ -देन रूप इस दृष्टिकोण को प्राकृतिक भाषा के समीप के रूप में परिणामों को व्यक्त करने के लिए उपयुक्त बनाता है। फ़ज़ी रूल इंटरपोलेशन के साथ एफआरएल का विस्तार <ref>{{Cite book |last=Vincze |first=David |title=2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI) |date=2017 |chapter=Fuzzy rule interpolation and reinforcement learning |chapter-url=http://users.iit.uni-miskolc.hu/~vinczed/research/vinczed_sami2017_author_draft.pdf |publisher=IEEE |pages=173–178 |doi=10.1109/SAMI.2017.7880298|isbn=978-1-5090-5655-2 |s2cid=17590120 }}</ref> कार्डिनल नियमों (सबसे महत्वपूर्ण अवस्था -कार्रवाई मानो ) पर जोर देने के लिए कम आकार के विरल फ़ज़ी नियम-आधारों के उपयोग की अनुमति देता है।


=== विपरीत सुदृढीकरण सीखना ===
=== विपरीत सुदृढीकरण सीखना ===
Line 351: Line 349:
* [https://lilianweng.github.io/posts/2018-02-19-rl-overview/ A (Long) Peek into Reinforcement Learning]
* [https://lilianweng.github.io/posts/2018-02-19-rl-overview/ A (Long) Peek into Reinforcement Learning]


{{Differentiable computing}}
[[Category:Articles with hatnote templates targeting a nonexistent page]]
{{Computer science}}
[[Category:CS1 English-language sources (en)]]
[[Category: सुदृढीकरण सीखना | सुदृढीकरण सीखना ]] [[Category: मार्कोव मॉडल]] [[Category: विश्वास संशोधन]]  
[[Category:CS1 maint]]
 
[[Category:Collapse templates]]
 
 
[[Category: Machine Translated Page]]
[[Category:Created On 29/05/2023]]
[[Category:Created On 29/05/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Multi-column templates]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages using div col with small parameter]]
[[Category:Pages with script errors]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Translated in Hindi]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates generating microformats]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Templates using under-protected Lua modules]]
[[Category:Webarchive template wayback links]]
[[Category:Wikipedia fully protected templates|Div col]]
[[Category:Wikipedia metatemplates]]
[[Category:मार्कोव मॉडल]]
[[Category:विश्वास संशोधन]]
[[Category:सुदृढीकरण सीखना| सुदृढीकरण सीखना ]]

Latest revision as of 16:37, 18 September 2023



रीइंफोर्समेंट लर्निंग (आरएल) मशीन लर्निंग का एक क्षेत्र है जो इस बात से संबंधित है कि बुद्धिमान एजेंटों को संचयी इनाम की धारणा को अधिकतम करने के लिए पर्यावरण में कार्रवाई कैसे करनी चाहिए। रीइन्फोर्समेंट लर्निंग सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग के साथ-साथ तीन मूलभूत मशीन लर्निंग प्रतिमानों में से एक है।

सुदृढीकरण सीखना पर्यवेक्षित शिक्षण से भिन्न होता है जिसमें लेबल किए गए इनपुट/आउटपुट जोड़े प्रस्तुत करने की आवश्यकता नहीं होती है और उप-इष्टतम क्रियाओं को स्पष्ट रूप से ठीक करने की आवश्यकता नहीं होती है। इसके अतिरिक्त ध्यान अन्वेषण (अज्ञात क्षेत्र का) और शोषण (वर्तमान ज्ञान का) के बीच संतुलन खोजने पर है।[1]

पर्यावरण को सामान्यतः मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में कहा जाता है, क्योंकि इस संदर्भ के लिए कई सुदृढीकरण सीखने वाले एल्गोरिदम डायनामिक प्रोग्रामिंग विधियों का उपयोग करते हैं।[2] मौलिक डायनामिक प्रोग्रामिंग विधियों और सुदृढीकरण सीखने के एल्गोरिदम के बीच मुख्य अंतर यह है कि बाद वाले एमडीपी के एक स्पष्ट गणितीय मॉडल के ज्ञान को नहीं मानते हैं और वे बड़े एमडीपी को लक्षित करते हैं जहां स्पष्ट विधि अव्यवहारिक हो जाते हैं।

परिचय

इसकी व्यापकता के कारण खेल सिद्धांत कंट्रोल सिद्धांत गतिविधि अनुसंधान सूचना सिद्धांत अनुकरण आधारित अनुकूलन बहु एजेंट प्रणाली और आंकड़े जैसे कई विषयों में रीइन्फोर्समेंट लर्निंग का अध्ययन किया जाता है। संचालन अनुसंधान और नियंत्रण साहित्य में सुदृढीकरण सीखने को अनुमानित डायनामिक प्रोग्रामिंग या न्यूरो-डायनामिक प्रोग्रामिंग कहा जाता है। सुदृढीकरण सीखने में रुचि की समस्याओं का इष्टतम नियंत्रण सिद्धांत में भी अध्ययन किया गया है जो अधिकत्तर इष्टतम समाधानों के अस्तित्व और लक्षण वर्णन से संबंधित है और उनकी स्पष्ट गणना के लिए एल्गोरिदम और सीखने या सन्निकटन के साथ कम विशेष रूप से अनुपस्थिति में पर्यावरण का गणितीय मॉडल अर्थशास्त्र और गेम सिद्धांत में रीइन्फोर्समेंट लर्निंग का उपयोग यह समझाने के लिए किया जा सकता है कि बाध्य तर्कसंगतता के तहत संतुलन कैसे उत्पन्न हो सकता है।

मूलभूत सुदृढीकरण सीखने को मार्कोव निर्णय प्रक्रिया मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में तैयार किया गया है:

  • पर्यावरण और एजेंट अवस्थाओ का एक सेट, S;
  • एजेंट के कार्यों A का एक सेट;
  • संक्रमण की संभावना है (पर समय ) अवस्था से अवस्था कार्रवाई के तहत।
  • कार्रवाई के साथ से में संक्रमण के बाद तत्काल इनाम है।

सुदृढीकरण सीखने का उद्देश्य एजेंट के लिए एक इष्टतम या लगभग-इष्टतम नीति सीखना है जो इनाम कार्य या अन्य उपयोगकर्ता द्वारा प्रदान किए गए सुदृढीकरण संकेत को अधिकतम करता है जो तत्काल पुरस्कारों से जमा होता है। यह पशु मनोविज्ञान में होने वाली प्रक्रियाओं के समान है। उदाहरण के लिए जैविक सर दर्द और भूख जैसे संकेतों को नकारात्मक सुदृढीकरण के रूप में व्याख्या करने के लिए कठोर होते हैं और सकारात्मक सुदृढीकरण के रूप में आनंद और भोजन के सेवन की व्याख्या करते हैं। कुछ परिस्थितियों में, जानवर इन पुरस्कारों को अनुकूलित करने वाले व्यवहारों में सम्मिलित होना सीख सकते हैं। इससे पता चलता है कि जानवर सुदृढीकरण सीखने में सक्षम हैं।[3][4]

एक मूलभूत सुदृढीकरण सीखने वाला एजेंट AI अपने पर्यावरण के साथ असतत समय चरणों में परस्पर क्रिया करता है। प्रत्येक समय t पर, एजेंट को वर्तमान स्थिति और पुरस्कार प्राप्त होता है। इसके बाद यह उपलब्ध क्रियाओं के सेट से एक क्रिया चुनता है, जिसे बाद में पर्यावरण को भेजा जाता है। पर्यावरण एक नई अवस्था में जाता है और संक्रमण से जुड़ा इनाम निर्धारित होता है। सुदृढीकरण सीखने वाले एजेंट का लक्ष्य एक नीति सीखना है: , जो अपेक्षित संचयी इनाम को अधिकतम करता है।

एमडीपी के रूप में समस्या का सूत्रीकरण यह मानता है कि एजेंट वर्तमान पर्यावरणीय स्थिति को सीधे देखता है इस स्थिति में कहा जाता है कि समस्या का पूर्ण अवलोकन है। यदि एजेंट के पास केवल अवस्थाओ के एक सबसेट तक पहुंच है,या यदि देखे गए अवस्था ध्वनि से दूषित हैं तो एजेंट को आंशिक अवलोकन क्षमता कहा जाता है और औपचारिक रूप से समस्या को आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया के रूप में तैयार किया जाना चाहिए। दोनों ही स्थिति में एजेंट के लिए उपलब्ध कार्रवाइयों के सेट को प्रतिबंधित किया जा सकता है. उदाहरण के लिए खाते की शेष राशि की स्थिति सकारात्मक होने के लिए प्रतिबंधित की जा सकती है; यदि अवस्था का वर्तमान मान 3 है और अवस्था संक्रमण मान को 4 से कम करने का प्रयास करता है, तो संक्रमण की अनुमति नहीं दी जाएगी।

जब एजेंट के प्रदर्शन की तुलना एक ऐसे एजेंट से की जाती है जो उत्तम विधि से काम करता है, तो प्रदर्शन में अंतर शोक की धारणा (गेम सिद्धांत ) को जन्म देता है। उत्तम विधि से कार्य करने के लिए एजेंट को अपने कार्यों के दीर्घकालिक परिणामों (अर्थात भविष्य की आय को अधिकतम करना) के बारे में तर्क करना चाहिए, चूँकि इससे जुड़ा तत्काल इनाम नकारात्मक हो सकता है।

इस प्रकार सुदृढीकरण सीखना विशेष रूप से उन समस्याओं के अनुकूल है जिनमें दीर्घकालिक बनाम अल्पकालिक इनाम व्यापार बंद सम्मिलित है। इसे रोबोट नियंत्रण, एलिवेटर शेड्यूलिंग, दूरसंचार, बैकगैमौन, चेकर्स और गो (अल्फागो) सहित विभिन्न समस्याओं पर सफलतापूर्वक प्रयुक्त किया गया है।

दो तत्व सुदृढीकरण सीखने को शक्तिशाली बनाते हैं: प्रदर्शन को अनुकूलित करने के लिए नमूनों का उपयोग और बड़े वातावरण से निपटने के लिए कार्य सन्निकटन का उपयोग इन दो प्रमुख घटकों के लिए धन्यवाद सुदृढीकरण सीखने का उपयोग निम्नलिखित स्थितियों में बड़े वातावरण में किया जा सकता है:

  • पर्यावरण का एक मॉडल ज्ञात है किन्तु एक बंद रूप अभिव्यक्ति उपलब्ध नहीं है;
  • पर्यावरण का केवल एक सिमुलेशन मॉडल दिया गया है (सिमुलेशन-आधारित अनुकूलन का विषय);[5]
  • पर्यावरण के बारे में जानकारी एकत्र करने का एकमात्र विधि इसके साथ अंतःक्रिया करना है।

इन समस्याओं में से पहली दो समस्याओं को नियोजन समस्या माना जा सकता है (चूंकि मॉडल का कोई रूप उपलब्ध है) जबकि अंतिम समस्या को वास्तविक सीखने की समस्या माना जा सकता है। चूँकि सुदृढीकरण सीखने से दोनों नियोजन समस्याओं को मशीन सीखने की समस्याओं में बदल दिया जाता है।

अन्वेषण

बर्नेटास और कटेहाकिस (1997) में बहु-हथियारबंद दस्यु समस्या और परिमित अवस्था अंतरिक्ष एमडीपी के माध्यम से अन्वेषण बनाम शोषण व्यापार-बंद का सबसे गहन अध्ययन किया गया है।[6]

सुदृढीकरण सीखने के लिए चतुर अन्वेषण तंत्र की आवश्यकता होती है; अनुमानित संभाव्यता वितरण के संदर्भ के बिना व्यवस्थित विधि से क्रियाओं का चयन करना खराब प्रदर्शन दर्शाता है। (छोटे) परिमित एमडीपी का स्थति अपेक्षाकृत अच्छी तरह से समझा गया है। चूँकि एल्गोरिदम की कमी के कारण जो अवस्थाओ की संख्या (या अनंत अवस्था रिक्त स्थान के साथ समस्याओं के मापदंड) के साथ अच्छी तरह से स्केल करते हैं सरल अन्वेषण विधियां सबसे व्यावहारिक हैं।

ऐसा ही एक विधि है -ग्रीडी जहां एक पैरामीटर है जो अन्वेषण बनाम शोषण की मात्रा को नियंत्रित करता है। प्रायिकता के साथ शोषण का चयन किया जाता है, और एजेंट उस क्रिया को चुनता है जिसके बारे में उसका मानना है कि इसका सबसे अच्छा दीर्घकालिक प्रभाव होता है (कार्रवाई के बीच संबंध यादृच्छिक रूप से समान रूप से टूट जाते हैं)। वैकल्पिक रूप से प्रायिकता के साथ अन्वेषण को चुना जाता है और क्रिया को यादृच्छिक रूप से समान रूप से चुना जाता है। सामान्यतः एक निश्चित पैरामीटर होता है, किन्तु या तो एक शेड्यूल के अनुसार समायोजित किया जा सकता है (एजेंट को उत्तरोत्तर कम खोजता है) या अनुकूली रूप से ह्यूरिस्टिक्स पर आधारित होता है।

नियंत्रण सीखने के लिए एल्गोरिदम

यहां तक ​​​​कि यदि अन्वेषण के उद्देश्य की अवहेलना की जाती है और यहां तक ​​​​कि यदि अवस्था अवलोकनीय था (इसके बाद माना जाता है) समस्या यह पता लगाने के लिए पिछले अनुभव का उपयोग करने के लिए बनी हुई है कि कौन से कार्य उच्च संचयी पुरस्कारों की ओर ले जाते हैं।

इष्टतमता का मानदंड

नीति

एजेंट की कार्रवाई का चयन एक मानचित्र के रूप में किया जाता है जिसे नीति कहा जाता है:

नीति मानचित्र जब स्थिति में कार्रवाई करने की संभावना देता है। .[7]: 61  नियतात्मक नीतियां भी हैं।

अवस्था -मान कार्य

मान कार्य के रूप में परिभाषित किया गया है अवस्था से प्रारंभ होने वाली अपेक्षित वापसी , अर्थात , और क्रमिक रूप से नीति का पालन करना . इसलिए, मोटे तौर पर बोलते हुए, मान कार्य का अनुमान है कि यह किसी दिए गए अवस्था में कितना अच्छा है।[7]: 60 

जहां यादृच्छिक चर वापसी को दर्शाता है, और इसे भविष्य के रियायती पुरस्कारों के योग के रूप में परिभाषित किया गया है:

जहां चरण पर पुरस्कार है छूट-दर है। गामा 1 से कम है इसलिए दूर के भविष्य की घटनाओं को तत्काल भविष्य की घटनाओं से कम भारित किया जाता है।

एल्गोरिद्म को अधिकतम प्रत्याशित प्रतिफल वाली नीति खोजनी चाहिए। एमडीपी के सिद्धांत से यह ज्ञात होता है कि सामान्यता के हानि के बिना खोज को तथाकथित स्थिर नीतियों के सेट तक सीमित किया जा सकता है। एक नीति स्थिर होती है यदि उसके द्वारा लौटाया गया क्रिया-वितरण केवल अंतिम सीमा पर निर्भर करता है (अवलोकन एजेंट के इतिहास से)। खोज को नियतात्मक स्थिर नीतियों तक सीमित किया जा सकता है। एक नियतात्मक स्थिर नीति निश्चित रूप से वर्तमान स्थिति के आधार पर क्रियाओं का चयन करती है। चूंकि इस तरह की किसी भी नीति को अवस्थाओ के सेट से लेकर कार्रवाई के सेट तक मैपिंग के साथ पहचाना जा सकता है, इसलिए इन नीतियों की पहचान ऐसे मैपिंग से की जा सकती है, जिसमें व्यापकता का कोई हानि नहीं है।

क्रूर बल

क्रूर-बल खोज एप्रोच में दो चरण होते हैं:

  • प्रत्येक संभावित नीति के लिए, इसका पालन करते हुए नमूना रिटर्न
  • अधिकतम प्रत्याशित रिटर्न वाली पॉलिसी चुनें

इसके साथ एक समस्या यह है कि नीतियों की संख्या बड़ी या अनंत भी हो सकती है। दूसरा यह है कि रिटर्न का अंतर बड़ा हो सकता है, जिसके लिए प्रत्येक पॉलिसी की वापसी का स्पष्ट अनुमान लगाने के लिए कई नमूनों की आवश्यकता होती है।

इन समस्याओं में सुधार किया जा सकता है यदि हम कुछ संरचना मान लें और एक नीति से उत्पन्न नमूनों को दूसरों के लिए किए गए अनुमानों को प्रभावित करने की अनुमति दें। इसे प्राप्त करने के लिए दो मुख्य दृष्टिकोण मूल्य प्रकार्य अनुमान और प्रत्यक्ष नीति खोज हैं।

मान कार्य

मान कार्य दृष्टिकोण ऐसी नीति खोजने का प्रयास करता है जो कुछ नीति के लिए अपेक्षित रिटर्न के अनुमानों के एक सेट को बनाए रखते हुए रिटर्न को अधिकतम करता है (सामान्यतः या तो वर्तमान [ऑन-पॉलिसी] या इष्टतम [ऑफ-पॉलिसी] एक)।

ये विधियाँ मार्कोव निर्णय प्रक्रियाओं के सिद्धांत पर निर्भर करती हैं, जहाँ इष्टतमता को एक अर्थ में परिभाषित किया गया है जो ऊपर वाले से अधिक शक्तिशाली है: एक नीति को इष्टतम कहा जाता है यदि यह किसी भी प्रारंभिक अवस्था से सर्वोत्तम-प्रत्याशित प्रतिफल प्राप्त करती है (अर्थात, प्रारंभिक वितरण नहीं खेलते हैं) इस परिभाषा में भूमिका) फिर से स्थिर नीतियों के बीच एक इष्टतम नीति सदैव पाई जा सकती है।

इष्टतमता को औपचारिक विधि से परिभाषित करने के लिए, नीति के मान को परिभाषित करें

जहाँ निम्नलिखित से जुड़े रिटर्न के लिए खड़ा है प्रारंभिक अवस्था से . परिभाषित के अधिकतम संभव मान के रूप में , जहाँ बदलने की अनुमति है,

एक नीति जो प्रत्येक अवस्था में इन इष्टतम मानो को प्राप्त करती है, इष्टतम कहलाती है। स्पष्ट रूप से, एक नीति जो इस शक्तिशाली अर्थ में इष्टतम है, इस अर्थ में भी इष्टतम है कि यह अपेक्षित प्रतिफल को अधिकतम करती है , तब से , जहाँ वितरण से बेतरतीब विधि से नमूना लिया गया अवस्था है प्रारंभिक अवस्थाओं की (इसलिए ).

यद्यपि अवस्था -मान इष्टतमता को परिभाषित करने के लिए पर्याप्त हैं, यह क्रिया-मानो को परिभाषित करने के लिए उपयोगी है। एक अवस्था दिया , एक कार्यवाही और एक नीति , जोड़ी का क्रिया-मान अंतर्गत द्वारा परिभाषित किया गया है

जहां अब अवस्था में पहली बार कार्रवाई करने और उसके बाद के बाद से जुड़े यादृच्छिक रिटर्न के लिए है।

एमडीपी के सिद्धांत में कहा गया है कि यदि एक इष्टतम नीति है, हम कार्रवाई का चयन करके इष्टतम रूप से कार्य करते हैं (इष्टतम कार्रवाई करें)। प्रत्येक अवस्था में उच्चतम मान के साथ, . ऐसी इष्टतम नीति का क्रिया-मान कार्य () को इष्टतम क्रिया-मान कार्य कहा जाता है और सामान्यतः इसे निरूपित किया जाता है . संक्षेप में, केवल इष्टतम क्रिया-मान कार्य का ज्ञान ही यह जानने के लिए पर्याप्त है कि उत्तम विधि से कैसे कार्य किया जाए।

एमडीपी के पूर्ण ज्ञान को मानते हुए, इष्टतम क्रिया-मान कार्य की गणना करने के लिए दो मूलभूत दृष्टिकोण मान पुनरावृत्ति और नीति पुनरावृत्ति हैं। दोनों एल्गोरिदम कार्यों के अनुक्रम की गणना करते हैं () जो अभिसरण करता है . इन कार्यों की गणना में पूरे अवस्था -स्थान पर अपेक्षाओं की गणना करना सम्मिलित है जो कि सबसे छोटे (परिमित) एमडीपी के अतिरिक्त सभी के लिए अव्यावहारिक है। सुदृढीकरण सीखने के विधियों में, बड़े अवस्था -कार्रवाई स्थानों पर मान कार्यों का प्रतिनिधित्व करने की आवश्यकता से निपटने के लिए नमूनों पर औसत और कार्य सन्निकटन विधियों का उपयोग करके अपेक्षाओं का अनुमान लगाया जाता है।

मोंटे कार्लो के विधि

मोंटे कार्लो नमूनाकरण का उपयोग एल्गोरिथम में किया जा सकता है जो नीति पुनरावृत्ति की नकल करता है। नीति पुनरावृत्ति में दो चरण होते हैं: नीति मूल्यांकन और नीति सुधार है ।

मोंटे कार्लो का उपयोग नीति मूल्यांकन चरण में किया जाता है। इस चरण में, एक स्थिर, नियतात्मक नीति दी गई है , लक्ष्य कार्य मानों की गणना करना है (या उनके लिए एक अच्छा सन्निकटन) सभी स्टेट-एक्शन जोड़े के लिए . मान लें (सरलता के लिए) कि एमडीपी परिमित है, कार्रवाई-मानो को समायोजित करने के लिए पर्याप्त मेमोरी उपलब्ध है और यह कि समस्या एपिसोडिक है और प्रत्येक एपिसोड के बाद कुछ यादृच्छिक प्रारंभिक अवस्था से एक नया प्रारंभ होता है। फिर किसी दिए गए स्टेट-एक्शन जोड़ी के मान का अनुमान से उत्पन्न होने वाले नमूना रिटर्न के औसत से गणना की जा सकती है अधिक समय तक। पर्याप्त समय दिया गया है, इस प्रकार यह प्रक्रिया एक स्पष्ट अनुमान का निर्माण कर सकती है क्रिया-मान कार्य का . यह नीति मूल्यांकन चरण के विवरण को समाप्त करता है।

नीति सुधार चरण में, के संबंध में ग्रीडी नीति की गणना करके अगली नीति प्राप्त की जाती है : एक अवस्था दिया , यह नई नीति अधिकतम करने वाली कार्रवाई लौटाती है . व्यावहारिक रूप से आलसी मूल्यांकन अधिकतम क्रियाओं की गणना को तब तक के लिए टाल सकता है जब उनकी आवश्यकता होती है।

इस प्रक्रिया की समस्याओं में सम्मिलित हैं:

1. प्रक्रिया में एक उप-इष्टतम नीति का मूल्यांकन करने में बहुत अधिक समय लग सकता है।

2. यह नमूने का अक्षमता से उपयोग करता है जिसमें एक लंबा प्रक्षेपवक्र केवल एकल अवस्था -क्रिया जोड़ी के अनुमान में सुधार करता है जिसने प्रक्षेपवक्र प्रारंभ किया।

3. जब प्रक्षेपवक्र के साथ रिटर्न में उच्च विचरण होता है, तो अभिसरण धीमा होता है।

4. यह एपिसोडिक समस्या में ही काम करता है।

5. यह छोटे, सीमित एमडीपी में ही काम करता है।

अस्थायी अंतर के विधि

मानो के व्यवस्थित होने से पहले प्रक्रिया को (कुछ या सभी अवस्थाओ में) नीति को बदलने की अनुमति देकर पहली समस्या को ठीक किया जाता है। यह भी समस्याग्रस्त हो सकता है क्योंकि यह अभिसरण को रोक सकता है। अधिकांश वर्तमान एल्गोरिदम ऐसा करते हैं सामान्यीकृत नीति पुनरावृत्ति एल्गोरिदम के वर्ग को जन्म देते हैं। अनेक अभिनेता-आलोचक विधियां इसी श्रेणी में आती हैं।

दूसरे उद्देश्य को प्रक्षेपवक्र को उनमें किसी भी अवस्था -एक्शन जोड़ी में योगदान करने की अनुमति देकर ठीक किया जा सकता है। यह तीसरी समस्या के साथ कुछ सीमा तक सहायता कर सकता है चूँकि एक उत्तम समाधान जब रिटर्न में उच्च विचरण होता है तो सटन की अस्थायी अंतर (टीडी) पद्धतियां होती हैं जो पुनरावर्ती बेलमैन समीकरण पर आधारित होती हैं।[8][9] टीडी विधियों में गणना वृद्धिशील हो सकती है (जब प्रत्येक संक्रमण के बाद स्मृति बदल जाती है और संक्रमण दूर हो जाता है) या बैच (जब संक्रमण बैच किए जाते हैं और बैच के आधार पर अनुमानों की गणना की जाती है)। बैच विधियाँ जैसे कि कम से कम वर्ग अस्थायी अंतर विधि,[10] नमूनों में जानकारी का उत्तम उपयोग कर सकते हैं, जबकि वृद्धिशील विधियाँ एकमात्र विकल्प हैं जब बैच विधियाँ उनकी उच्च कम्प्यूटेशनल या मेमोरी जटिलता के कारण अक्षम होती हैं। कुछ विधियाँ दो दृष्टिकोणों को संयोजित करने का प्रयास करती हैं। लौकिक भिन्नताओं पर आधारित पद्धतियाँ भी चौथी समस्या को दूर करती हैं।

टीडी के लिए विशिष्ट एक अन्य समस्या पुनरावर्ती बेलमैन समीकरण पर उनकी निर्भरता से आती है। अधिकांश टीडी विधियों में एक तथाकथित है पैरामीटर जो मोंटे कार्लो विधियों के बीच लगातार प्रक्षेपित कर सकता है जो बेलमैन समीकरणों पर विश्वास नहीं करते हैं और मूल टीडी विधियां जो पूरी तरह से बेलमैन समीकरणों पर विश्वास करती हैं। यह इस समस्या को दूर करने में कारगर हो सकता है।

फंक्शन सन्निकटन के विधि

पांचवें उद्देश्य को संबोधित करने के लिए, कार्य सन्निकटन विधियों का उपयोग किया जाता है। रैखिक कार्य सन्निकटन एक मानचित्रण से प्रारंभ होता है जो प्रत्येक अवस्था -क्रिया जोड़ी को एक परिमित-आयामी वेक्टर प्रदान करता है। फिर, अवस्था -क्रिया युग्म के क्रिया मान को कुछ वज़न के साथ के घटकों को रैखिक रूप से जोड़कर प्राप्त किया जाता है।

एल्गोरिदम तब अलग-अलग अवस्था -क्रिया जोड़े से जुड़े मानो को समायोजित करने के अतिरिक्त वजन समायोजित करता है। गैर-पैरामीट्रिक आँकड़ों (जो अपनी स्वयं की विशेषताओं का निर्माण करने के लिए देखा जा सकता है) से विचारों पर आधारित विधियों का पता लगाया गया है।

क्यू-लर्निंग एल्गोरिथम और इसके कई वेरिएंट को जन्म देते हुए मान इटरेशन को प्रारंभिक बिंदु के रूप में भी उपयोग किया जा सकता है।[11] स्टोकेस्टिक खोज समस्याओं में विभिन्न अनुप्रयोगों के साथ क्यू का प्रतिनिधित्व करने के लिए एक तंत्रिका नेटवर्क का उपयोग करते समय डीप क्यू-लर्निंग विधियों को सम्मिलित करना है।[12]

क्रिया-मानो का उपयोग करने में समस्या यह है कि उन्हें प्रतिस्पर्धात्मक क्रिया मानो के अत्यधिक स्पष्ट अनुमानों की आवश्यकता हो सकती है जो रिटर्न ध्वनि होने पर प्राप्त करना कठिन हो सकता है चूँकि अस्थायी अंतर विधियों द्वारा इस समस्या को कुछ सीमा तक कम किया जाता है। तथाकथित संगत कार्य सन्निकटन पद्धति का उपयोग करना सामान्यता और दक्षता से समझौता करता है।

प्रत्यक्ष नीति खोज

एक वैकल्पिक विधि पॉलिसी स्पेस (कुछ सबसेट) में सीधे खोज करना है जिस स्थिति में समस्या स्टोचैस्टिक अनुकूलन का स्थति बन जाती है। उपलब्ध दो दृष्टिकोण ढाल-आधारित और ढाल-मुक्त विधियाँ हैं।

ढाल-आधारित विधियाँ (नीति ढाल विधियाँ) एक परिमित-आयामी (पैरामीटर) स्थान से नीतियों के स्थान तक मानचित्रण के साथ प्रारंभ होती हैं: पैरामीटर वेक्टर दिया गया है, चलो , से संबंधित नीति को दर्शाता है द्वारा प्रदर्शन कार्य को परिभाषित करना है

हल्के परिस्थितियों में यह कार्य पैरामीटर वेक्टर के कार्य के रूप में अलग-अलग होगा। यदि का ग्रेडिएंट ज्ञात था, तो ग्रेडिएंट एसेंट का उपयोग किया जा सकता है। चूंकि ढाल के लिए एक विश्लेषणात्मक अभिव्यक्ति उपलब्ध नहीं है केवल ध्वनि का अनुमान उपलब्ध है। इस तरह के एक अनुमान को कई विधियों से बनाया जा सकता है जो एल्गोरिदम को जन्म देता है जैसे कि विलियम्स की रीइन्फोर्स विधि (जिसे सिमुलेशन-आधारित अनुकूलन साहित्य में संभावना अनुपात विधि के रूप में जाना जाता है)। रोबोटिक्स के संदर्भ में नीति खोज विधियों का उपयोग किया गया है।[13] कई नीतिगत खोज विधियां स्थानीय ऑप्टिमा में फंस सकती हैं (क्योंकि वे स्थानीय खोज पर आधारित हैं)।[14][15]

विधियों का एक बड़ा वर्ग ढाल की जानकारी पर विश्वास करने से बचता है। इनमें तैयार किए हुयी धातु पे पानी चढाने की कला , क्रॉस-एन्ट्रॉपी विधि क्रॉस-एन्ट्रॉपी खोज या विकासवादी संगणना के विधि सम्मिलित हैं। कई ग्रेडियेंट-मुक्त विधियां वैश्विक इष्टतम (सिद्धांत रूप में और सीमा में) प्राप्त कर सकती हैं।

नीति खोज पद्धति धीरे-धीरे दिए गए ध्वनि वाले डेटा को अभिसरण कर सकती है। उदाहरण के लिए यह एपिसोडिक समस्याओं में होता है जब प्रक्षेपवक्र लंबे होते हैं और रिटर्न का विचरण बड़ा होता है। मूल्य-कार्य आधारित विधियाँ जो लौकिक अंतरों पर निर्भर करती हैं इस स्थिति में सहायता कर सकती हैं। वर्तमान के वर्षों में अभिनेता-आलोचक विधियों का प्रस्ताव किया गया है और विभिन्न समस्याओं पर अच्छा प्रदर्शन किया है।[16]


मॉडल-आधारित एल्गोरिदम

अंत में उपरोक्त सभी विधियों को एल्गोरिदम के साथ जोड़ा जा सकता है जो पहले एक मॉडल सीखते हैं। उदाहरण के लिए डायना एल्गोरिथम[17] अनुभव से एक मॉडल सीखता है, और वास्तविक बदलाव के अतिरिक्त मान कार्य के लिए अधिक मॉडल किए गए बदलाव प्रदान करने के लिए उसका उपयोग करता है। इस तरह के विधियों को कभी-कभी गैर-पैरामीट्रिक मॉडल के उपयोग के लिए बढ़ाया जा सकता है जैसे कि जब संक्रमण केवल संग्रहीत होते हैं और सीखने के एल्गोरिदम के लिए 'फिर से चलाए जाते हैं'[18]

मान कार्य को अपडेट करने के अतिरिक्त मॉडल का उपयोग करने के अन्य विधि हैं।[19] उदाहरण के लिए, मॉडल भविष्य कहनेवाला नियंत्रण में मॉडल का उपयोग सीधे व्यवहार को अपडेट करने के लिए किया जाता है।

सिद्धांत

अधिकांश एल्गोरिदम के स्पर्शोन्मुख और परिमित-नमूना व्यवहार दोनों को अच्छी तरह से समझा जाता है। सिद्ध रूप से अच्छे ऑनलाइन प्रदर्शन (अन्वेषण उद्देश्य को संबोधित करते हुए) वाले एल्गोरिद्म ज्ञात हैं।

बर्नेटास और कटेहाकिस (1997) में एमडीपी का कुशल अन्वेषण दिया गया है।[6] कई एल्गोरिदम के लिए परिमित-समय की प्रदर्शन सीमाएँ भी दिखाई दी हैं किन्तु इन सीमाओं के ढीले होने की उम्मीद है और इस प्रकार सापेक्ष लाभों और सीमाओं को उत्तम विधि से समझने के लिए अधिक काम करने की आवश्यकता है।

वृद्धिशील एल्गोरिदम के लिए स्पर्शोन्मुख अभिसरण उद्देश्यों का समाधान किया गया है टेम्पोरल-अंतर-आधारित एल्गोरिदम पहले की तुलना में नियमो के एक व्यापक सेट के तहत अभिसरण करते हैं (उदाहरण के लिए जब इच्छानुसार से सुचारू कार्य सन्निकटन के साथ उपयोग किया जाता है)।

अनुसंधान

शोध विषयों में सम्मिलित हैं:

  • अभिनेता-आलोचक
  • अनुकूली विधियां जो बड़ी संख्या में स्थितियों के तहत कम (या नहीं) पैरामीटर के साथ काम करती हैं
  • सॉफ्टवेयर परियोजनाओं में बग का पता लगाना[20]
  • लगातार सीखना
  • तर्क-आधारित रूपरेखाओं के साथ संयोजन[21]
  • बड़े एमडीपी में अन्वेषण
  • मानव प्रतिक्रिया से सुदृढीकरण सीखना[22]
  • कौशल अधिग्रहण में निहित और स्पष्ट सीखने के बीच परस्पर क्रिया
  • आंतरिक प्रेरणा (कृत्रिम बुद्धिमत्ता) जो सूचना-प्राप्ति जिज्ञासा-प्रकार के व्यवहारों को कार्य-निर्भर लक्ष्य-निर्देशित व्यवहारों से अलग करती है बड़े मापदंड पर अनुभवजन्य मूल्यांकन
  • बड़े (या निरंतर) क्रिया स्थान
  • मॉड्यूलर और पदानुक्रमित सुदृढीकरण सीखना[23]
  • मल्टी-एजेंट/डिस्ट्रीब्यूटेड रिइन्फोर्समेंट लर्निंग रुचि का विषय है। अनुप्रयोगों का विस्तार हो रहा है।[24]
  • निवासी-केंद्रित नियंत्रण
  • कंप्यूटिंग संसाधनों का अनुकूलन[25][26][27]
  • आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया (उदाहरण के लिए, भविष्य कहनेवाला अवस्था प्रतिनिधित्व का उपयोग करके)
  • इनाम कार्य उपन्यास जानकारी को अधिकतम करने पर आधारित है[28][29][30]
  • नमूना-आधारित योजना (जैसे, मोंटे कार्लो ट्री खोज पर आधारित)।
  • प्रतिभूति व्यापार[31]
  • सीखने को स्थानांतरित करें [32]
  • टीडी लर्निंग मॉडलिंग डोपामाइन-आधारित लर्निंग इन द ब्रेन मूल नाइग्रा से बेसल गैन्ग्लिया कार्य तक डोपामिनर्जिक अनुमान पूर्वानुमान त्रुटि हैं।
  • मूल्य-कार्य और नीति खोज विधियाँ

सुदृढीकरण सीखने के एल्गोरिदम की तुलना

एल्गोरिथ्म विवरण नीति क्रिया स्थान अवस्था स्थान संचालिका
मोंटे कार्लो मोंटे कार्लो की हर यात्रा दोनों में से एक पृथक पृथक प्रतिदर्श-साधन
क्यू-लर्निंग अवस्था -कार्रवाई-इनाम-अवस्था ऑफ नीति पृथक पृथक क्यू-मूल्य
सार्सा स्टेट-एक्शन-इनाम-स्टेट-एक्शन ऑन-नीति पृथक पृथक क्यू-मूल्य
क्यू-लर्निंग - लैम्ब्डा अवस्था -कार्रवाई-इनाम-अवस्था योग्यता के निशान के साथ ऑफ नीति पृथक पृथक क्यू-मूल्य
सरसा - लैम्ब्डा योग्यता के निशान के साथ अवस्था -कार्रवाई-इनाम-अवस्था -कार्रवाई ऑन-नीति पृथक पृथक क्यू-मूल्य
डीक्यूएन डीप क्यू नेटवर्क ऑफ नीति पृथक निरंतर क्यू-मूल्य
डीडीपीजी दीप नियतात्मक नीति ढाल ऑफ नीति निरंतर निरंतर क्यू-मूल्य
ए3सी एसिंक्रोनस एडवांटेज एक्टर-क्रिटिक एल्गोरिथम ऑन-नीति निरंतर निरंतर लाभ
एनएएफ सामान्यीकृत लाभ कार्यों के साथ क्यू-लर्निंग ऑफ नीति निरंतर निरंतर लाभ
टीआरपीओ विश्वास क्षेत्र नीति अनुकूलन ऑन-नीति निरंतर और पृथक निरंतर लाभ
पीपीओ समीपस्थ नीति अनुकूलन ऑन-नीति निरंतर और पृथक निरंतर लाभ
टीडी3 ट्विन डिलेड डीप डिटर्मिनिस्टिक पॉलिसी ग्रेडिएंट ऑफ नीति निरंतर निरंतर क्यू-मूल्य
एसएसी शीतल अभिनेता-आलोचक ऑफ नीति निरंतर निरंतर लाभ


साहचर्य सुदृढीकरण सीखना

साहचर्य सुदृढीकरण सीखने के कार्य स्टोकेस्टिक लर्निंग ऑटोमेटा कार्यों और पर्यवेक्षित शिक्षण प्रतिरूप वर्गीकरण कार्यों के पहलुओं को जोड़ते हैं। साहचर्य सुदृढीकरण सीखने के कार्यों में सीखने की प्रणाली अपने पर्यावरण के साथ एक बंद लूप में इंटरैक्ट करती है।[33]

गहरा सुदृढीकरण सीखना

यह दृष्टिकोण एक गहरे तंत्रिका नेटवर्क का उपयोग करके और स्पष्ट रूप से अवस्था स्थान को डिजाइन किए बिना सुदृढीकरण सीखने का विस्तार करता है।[34] गूगल डीपमाइंड द्वारा अटारी गेम सीखने पर किए गए काम ने गहन सुदृढीकरण सीखना या एंड-टू-एंड रीइन्फोर्समेंट लर्निंग पर ध्यान बढ़ाया है ।

प्रतिकूल गहन सुदृढीकरण सीखना

एडवर्सेरियल डीप रीइन्फोर्समेंट लर्निंग रीइन्फोर्समेंट लर्निंग में अनुसंधान का एक सक्रिय क्षेत्र है जो सीखी हुई नीतियों की कमियों पर ध्यान केंद्रित करता है। इस शोध क्षेत्र में कुछ अध्ययनों ने प्रारंभ में दिखाया कि सुदृढीकरण सीखने की नीतियां अगोचर प्रतिकूल जोड़-तोड़ के लिए अतिसंवेदनशील हैं।[35][36][37] जबकि इन संवेदनशीलताओं को दूर करने के लिए कुछ विधियों का प्रस्ताव किया गया है वर्तमान के अध्ययनों में यह दिखाया गया है कि ये प्रस्तावित समाधान गहन सुदृढीकरण सीखने की नीतियों की वर्तमान कमियों का स्पष्ट प्रतिनिधित्व प्रदान करने से बहुत दूर हैं।[38]

अस्पष्ट सुदृढीकरण सीखना

आरएल में फजी नियंत्रण प्रणाली प्रारंभ करके[39] निरंतर स्थान में फजी नियम के साथ स्टेट-एक्शन मान कार्य का अनुमान लगाना संभव हो जाता है। फजी नियमों का इफ -देन रूप इस दृष्टिकोण को प्राकृतिक भाषा के समीप के रूप में परिणामों को व्यक्त करने के लिए उपयुक्त बनाता है। फ़ज़ी रूल इंटरपोलेशन के साथ एफआरएल का विस्तार [40] कार्डिनल नियमों (सबसे महत्वपूर्ण अवस्था -कार्रवाई मानो ) पर जोर देने के लिए कम आकार के विरल फ़ज़ी नियम-आधारों के उपयोग की अनुमति देता है।

विपरीत सुदृढीकरण सीखना

विपरीत सुदृढीकरण सीखने (आईआरएल) में, कोई इनाम कार्य नहीं दिया जाता है। इसके अतिरिक्त एक विशेषज्ञ के देखे गए व्यवहार को देखते हुए इनाम कार्य का अनुमान लगाया जाता है। विचार देखे गए व्यवहार की नकल करना है जो अधिकांशतः इष्टतम या इष्टतम के समीप होता है।[41]


सुरक्षित सुदृढीकरण सीखना

सुरक्षित सुदृढीकरण सीखने (एसआरएल) को सीखने की नीतियों की प्रक्रिया के रूप में परिभाषित किया जा सकता है जो समस्याओं में वापसी की अपेक्षा को अधिकतम करता है जिसमें उचित प्रणाली प्रदर्शन सुनिश्चित करना और/या सीखने और/या परिनियोजन प्रक्रियाओं के समय सुरक्षा बाधाओं का सम्मान करना महत्वपूर्ण है।[42]


यह भी देखें

संदर्भ

  1. Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. S2CID 1708582. Archived from the original on 2001-11-20.
  2. van Otterlo, M.; Wiering, M. (2012). सुदृढीकरण सीखने और मार्कोव निर्णय प्रक्रिया. pp. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6. {{cite book}}: |journal= ignored (help)
  3. Russell, Stuart J.; Norvig, Peter (2010). Artificial intelligence : a modern approach (Third ed.). Upper Saddle River, New Jersey. pp. 830, 831. ISBN 978-0-13-604259-4.{{cite book}}: CS1 maint: location missing publisher (link)
  4. Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 July 2012). "सुदृढीकरण सीखने और निर्णय लेने का तंत्रिका आधार". Annual Review of Neuroscience. 35 (1): 287–308. doi:10.1146/annurev-neuro-062111-150512. PMC 3490621. PMID 22462543.
  5. Gosavi, Abhijit (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Operations Research/Computer Science Interfaces Series. Springer. ISBN 978-1-4020-7454-7.
  6. 6.0 6.1 Burnetas, Apostolos N.; Katehakis, Michael N. (1997), "Optimal adaptive policies for Markov Decision Processes", Mathematics of Operations Research, 22: 222–255, doi:10.1287/moor.22.1.222
  7. 7.0 7.1 "Reinforcement learning: An introduction" (PDF).
  8. Sutton, Richard S. (1984). रिनफोर्समेंट लर्निंग में टेम्पोरल क्रेडिट असाइनमेंट (PhD thesis). University of Massachusetts, Amherst, MA.
  9. Sutton & Barto 1998, §6. Temporal-Difference Learning.
  10. Bradtke, Steven J.; Barto, Andrew G. (1996). "Learning to predict by the method of temporal differences". Machine Learning. 22: 33–57. CiteSeerX 10.1.1.143.857. doi:10.1023/A:1018056104778. S2CID 20327856.
  11. Watkins, Christopher J.C.H. (1989). Learning from Delayed Rewards (PDF) (PhD thesis). King’s College, Cambridge, UK.
  12. Matzliach, Barouch; Ben-Gal, Irad; Kagan, Evgeny (2022). "डीप क्यू-लर्निंग एबिलिटीज के साथ एक स्वायत्त एजेंट द्वारा स्थिर और मोबाइल लक्ष्यों का पता लगाना". Entropy. 24 (8): 1168. Bibcode:2022Entrp..24.1168M. doi:10.3390/e24081168. PMC 9407070. PMID 36010832.
  13. Williams, Ronald J. (1987). "A class of gradient-estimating algorithms for reinforcement learning in neural networks". Proceedings of the IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871.
  14. Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). रोबोटिक्स के लिए नीति खोज पर एक सर्वेक्षण (PDF). Foundations and Trends in Robotics. Vol. 2. NOW Publishers. pp. 1–142. doi:10.1561/2300000021. hdl:10044/1/12051.
  15. Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). "Reinforcement Learning for Humanoid Robotics" (PDF). IEEE-RAS International Conference on Humanoid Robots.
  16. Juliani, Arthur (2016-12-17). "Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)". Medium. Retrieved 2018-02-22.
  17. Sutton, Richard (1990). "Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming". Machine Learning: Proceedings of the Seventh International Workshop.
  18. Lin, Long-Ji (1992). "सुदृढीकरण सीखने, योजना और शिक्षण के आधार पर स्व-सुधार प्रतिक्रियाशील एजेंट" (PDF). Machine Learning volume 8. doi:10.1007/BF00992699.
  19. van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "When to use parametric models in reinforcement learning?" (PDF). Advances in Neural Information Processing Systems 32.
  20. "On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment". cie.acm.org (in English). Retrieved 2018-11-27.
  21. Riveret, Regis; Gao, Yang (2019). "सुदृढीकरण सीखने वाले एजेंटों के लिए एक संभाव्य तर्क रूपरेखा". Autonomous Agents and Multi-Agent Systems (in English). 33 (1–2): 216–274. doi:10.1007/s10458-019-09404-2. S2CID 71147890.
  22. Yamagata, Taku; McConville, Ryan; Santos-Rodriguez, Raul (2021-11-16). "विविध कौशल वाले कई मनुष्यों से प्रतिक्रिया के साथ सुदृढीकरण सीखना". arXiv:2111.08596 [cs.LG].
  23. Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). "Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation". Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS'16. USA: Curran Associates Inc.: 3682–3690. arXiv:1604.06057. Bibcode:2016arXiv160406057K. ISBN 978-1-5108-3881-9.
  24. "Reinforcement Learning / Successes of Reinforcement Learning". umichrl.pbworks.com. Retrieved 2017-08-06.
  25. Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (March 2020). "सीपीयू-जीपीयू मोबाइल एमपीएसओसी की पावर और थर्मल दक्षता के लिए यूजर इंटरेक्शन अवेयर रीइन्फोर्समेंट लर्निंग". 2020 Design, Automation Test in Europe Conference Exhibition (DATE): 1728–1733. doi:10.23919/DATE48585.2020.9116294. ISBN 978-3-9819263-4-7. S2CID 219858480.
  26. Quested, Tony. "एसेक्स इनोवेशन के साथ स्मार्टफोन और स्मार्ट हो जाते हैं". Business Weekly. Retrieved 2021-06-17.{{cite web}}: CS1 maint: url-status (link)
  27. Williams, Rhiannon (2020-07-21). "भविष्य के स्मार्टफोन 'मालिकों के व्यवहार की निगरानी करके अपनी खुद की बैटरी लाइफ बढ़ाएंगे'". i (in English). Retrieved 2021-06-17.{{cite web}}: CS1 maint: url-status (link)
  28. Kaplan, F.; Oudeyer, P. (2004). "Maximizing learning progress: an internal reward system for development". In Iida, F.; Pfeifer, R.; Steels, L.; Kuniyoshi, Y. (eds.). सन्निहित आर्टिफिशियल इंटेलिजेंस. Lecture Notes in Computer Science. Vol. 3139. Berlin; Heidelberg: Springer. pp. 259–270. doi:10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6. S2CID 9781221.
  29. Klyubin, A.; Polani, D.; Nehaniv, C. (2008). "Keep your options open: an information-based driving principle for sensorimotor systems". PLOS ONE. 3 (12): e4018. Bibcode:2008PLoSO...3.4018K. doi:10.1371/journal.pone.0004018. PMC 2607028. PMID 19107219.
  30. Barto, A. G. (2013). "Intrinsic motivation and reinforcement learning". प्राकृतिक और कृत्रिम प्रणालियों में आंतरिक रूप से प्रेरित शिक्षा (PDF). Berlin; Heidelberg: Springer. pp. 17–47.
  31. Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). "डीप एक्ज़ीक्यूशन - ट्रेडिंग और बीटिंग मार्केट बेंचमार्क के लिए मूल्य और नीति आधारित सुदृढीकरण सीखना". The Journal of Machine Learning in Finance. 1. SSRN 3374766.
  32. George Karimpanal, Thommen; Bouffanais, Roland (2019). "सुदृढीकरण सीखने में ज्ञान के भंडारण और हस्तांतरण के लिए स्व-आयोजन मानचित्र". Adaptive Behavior (in English). 27 (2): 111–126. arXiv:1811.08318. doi:10.1177/1059712318818568. ISSN 1059-7123. S2CID 53774629.
  33. Soucek, Branko (6 May 1992). Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series. John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X.
  34. {{cite journal |first= Vincent|display-authors=etal|last= Francois-Lavet |year=2018 |title= गहन सुदृढीकरण सीखने का एक परिचय|journal=Foundations and Trends in Machine Learning|volume=11 |issue=3–4 |pages=219–354 |doi=10.1561/2200000071|arxiv= 1811.12560 |bibcode=2018arXiv181112560F|s2cid=54434537}
  35. Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). "विरोधात्मक उदाहरणों की व्याख्या करना और उनका उपयोग करना". International Conference on Learning Representations. arXiv:1412.6572.
  36. Behzadan, Vahid; Munir, Arslan (2017). "पॉलिसी इंडक्शन अटैक के लिए डीप रीइन्फोर्समेंट लर्निंग की भेद्यता". International Conference on Machine Learning and Data Mining in Pattern Recognition. Lecture Notes in Computer Science. 10358: 262–275. arXiv:1701.04143. doi:10.1007/978-3-319-62416-7_19. ISBN 978-3-319-62415-0. S2CID 1562290.
  37. Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (2017-02-07). तंत्रिका नेटवर्क नीतियों पर प्रतिकूल हमले. OCLC 1106256905.{{cite book}}: CS1 maint: multiple names: authors list (link)
  38. Korkmaz, Ezgi (2022). "डीप रीइन्फोर्समेंट लर्निंग नीतियां एमडीपी में साझा विरोधी विशेषताएं सीखें।". Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22). 36 (7): 7229–7238. doi:10.1609/aaai.v36i7.20684. S2CID 245219157.
  39. Berenji, H.R. (1994). "Fuzzy Q-learning: a new approach for fuzzy dynamic programming". Proc. IEEE 3rd International Fuzzy Systems Conference. Orlando, FL, USA: IEEE: 486–491. doi:10.1109/FUZZY.1994.343737. ISBN 0-7803-1896-X. S2CID 56694947.
  40. Vincze, David (2017). "Fuzzy rule interpolation and reinforcement learning" (PDF). 2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE. pp. 173–178. doi:10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2. S2CID 17590120.
  41. Ng, A. Y.; Russell, S. J. (2000). "Algorithms for Inverse Reinforcement Learning" (PDF). मशीन लर्निंग पर सत्रहवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही ICML '00 की कार्यवाही. pp. 663–670. ISBN 1-55860-707-2.
  42. García, Javier; Fernández, Fernando (1 January 2015). "सुरक्षित सुदृढीकरण सीखने पर एक व्यापक सर्वेक्षण" (PDF). The Journal of Machine Learning Research. 16 (1): 1437–1480.


अग्रिम पठन


बाहरी संबंध