रीइंफोर्समेंट लर्निंग: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Field of machine learning}} {{For|reinforcement learning in psychology|Reinforcement|Operant conditioning}} {{Machine learning|Reinforcement learning}}...")
 
 
(12 intermediate revisions by 5 users not shown)
Line 1: Line 1:
{{Short description|Field of machine learning}}
{{Short description|Field of machine learning}}
{{For|reinforcement learning in psychology|Reinforcement|Operant conditioning}}
{{Machine learning|Reinforcement learning}}


रीइन्फोर्समेंट लर्निंग (आरएल) [[ यंत्र अधिगम ]] का एक क्षेत्र है, जो इस बात से संबंधित है कि पुरस्कार-आधारित चयन की धारणा को अधिकतम करने के लिए [[बुद्धिमान एजेंट]]ों को पर्यावरण में कार्रवाई का चयन कैसे करना चाहिए। रीइन्फोर्समेंट लर्निंग तीन बुनियादी मशीन लर्निंग प्रतिमानों में से एक है, पर्यवेक्षित शिक्षण और अनुपयोगी शिक्षण के साथ।


सुदृढीकरण सीखना पर्यवेक्षित शिक्षण से भिन्न होता है जिसमें लेबल किए गए इनपुट/आउटपुट जोड़े प्रस्तुत करने की आवश्यकता नहीं होती है, और उप-इष्टतम क्रियाओं को स्पष्ट रूप से ठीक करने की आवश्यकता नहीं होती है। इसके बजाय ध्यान अन्वेषण (अज्ञात क्षेत्र का) और शोषण (वर्तमान ज्ञान का) के बीच संतुलन खोजने पर है।<ref name="kaelbling">{{cite journal|last1=Kaelbling|first1=Leslie P.|last2=Littman|first2=Michael L.|author-link2=Michael L. Littman|last3=Moore|first3=Andrew W.|author-link3=Andrew W. Moore|year=1996|title=Reinforcement Learning: A Survey|url=http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html|url-status=dead|journal=Journal of Artificial Intelligence Research|volume=4|pages=237–285|doi=10.1613/jair.301|archive-url=http://webarchive.loc.gov/all/20011120234539/http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html|archive-date=2001-11-20 |author-link1=Leslie P. Kaelbling|arxiv=cs/9605103|s2cid=1708582}}</ref>
 
पर्यावरण को आमतौर पर [[मार्कोव निर्णय प्रक्रिया]] (एमडीपी) के रूप में कहा जाता है, क्योंकि इस संदर्भ के लिए कई सुदृढीकरण सीखने वाले एल्गोरिदम [[गतिशील प्रोग्रामिंग]] तकनीकों का उपयोग करते हैं।<ref>{{Cite book|title=सुदृढीकरण सीखने और मार्कोव निर्णय प्रक्रिया|author1=van Otterlo, M.|author2=Wiering, M.|journal=Reinforcement Learning |volume=12|pages=3–42 |year=2012 |doi=10.1007/978-3-642-27645-3_1|series=Adaptation, Learning, and Optimization|isbn=978-3-642-27644-6}}</ref> शास्त्रीय गतिशील प्रोग्रामिंग विधियों और सुदृढीकरण सीखने के एल्गोरिदम के बीच मुख्य अंतर यह है कि बाद वाले एमडीपी के एक सटीक गणितीय मॉडल के ज्ञान को नहीं मानते हैं और वे बड़े एमडीपी को लक्षित करते हैं जहां सटीक तरीके अव्यवहारिक हो जाते हैं।{{toclimit|3}}
 
'''रीइंफोर्समेंट लर्निंग (आरएल)''' मशीन लर्निंग का एक क्षेत्र है जो इस बात से संबंधित है कि बुद्धिमान एजेंटों को संचयी इनाम की धारणा को अधिकतम करने के लिए पर्यावरण में कार्रवाई कैसे करनी चाहिए। रीइन्फोर्समेंट लर्निंग सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग के साथ-साथ तीन मूलभूत मशीन लर्निंग प्रतिमानों में से एक है।
 
सुदृढीकरण सीखना पर्यवेक्षित शिक्षण से भिन्न होता है जिसमें लेबल किए गए इनपुट/आउटपुट जोड़े प्रस्तुत करने की आवश्यकता नहीं होती है और उप-इष्टतम क्रियाओं को स्पष्ट रूप से ठीक करने की आवश्यकता नहीं होती है। इसके अतिरिक्त ध्यान अन्वेषण (अज्ञात क्षेत्र का) और शोषण (वर्तमान ज्ञान का) के बीच संतुलन खोजने पर है।<ref name="kaelbling">{{cite journal|last1=Kaelbling|first1=Leslie P.|last2=Littman|first2=Michael L.|author-link2=Michael L. Littman|last3=Moore|first3=Andrew W.|author-link3=Andrew W. Moore|year=1996|title=Reinforcement Learning: A Survey|url=http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html|url-status=dead|journal=Journal of Artificial Intelligence Research|volume=4|pages=237–285|doi=10.1613/jair.301|archive-url=http://webarchive.loc.gov/all/20011120234539/http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html|archive-date=2001-11-20 |author-link1=Leslie P. Kaelbling|arxiv=cs/9605103|s2cid=1708582}}</ref>
 
पर्यावरण को सामान्यतः [[मार्कोव निर्णय प्रक्रिया]] (एमडीपी) के रूप में कहा जाता है, क्योंकि इस संदर्भ के लिए कई सुदृढीकरण सीखने वाले एल्गोरिदम डायनामिक प्रोग्रामिंग विधियों का उपयोग करते हैं।<ref>{{Cite book|title=सुदृढीकरण सीखने और मार्कोव निर्णय प्रक्रिया|author1=van Otterlo, M.|author2=Wiering, M.|journal=Reinforcement Learning |volume=12|pages=3–42 |year=2012 |doi=10.1007/978-3-642-27645-3_1|series=Adaptation, Learning, and Optimization|isbn=978-3-642-27644-6}}</ref> मौलिक डायनामिक प्रोग्रामिंग विधियों और सुदृढीकरण सीखने के एल्गोरिदम के बीच मुख्य अंतर यह है कि बाद वाले एमडीपी के एक स्पष्ट गणितीय मॉडल के ज्ञान को नहीं मानते हैं और वे बड़े एमडीपी को लक्षित करते हैं जहां स्पष्ट विधि अव्यवहारिक हो जाते हैं।{{toclimit|3}}


== परिचय ==
== परिचय ==


[[File: Reinforcement learning diagram.svg|thumb|right|250px| रीइन्फोर्समेंट लर्निंग (आरएल) परिदृश्य की विशिष्ट रूपरेखा: एक एजेंट एक वातावरण में कार्रवाई करता है, जिसे एक इनाम और राज्य के प्रतिनिधित्व के रूप में व्याख्या किया जाता है, जो एजेंट को वापस खिलाया जाता है।]]इसकी व्यापकता के कारण, [[ खेल सिद्धांत ]], कंट्रोल थ्योरी, [[ गतिविधि अनुसंधान ]], [[सूचना सिद्धांत]], [[अनुकरण आधारित अनुकूलन]], [[ बहु एजेंट प्रणाली ]], [[झुंड खुफिया]] और [[ आंकड़े ]] जैसे कई विषयों में रीइन्फोर्समेंट लर्निंग का अध्ययन किया जाता है। संचालन अनुसंधान और नियंत्रण साहित्य में, सुदृढीकरण सीखने को अनुमानित गतिशील प्रोग्रामिंग या न्यूरो-गतिशील प्रोग्रामिंग कहा जाता है। सुदृढीकरण सीखने में रुचि की समस्याओं का [[इष्टतम [[नियंत्रण सिद्धांत]]]] में भी अध्ययन किया गया है, जो ज्यादातर इष्टतम समाधानों के अस्तित्व और लक्षण वर्णन से संबंधित है, और उनकी सटीक गणना के लिए एल्गोरिदम, और सीखने या सन्निकटन के साथ कम, विशेष रूप से अनुपस्थिति में पर्यावरण का गणितीय मॉडल। [[अर्थशास्त्र]] और गेम थ्योरी में, रीइन्फोर्समेंट लर्निंग का उपयोग यह समझाने के लिए किया जा सकता है कि बाध्य तर्कसंगतता के तहत संतुलन कैसे उत्पन्न हो सकता है।
इसकी व्यापकता के कारण [[ खेल सिद्धांत |खेल सिद्धांत]] कंट्रोल सिद्धांत  [[गतिविधि अनुसंधान]] सूचना सिद्धांत अनुकरण आधारित अनुकूलन बहु एजेंट प्रणाली और [[ आंकड़े |आंकड़े]] जैसे कई विषयों में रीइन्फोर्समेंट लर्निंग का अध्ययन किया जाता है। संचालन अनुसंधान और नियंत्रण साहित्य में सुदृढीकरण सीखने को अनुमानित डायनामिक प्रोग्रामिंग या न्यूरो-डायनामिक प्रोग्रामिंग कहा जाता है। सुदृढीकरण सीखने में रुचि की समस्याओं का इष्टतम [[नियंत्रण सिद्धांत]] में भी अध्ययन किया गया है जो अधिकत्तर इष्टतम समाधानों के अस्तित्व और लक्षण वर्णन से संबंधित है और उनकी स्पष्ट गणना के लिए एल्गोरिदम और सीखने या सन्निकटन के साथ कम विशेष रूप से अनुपस्थिति में पर्यावरण का गणितीय मॉडल [[अर्थशास्त्र]] और गेम सिद्धांत में रीइन्फोर्समेंट लर्निंग का उपयोग यह समझाने के लिए किया जा सकता है कि बाध्य तर्कसंगतता के तहत संतुलन कैसे उत्पन्न हो सकता है।


बुनियादी सुदृढीकरण सीखने को मार्कोव निर्णय प्रक्रिया | मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में तैयार किया गया है:
मूलभूत सुदृढीकरण सीखने को मार्कोव निर्णय प्रक्रिया मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में तैयार किया गया है:


* पर्यावरण और एजेंट राज्यों का एक सेट, {{mvar|S}};
* पर्यावरण और एजेंट अवस्थाओ का एक सेट, {{mvar|S}};
* क्रियाओं का एक सेट, {{mvar|A}}, एजेंट का;
*एजेंट के कार्यों {{mvar|A}} का एक सेट;
* <math>P_a(s,s')=\Pr(s_{t+1}=s'\mid s_t=s, a_t=a)</math> संक्रमण की संभावना है (time <math>t</math>) राज्य से <math>s</math> कहना <math>s'</math> कार्रवाई के तहत <math>a</math>.
*<math>P_a(s,s')=\Pr(s_{t+1}=s'\mid s_t=s, a_t=a)</math> संक्रमण की संभावना है (पर समय <math>t</math>) अवस्था <math>s</math> से अवस्था <math>s'</math>कार्रवाई <math>a</math> के तहत।
* <math>R_a(s,s')</math> से संक्रमण के बाद तत्काल इनाम है <math>s</math> को <math>s'</math> कार्रवाई के साथ <math>a</math>.
*<math>R_a(s,s')</math> कार्रवाई <math>a</math> के साथ <math>s</math> से <math>s'</math> में संक्रमण के बाद तत्काल इनाम है।


सुदृढीकरण सीखने का उद्देश्य एजेंट के लिए एक इष्टतम, या लगभग-इष्टतम, नीति सीखना है जो इनाम समारोह या अन्य उपयोगकर्ता द्वारा प्रदान किए गए सुदृढीकरण संकेत को अधिकतम करता है जो तत्काल पुरस्कारों से जमा होता है। यह पशु मनोविज्ञान में होने वाली प्रक्रियाओं के समान है। उदाहरण के लिए, जैविक दिमाग दर्द और भूख जैसे संकेतों को नकारात्मक सुदृढीकरण के रूप में व्याख्या करने के लिए कठोर होते हैं, और सकारात्मक सुदृढीकरण के रूप में आनंद और भोजन के सेवन की व्याख्या करते हैं। कुछ परिस्थितियों में, जानवर इन पुरस्कारों को अनुकूलित करने वाले व्यवहारों में शामिल होना सीख सकते हैं। इससे पता चलता है कि जानवर सुदृढीकरण सीखने में सक्षम हैं।<ref>{{cite book |last1=Russell |first1=Stuart J. |last2=Norvig |first2=Peter |title=Artificial intelligence : a modern approach |date=2010 |location=Upper Saddle River, New Jersey |isbn=978-0-13-604259-4 |pages=830, 831 |edition=Third}}</ref><ref>{{cite journal |last1=Lee |first1=Daeyeol |last2=Seo |first2=Hyojung |last3=Jung |first3=Min Whan |title=सुदृढीकरण सीखने और निर्णय लेने का तंत्रिका आधार|journal=Annual Review of Neuroscience |date=21 July 2012 |volume=35 |issue=1 |pages=287–308 |doi=10.1146/annurev-neuro-062111-150512|pmid=22462543 |pmc=3490621 }}</ref>
सुदृढीकरण सीखने का उद्देश्य एजेंट के लिए एक इष्टतम या लगभग-इष्टतम नीति सीखना है जो इनाम कार्य या अन्य उपयोगकर्ता द्वारा प्रदान किए गए सुदृढीकरण संकेत को अधिकतम करता है जो तत्काल पुरस्कारों से जमा होता है। यह पशु मनोविज्ञान में होने वाली प्रक्रियाओं के समान है। उदाहरण के लिए जैविक सर दर्द और भूख जैसे संकेतों को नकारात्मक सुदृढीकरण के रूप में व्याख्या करने के लिए कठोर होते हैं और सकारात्मक सुदृढीकरण के रूप में आनंद और भोजन के सेवन की व्याख्या करते हैं। कुछ परिस्थितियों में, जानवर इन पुरस्कारों को अनुकूलित करने वाले व्यवहारों में सम्मिलित होना सीख सकते हैं। इससे पता चलता है कि जानवर सुदृढीकरण सीखने में सक्षम हैं।<ref>{{cite book |last1=Russell |first1=Stuart J. |last2=Norvig |first2=Peter |title=Artificial intelligence : a modern approach |date=2010 |location=Upper Saddle River, New Jersey |isbn=978-0-13-604259-4 |pages=830, 831 |edition=Third}}</ref><ref>{{cite journal |last1=Lee |first1=Daeyeol |last2=Seo |first2=Hyojung |last3=Jung |first3=Min Whan |title=सुदृढीकरण सीखने और निर्णय लेने का तंत्रिका आधार|journal=Annual Review of Neuroscience |date=21 July 2012 |volume=35 |issue=1 |pages=287–308 |doi=10.1146/annurev-neuro-062111-150512|pmid=22462543 |pmc=3490621 }}</ref>
एक बुनियादी सुदृढीकरण सीखने वाला एजेंट AI अपने पर्यावरण के साथ असतत समय चरणों में बातचीत करता है। हर बार {{mvar|t}}, एजेंट को वर्तमान स्थिति प्राप्त होती है <math>s_t</math> और इनाम <math>r_t</math>. यह तब एक क्रिया चुनता है <math>a_t</math> उपलब्ध क्रियाओं के सेट से, जिसे बाद में पर्यावरण को भेजा जाता है। पर्यावरण एक नई स्थिति में चला जाता है <math>s_{t+1}</math> और इनाम <math>r_{t+1}</math> संक्रमण से जुड़ा हुआ है <math>(s_t,a_t,s_{t+1})</math> निर्धारित किया जाता है। सुदृढीकरण सीखने वाले एजेंट का लक्ष्य नीति सीखना है: <math>\pi: A \times S \rightarrow [0,1] </math>, <math>\pi(a,s) = \Pr(a_t = a\mid s_t =s)</math> जो अपेक्षित संचयी इनाम को अधिकतम करता है।


एमडीपी के रूप में समस्या का सूत्रीकरण यह मानता है कि एजेंट वर्तमान पर्यावरणीय स्थिति को सीधे देखता है; इस मामले में कहा जाता है कि समस्या का पूर्ण अवलोकन है। यदि एजेंट के पास केवल राज्यों के एक सबसेट तक पहुंच है, या यदि देखे गए राज्य शोर से दूषित हैं, तो एजेंट को आंशिक अवलोकन क्षमता कहा जाता है, और औपचारिक रूप से समस्या को [[आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया]] के रूप में तैयार किया जाना चाहिए। दोनों ही मामलों में, एजेंट के लिए उपलब्ध कार्रवाइयों के सेट को प्रतिबंधित किया जा सकता है. उदाहरण के लिए, खाते की शेष राशि की स्थिति सकारात्मक होने के लिए प्रतिबंधित की जा सकती है; यदि राज्य का वर्तमान मूल्य 3 है और राज्य संक्रमण मूल्य को 4 से कम करने का प्रयास करता है, तो संक्रमण की अनुमति नहीं दी जाएगी।
एक मूलभूत सुदृढीकरण सीखने वाला एजेंट AI अपने पर्यावरण के साथ असतत समय चरणों में परस्पर क्रिया करता है। प्रत्येक समय {{mvar|t}} पर, एजेंट को वर्तमान स्थिति <math>s_t</math> और पुरस्कार <math>r_t</math> प्राप्त होता है। इसके बाद यह उपलब्ध क्रियाओं के सेट से एक क्रिया <math>a_t</math> चुनता है, जिसे बाद में पर्यावरण को भेजा जाता है। पर्यावरण एक नई अवस्था <math>s_{t+1}</math> में जाता है और संक्रमण <math>(s_t,a_t,s_{t+1})</math> से जुड़ा इनाम <math>r_{t+1}</math> निर्धारित होता है। सुदृढीकरण सीखने वाले एजेंट का लक्ष्य एक नीति सीखना है: <math>\pi: A \times S \rightarrow [0,1] </math>,<math>\pi(a,s) = \Pr(a_t = a\mid s_t =s)</math> जो अपेक्षित संचयी इनाम को अधिकतम करता है।


जब एजेंट के प्रदर्शन की तुलना एक ऐसे एजेंट से की जाती है जो बेहतर तरीके से काम करता है, तो प्रदर्शन में अंतर अफसोस की धारणा (गेम थ्योरी) को जन्म देता है। बेहतर तरीके से कार्य करने के लिए, एजेंट को अपने कार्यों के दीर्घकालिक परिणामों (यानी, भविष्य की आय को अधिकतम करना) के बारे में तर्क करना चाहिए, हालांकि इससे जुड़ा तत्काल इनाम नकारात्मक हो सकता है।
एमडीपी के रूप में समस्या का सूत्रीकरण यह मानता है कि एजेंट वर्तमान पर्यावरणीय स्थिति को सीधे देखता है इस स्थिति में कहा जाता है कि समस्या का पूर्ण अवलोकन है। यदि एजेंट के पास केवल अवस्थाओ के एक सबसेट तक पहुंच है,या यदि देखे गए अवस्था ध्वनि से दूषित हैं तो एजेंट को आंशिक अवलोकन क्षमता कहा जाता है और औपचारिक रूप से समस्या को [[आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया]] के रूप में तैयार किया जाना चाहिए। दोनों ही स्थिति में एजेंट के लिए उपलब्ध कार्रवाइयों के सेट को प्रतिबंधित किया जा सकता है. उदाहरण के लिए खाते की शेष राशि की स्थिति सकारात्मक होने के लिए प्रतिबंधित की जा सकती है; यदि अवस्था का वर्तमान मान 3 है और अवस्था संक्रमण मान को 4 से कम करने का प्रयास करता है, तो संक्रमण की अनुमति नहीं दी जाएगी।


इस प्रकार, सुदृढीकरण सीखना विशेष रूप से उन समस्याओं के अनुकूल है जिनमें दीर्घकालिक बनाम अल्पकालिक इनाम व्यापार बंद शामिल है। [[रोबोट नियंत्रण]] सहित विभिन्न समस्याओं के लिए इसे सफलतापूर्वक लागू किया गया है,<ref>Xie, Zhaoming, et al. "[https://arxiv.org/pdf/2005.04323 ALLSTEPS: Curriculum‐driven Learning of Stepping Stone Skills]." Computer Graphics Forum. Vol. 39. No. 8. 2020.</ref> [[लिफ्ट एल्गोरिथ्म]], [[दूरसंचार]], [[चौसर]], [[चेकर्स]]{{Sfn|Sutton|Barto|1998|p=|loc=Chapter 11}} और [[जाओ (खेल)]] ([[AlphaGo]])
जब एजेंट के प्रदर्शन की तुलना एक ऐसे एजेंट से की जाती है जो उत्तम विधि से काम करता है, तो प्रदर्शन में अंतर शोक की धारणा (गेम सिद्धांत ) को जन्म देता है। उत्तम विधि से कार्य करने के लिए एजेंट को अपने कार्यों के दीर्घकालिक परिणामों (अर्थात भविष्य की आय को अधिकतम करना) के बारे में तर्क करना चाहिए, चूँकि इससे जुड़ा तत्काल इनाम नकारात्मक हो सकता है।


दो तत्व सुदृढीकरण सीखने को शक्तिशाली बनाते हैं: प्रदर्शन को अनुकूलित करने के लिए नमूनों का उपयोग और बड़े वातावरण से निपटने के लिए फ़ंक्शन सन्निकटन का उपयोग। इन दो प्रमुख घटकों के लिए धन्यवाद, सुदृढीकरण सीखने का उपयोग निम्नलिखित स्थितियों में बड़े वातावरण में किया जा सकता है:
इस प्रकार सुदृढीकरण सीखना विशेष रूप से उन समस्याओं के अनुकूल है जिनमें दीर्घकालिक बनाम अल्पकालिक इनाम व्यापार बंद सम्मिलित है। इसे रोबोट नियंत्रण, एलिवेटर शेड्यूलिंग, दूरसंचार, बैकगैमौन, चेकर्स और गो ([[AlphaGo|अल्फागो]]) सहित विभिन्न समस्याओं पर सफलतापूर्वक प्रयुक्त किया गया है।
* पर्यावरण का एक मॉडल ज्ञात है, लेकिन एक [[बंद रूप अभिव्यक्ति]] उपलब्ध नहीं है;
 
दो तत्व सुदृढीकरण सीखने को शक्तिशाली बनाते हैं: प्रदर्शन को अनुकूलित करने के लिए नमूनों का उपयोग और बड़े वातावरण से निपटने के लिए कार्य सन्निकटन का उपयोग इन दो प्रमुख घटकों के लिए धन्यवाद सुदृढीकरण सीखने का उपयोग निम्नलिखित स्थितियों में बड़े वातावरण में किया जा सकता है:
* पर्यावरण का एक मॉडल ज्ञात है किन्तु एक [[बंद रूप अभिव्यक्ति]] उपलब्ध नहीं है;
* पर्यावरण का केवल एक सिमुलेशन मॉडल दिया गया है (सिमुलेशन-आधारित अनुकूलन का विषय);<ref>{{cite book|url = https://www.springer.com/mathematics/applications/book/978-1-4020-7454-7|title = Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement|last = Gosavi|first = Abhijit|publisher = Springer|year = 2003|isbn = 978-1-4020-7454-7|author-link = Abhijit Gosavi|series = Operations Research/Computer Science Interfaces Series}}</ref>
* पर्यावरण का केवल एक सिमुलेशन मॉडल दिया गया है (सिमुलेशन-आधारित अनुकूलन का विषय);<ref>{{cite book|url = https://www.springer.com/mathematics/applications/book/978-1-4020-7454-7|title = Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement|last = Gosavi|first = Abhijit|publisher = Springer|year = 2003|isbn = 978-1-4020-7454-7|author-link = Abhijit Gosavi|series = Operations Research/Computer Science Interfaces Series}}</ref>
* पर्यावरण के बारे में जानकारी एकत्र करने का एकमात्र तरीका इसके साथ अंतःक्रिया करना है।
* पर्यावरण के बारे में जानकारी एकत्र करने का एकमात्र विधि इसके साथ अंतःक्रिया करना है।
इन समस्याओं में से पहली दो समस्याओं को नियोजन समस्या माना जा सकता है (चूंकि मॉडल का कोई रूप उपलब्ध है), जबकि अंतिम समस्या को वास्तविक सीखने की समस्या माना जा सकता है। हालाँकि, सुदृढीकरण सीखने से दोनों नियोजन समस्याओं को मशीन सीखने की समस्याओं में बदल दिया जाता है।
इन समस्याओं में से पहली दो समस्याओं को नियोजन समस्या माना जा सकता है (चूंकि मॉडल का कोई रूप उपलब्ध है) जबकि अंतिम समस्या को वास्तविक सीखने की समस्या माना जा सकता है। चूँकि सुदृढीकरण सीखने से दोनों नियोजन समस्याओं को मशीन सीखने की समस्याओं में बदल दिया जाता है।


== अन्वेषण ==
== अन्वेषण ==
बर्नेटास और कटेहाकिस (1997) में [[बहु-सशस्त्र डाकू]] समस्या और परिमित राज्य अंतरिक्ष एमडीपी के माध्यम से अन्वेषण बनाम शोषण व्यापार-बंद का सबसे गहन अध्ययन किया गया है।<ref name="Optimal adaptive policies for Marko">{{citation | last1 = Burnetas|first1 = Apostolos N.|last2 = Katehakis|first2 = Michael N.|author-link2 = Michael N. Katehakis|year = 1997|title = Optimal adaptive policies for Markov Decision Processes|journal = Mathematics of Operations Research|volume = 22|pages = 222–255 |doi=10.1287/moor.22.1.222}}</ref>
बर्नेटास और कटेहाकिस (1997) में [[बहु-सशस्त्र डाकू|बहु-हथियारबंद दस्यु]] समस्या और परिमित अवस्था अंतरिक्ष एमडीपी के माध्यम से अन्वेषण बनाम शोषण व्यापार-बंद का सबसे गहन अध्ययन किया गया है।<ref name="Optimal adaptive policies for Marko">{{citation | last1 = Burnetas|first1 = Apostolos N.|last2 = Katehakis|first2 = Michael N.|author-link2 = Michael N. Katehakis|year = 1997|title = Optimal adaptive policies for Markov Decision Processes|journal = Mathematics of Operations Research|volume = 22|pages = 222–255 |doi=10.1287/moor.22.1.222}}</ref>
सुदृढीकरण सीखने के लिए चतुर अन्वेषण तंत्र की आवश्यकता होती है; अनुमानित संभाव्यता वितरण के संदर्भ के बिना बेतरतीब ढंग से क्रियाओं का चयन करना, खराब प्रदर्शन दर्शाता है। (छोटे) परिमित एमडीपी का मामला अपेक्षाकृत अच्छी तरह से समझा गया है। हालांकि, एल्गोरिदम की कमी के कारण जो राज्यों की संख्या (या अनंत राज्य रिक्त स्थान के साथ समस्याओं के पैमाने) के साथ अच्छी तरह से स्केल करते हैं, सरल अन्वेषण विधियां सबसे व्यावहारिक हैं।
 
ऐसा ही एक तरीका है <math>\varepsilon</math>-लालची, कहाँ <math>0 < \varepsilon < 1</math> अन्वेषण बनाम शोषण की मात्रा को नियंत्रित करने वाला एक पैरामीटर है। संभावना के साथ <math>1-\varepsilon</math>, शोषण को चुना जाता है, और एजेंट उस कार्रवाई को चुनता है जिसके बारे में उसका मानना ​​है कि इसका सबसे अच्छा दीर्घकालिक प्रभाव होता है (कार्रवाई के बीच संबंध यादृच्छिक रूप से समान रूप से टूट जाते हैं)। वैकल्पिक रूप से, संभावना के साथ <math>\varepsilon</math>, अन्वेषण को चुना जाता है, और कार्रवाई को समान रूप से यादृच्छिक रूप से चुना जाता है। <math>\varepsilon</math> आमतौर पर एक निश्चित पैरामीटर होता है, लेकिन या तो एक शेड्यूल के अनुसार समायोजित किया जा सकता है (एजेंट को उत्तरोत्तर कम एक्सप्लोर करने के लिए), या अनुकूली रूप से ह्यूरिस्टिक्स के आधार पर।<ref>{{citation | last1 = Tokic | first1 = Michel | last2 = Palm | first2 = Günther | chapter  = Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax | pages = 335–346 | publisher = Springer | series = Lecture Notes in Computer Science | title = KI 2011: Advances in Artificial Intelligence | volume = 7006 | year = 2011 | chapter-url = http://www.tokic.com/www/tokicm/publikationen/papers/KI2011.pdf | isbn = 978-3-642-24455-1}}</ref>


सुदृढीकरण सीखने के लिए चतुर अन्वेषण तंत्र की आवश्यकता होती है; अनुमानित संभाव्यता वितरण के संदर्भ के बिना व्यवस्थित विधि से क्रियाओं का चयन करना खराब प्रदर्शन दर्शाता है। (छोटे) परिमित एमडीपी का स्थति अपेक्षाकृत अच्छी तरह से समझा गया है। चूँकि एल्गोरिदम की कमी के कारण जो अवस्थाओ की संख्या (या अनंत अवस्था रिक्त स्थान के साथ समस्याओं के मापदंड) के साथ अच्छी तरह से स्केल करते हैं सरल अन्वेषण विधियां सबसे व्यावहारिक हैं।


ऐसा ही एक विधि है <math>\varepsilon</math>-ग्रीडी जहां <math>0 < \varepsilon < 1</math> एक पैरामीटर है जो अन्वेषण बनाम शोषण की मात्रा को नियंत्रित करता है। प्रायिकता <math>1-\varepsilon</math> के साथ शोषण का चयन किया जाता है, और एजेंट उस क्रिया को चुनता है जिसके बारे में उसका मानना है कि इसका सबसे अच्छा दीर्घकालिक प्रभाव होता है (कार्रवाई के बीच संबंध यादृच्छिक रूप से समान रूप से टूट जाते हैं)। वैकल्पिक रूप से प्रायिकता <math>\varepsilon</math> के साथ अन्वेषण को चुना जाता है और क्रिया को यादृच्छिक रूप से समान रूप से चुना जाता है। <math>\varepsilon</math> सामान्यतः एक निश्चित पैरामीटर होता है, किन्तु या तो एक शेड्यूल के अनुसार समायोजित किया जा सकता है (एजेंट को उत्तरोत्तर कम खोजता है) या अनुकूली रूप से ह्यूरिस्टिक्स पर आधारित होता है।
== नियंत्रण सीखने के लिए एल्गोरिदम ==
== नियंत्रण सीखने के लिए एल्गोरिदम ==
यहां तक ​​​​कि अगर अन्वेषण के मुद्दे की अवहेलना की जाती है और यहां तक ​​​​कि अगर राज्य अवलोकनीय था (इसके बाद माना जाता है), समस्या यह पता लगाने के लिए पिछले अनुभव का उपयोग करने के लिए बनी हुई है कि कौन से कार्य उच्च संचयी पुरस्कारों की ओर ले जाते हैं।
यहां तक ​​​​कि यदि अन्वेषण के उद्देश्य की अवहेलना की जाती है और यहां तक ​​​​कि यदि अवस्था अवलोकनीय था (इसके बाद माना जाता है) समस्या यह पता लगाने के लिए पिछले अनुभव का उपयोग करने के लिए बनी हुई है कि कौन से कार्य उच्च संचयी पुरस्कारों की ओर ले जाते हैं।


=== इष्टतमता का मानदंड ===
=== इष्टतमता का मानदंड ===
Line 50: Line 52:
:<math>\pi: A \times S \rightarrow [0,1]</math>
:<math>\pi: A \times S \rightarrow [0,1]</math>
:<math>\pi(a,s) = \Pr(a_t = a\mid s_t =s)</math>
:<math>\pi(a,s) = \Pr(a_t = a\mid s_t =s)</math>
नीति मानचित्र कार्रवाई करने की संभावना देता है <math>a</math> जब राज्य में <math>s</math>.<ref name=":0">{{Cite web|url=http://people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf|title=Reinforcement learning: An introduction}}</ref>{{Rp|61}} नियतात्मक नीतियां भी हैं।
नीति मानचित्र <math>a</math> जब स्थिति में कार्रवाई करने की संभावना देता है। <math>s</math>.<ref name=":0">{{Cite web|url=http://people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf|title=Reinforcement learning: An introduction}}</ref>{{Rp|61}} नियतात्मक नीतियां भी हैं।


==== राज्य-मूल्य समारोह ====
==== '''अवस्था''' -मान कार्य ====
मूल्य समारोह <math>V_\pi(s)</math> के रूप में परिभाषित किया गया है, राज्य से शुरू होने वाली अपेक्षित वापसी <math>s</math>, अर्थात। <math>s_0 = s</math>, और क्रमिक रूप से नीति का पालन करना <math>\pi</math>. इसलिए, मोटे तौर पर बोलते हुए, मूल्य समारोह का अनुमान है कि यह किसी दिए गए राज्य में कितना अच्छा है।<ref name=":0" />{{Rp|60}}
मान कार्य <math>V_\pi(s)</math> के रूप में परिभाषित किया गया है अवस्था से प्रारंभ होने वाली अपेक्षित वापसी <math>s</math>, अर्थात <math>s_0 = s</math>, और क्रमिक रूप से नीति का पालन करना <math>\pi</math>. इसलिए, मोटे तौर पर बोलते हुए, मान कार्य का अनुमान है कि यह किसी दिए गए अवस्था में कितना अच्छा है।<ref name=":0" />{{Rp|60}}


:<math>V_\pi(s) = \operatorname E[R\mid s_0 = s] = \operatorname E\left[\sum_{t=0}^\infty \gamma^t r_t\mid s_0 = s\right],</math>
:<math>V_\pi(s) = \operatorname E[R\mid s_0 = s] = \operatorname E\left[\sum_{t=0}^\infty \gamma^t r_t\mid s_0 = s\right],</math>
Line 59: Line 61:


:<math>R=\sum_{t=0}^\infty \gamma^t r_t,</math>
:<math>R=\sum_{t=0}^\infty \gamma^t r_t,</math>
कहाँ <math>r_t</math> कदम पर इनाम है <math>t</math>, <math>\gamma \in [0,1) </math> क्यू-लर्निंग #डिस्काउंट फैक्टर है|डिस्काउंट-रेट। गामा 1 से कम है, इसलिए दूर के भविष्य की घटनाओं को तत्काल भविष्य की घटनाओं से कम भारित किया जाता है।
जहां <math>r_t</math> चरण <math>t</math> पर पुरस्कार है <math>\gamma \in [0,1) </math> छूट-दर है। गामा 1 से कम है इसलिए दूर के भविष्य की घटनाओं को तत्काल भविष्य की घटनाओं से कम भारित किया जाता है।


एल्गोरिद्म को अधिकतम प्रत्याशित प्रतिफल वाली नीति खोजनी चाहिए। एमडीपी के सिद्धांत से यह ज्ञात होता है कि सामान्यता के नुकसान के बिना, खोज को तथाकथित स्थिर नीतियों के सेट तक सीमित किया जा सकता है। एक नीति स्थिर होती है यदि उसके द्वारा लौटाया गया क्रिया-वितरण केवल अंतिम दौरे पर निर्भर करता है (अवलोकन एजेंट के इतिहास से)। खोज को नियतात्मक स्थिर नीतियों तक सीमित किया जा सकता है। एक नियतात्मक स्थिर नीति निश्चित रूप से वर्तमान स्थिति के आधार पर क्रियाओं का चयन करती है। चूंकि इस तरह की किसी भी नीति को राज्यों के सेट से लेकर कार्रवाई के सेट तक मैपिंग के साथ पहचाना जा सकता है, इसलिए इन नीतियों की पहचान ऐसे मैपिंग से की जा सकती है, जिसमें व्यापकता का कोई नुकसान नहीं है।
एल्गोरिद्म को अधिकतम प्रत्याशित प्रतिफल वाली नीति खोजनी चाहिए। एमडीपी के सिद्धांत से यह ज्ञात होता है कि सामान्यता के हानि के बिना खोज को तथाकथित स्थिर नीतियों के सेट तक सीमित किया जा सकता है। एक नीति स्थिर होती है यदि उसके द्वारा लौटाया गया क्रिया-वितरण केवल अंतिम सीमा पर निर्भर करता है (अवलोकन एजेंट के इतिहास से)। खोज को नियतात्मक स्थिर नीतियों तक सीमित किया जा सकता है। एक नियतात्मक स्थिर नीति निश्चित रूप से वर्तमान स्थिति के आधार पर क्रियाओं का चयन करती है। चूंकि इस तरह की किसी भी नीति को अवस्थाओ के सेट से लेकर कार्रवाई के सेट तक मैपिंग के साथ पहचाना जा सकता है, इसलिए इन नीतियों की पहचान ऐसे मैपिंग से की जा सकती है, जिसमें व्यापकता का कोई हानि नहीं है।


=== क्रूर बल ===
=== क्रूर बल ===
[[ क्रूर-बल खोज ]] एप्रोच में दो चरण होते हैं:
[[ क्रूर-बल खोज | क्रूर-बल खोज]] एप्रोच में दो चरण होते हैं:
* प्रत्येक संभावित नीति के लिए, इसका पालन करते हुए नमूना रिटर्न
* प्रत्येक संभावित नीति के लिए, इसका पालन करते हुए नमूना रिटर्न
* अधिकतम प्रत्याशित रिटर्न वाली पॉलिसी चुनें
* अधिकतम प्रत्याशित रिटर्न वाली पॉलिसी चुनें


इसके साथ एक समस्या यह है कि नीतियों की संख्या बड़ी या अनंत भी हो सकती है। दूसरा यह है कि रिटर्न का अंतर बड़ा हो सकता है, जिसके लिए प्रत्येक पॉलिसी की वापसी का सटीक अनुमान लगाने के लिए कई नमूनों की आवश्यकता होती है।
इसके साथ एक समस्या यह है कि नीतियों की संख्या बड़ी या अनंत भी हो सकती है। दूसरा यह है कि रिटर्न का अंतर बड़ा हो सकता है, जिसके लिए प्रत्येक पॉलिसी की वापसी का स्पष्ट अनुमान लगाने के लिए कई नमूनों की आवश्यकता होती है।


इन समस्याओं में सुधार किया जा सकता है यदि हम कुछ संरचना मान लें और एक नीति से उत्पन्न नमूनों को दूसरों के लिए किए गए अनुमानों को प्रभावित करने की अनुमति दें। इसे प्राप्त करने के लिए दो मुख्य दृष्टिकोण #Value फ़ंक्शन और #Direct नीति खोज हैं।
इन समस्याओं में सुधार किया जा सकता है यदि हम कुछ संरचना मान लें और एक नीति से उत्पन्न नमूनों को दूसरों के लिए किए गए अनुमानों को प्रभावित करने की अनुमति दें। इसे प्राप्त करने के लिए दो मुख्य दृष्टिकोण मूल्य प्रकार्य अनुमान और प्रत्यक्ष नीति खोज हैं।


=== मान समारोह ===
=== मान कार्य ===
{{see also|Value function}}
{{see also|मूल्य कार्य}}
वैल्यू फ़ंक्शन दृष्टिकोण ऐसी नीति खोजने का प्रयास करता है जो कुछ नीति के लिए अपेक्षित रिटर्न के अनुमानों के एक सेट को बनाए रखते हुए रिटर्न को अधिकतम करता है (आमतौर पर या तो वर्तमान [ऑन-पॉलिसी] या इष्टतम [ऑफ-पॉलिसी] एक)।
मान कार्य दृष्टिकोण ऐसी नीति खोजने का प्रयास करता है जो कुछ नीति के लिए अपेक्षित रिटर्न के अनुमानों के एक सेट को बनाए रखते हुए रिटर्न को अधिकतम करता है (सामान्यतः या तो वर्तमान [ऑन-पॉलिसी] या इष्टतम [ऑफ-पॉलिसी] एक)।


ये विधियाँ मार्कोव निर्णय प्रक्रियाओं के सिद्धांत पर निर्भर करती हैं, जहाँ इष्टतमता को एक अर्थ में परिभाषित किया गया है जो ऊपर वाले से अधिक मजबूत है: एक नीति को इष्टतम कहा जाता है यदि यह किसी भी प्रारंभिक अवस्था से सर्वोत्तम-प्रत्याशित प्रतिफल प्राप्त करती है (अर्थात, प्रारंभिक वितरण नहीं खेलते हैं) इस परिभाषा में भूमिका)फिर से, स्थिर नीतियों के बीच एक इष्टतम नीति हमेशा पाई जा सकती है।
ये विधियाँ मार्कोव निर्णय प्रक्रियाओं के सिद्धांत पर निर्भर करती हैं, जहाँ इष्टतमता को एक अर्थ में परिभाषित किया गया है जो ऊपर वाले से अधिक शक्तिशाली है: एक नीति को इष्टतम कहा जाता है यदि यह किसी भी प्रारंभिक अवस्था से सर्वोत्तम-प्रत्याशित प्रतिफल प्राप्त करती है (अर्थात, प्रारंभिक वितरण नहीं खेलते हैं) इस परिभाषा में भूमिका) फिर से स्थिर नीतियों के बीच एक इष्टतम नीति सदैव पाई जा सकती है।


इष्टतमता को औपचारिक तरीके से परिभाषित करने के लिए, नीति के मूल्य को परिभाषित करें <math>\pi</math> द्वारा
इष्टतमता को औपचारिक विधि से परिभाषित करने के लिए, नीति <math>\pi</math> के मान को परिभाषित करें


:<math> V^{\pi} (s) = E[R\mid s,\pi],</math>
:<math> V^{\pi} (s) = E[R\mid s,\pi],</math>
कहाँ <math>R</math> निम्नलिखित से जुड़े रिटर्न के लिए खड़ा है <math>\pi</math> प्रारंभिक अवस्था से <math>s</math>. परिभाषित <math>V^*(s)</math> के अधिकतम संभव मान के रूप में <math>V^\pi(s)</math>, कहाँ <math>\pi</math> बदलने की अनुमति है,
जहाँ <math>R</math> निम्नलिखित से जुड़े रिटर्न के लिए खड़ा है <math>\pi</math> प्रारंभिक अवस्था से <math>s</math>. परिभाषित <math>V^*(s)</math> के अधिकतम संभव मान के रूप में <math>V^\pi(s)</math>, जहाँ <math>\pi</math> बदलने की अनुमति है,


:<math>V^*(s) = \max_\pi V^\pi(s).</math>
:<math>V^*(s) = \max_\pi V^\pi(s).</math>
एक नीति जो प्रत्येक राज्य में इन इष्टतम मूल्यों को प्राप्त करती है, इष्टतम कहलाती है। स्पष्ट रूप से, एक नीति जो इस मजबूत अर्थ में इष्टतम है, इस अर्थ में भी इष्टतम है कि यह अपेक्षित प्रतिफल को अधिकतम करती है <math>\rho^\pi</math>, तब से <math>\rho^\pi = E[ V^\pi(S) ]</math>, कहाँ <math>S</math> वितरण से बेतरतीब ढंग से नमूना लिया गया राज्य है <math>\mu</math> प्रारंभिक अवस्थाओं की (इसलिए <math>\mu(s) = \Pr(s_0 = s)</math>).
एक नीति जो प्रत्येक अवस्था में इन इष्टतम मानो को प्राप्त करती है, इष्टतम कहलाती है। स्पष्ट रूप से, एक नीति जो इस शक्तिशाली अर्थ में इष्टतम है, इस अर्थ में भी इष्टतम है कि यह अपेक्षित प्रतिफल को अधिकतम करती है <math>\rho^\pi</math>, तब से <math>\rho^\pi = E[ V^\pi(S) ]</math>, जहाँ <math>S</math> वितरण से बेतरतीब विधि से नमूना लिया गया अवस्था है <math>\mu</math> प्रारंभिक अवस्थाओं की (इसलिए <math>\mu(s) = \Pr(s_0 = s)</math>).


यद्यपि राज्य-मूल्य इष्टतमता को परिभाषित करने के लिए पर्याप्त हैं, यह क्रिया-मूल्यों को परिभाषित करने के लिए उपयोगी है। एक राज्य दिया <math>s</math>, एक कार्यवाही <math>a</math> और एक नीति <math>\pi</math>, जोड़ी का क्रिया-मूल्य <math>(s,a)</math> अंतर्गत <math>\pi</math> द्वारा परिभाषित किया गया है
यद्यपि अवस्था -मान इष्टतमता को परिभाषित करने के लिए पर्याप्त हैं, यह क्रिया-मानो को परिभाषित करने के लिए उपयोगी है। एक अवस्था दिया <math>s</math>, एक कार्यवाही <math>a</math> और एक नीति <math>\pi</math>, जोड़ी का क्रिया-मान <math>(s,a)</math> अंतर्गत <math>\pi</math> द्वारा परिभाषित किया गया है


:<math>Q^\pi(s,a) = \operatorname E[R\mid s,a,\pi],\,</math>
:<math>Q^\pi(s,a) = \operatorname E[R\mid s,a,\pi],\,</math>
कहाँ <math>R</math> अब पहली कार्रवाई से जुड़े यादृच्छिक रिटर्न के लिए खड़ा है <math>a</math> राज्य में <math>s</math> और निम्नलिखित <math>\pi</math>, उसके बाद।
जहां <math>R</math> अब अवस्था <math>s</math> में पहली बार <math>a</math> कार्रवाई करने और उसके बाद <math>\pi</math> के बाद से जुड़े यादृच्छिक रिटर्न के लिए है।


एमडीपी के सिद्धांत में कहा गया है कि अगर <math>\pi^*</math> एक इष्टतम नीति है, हम कार्रवाई का चयन करके इष्टतम रूप से कार्य करते हैं (इष्टतम कार्रवाई करें)। <math>Q^{\pi^*}(s,\cdot)</math> प्रत्येक राज्य में उच्चतम मूल्य के साथ, <math>s</math>. ऐसी इष्टतम नीति का क्रिया-मूल्य कार्य (<math>Q^{\pi^*}</math>) को इष्टतम क्रिया-मूल्य फ़ंक्शन कहा जाता है और आमतौर पर इसे निरूपित किया जाता है <math>Q^*</math>. संक्षेप में, केवल इष्टतम क्रिया-मूल्य फ़ंक्शन का ज्ञान ही यह जानने के लिए पर्याप्त है कि बेहतर तरीके से कैसे कार्य किया जाए।
एमडीपी के सिद्धांत में कहा गया है कि यदि <math>\pi^*</math> एक इष्टतम नीति है, हम कार्रवाई का चयन करके इष्टतम रूप से कार्य करते हैं (इष्टतम कार्रवाई करें)। <math>Q^{\pi^*}(s,\cdot)</math> प्रत्येक अवस्था में उच्चतम मान के साथ, <math>s</math>. ऐसी इष्टतम नीति का क्रिया-मान कार्य (<math>Q^{\pi^*}</math>) को इष्टतम क्रिया-मान कार्य कहा जाता है और सामान्यतः इसे निरूपित किया जाता है <math>Q^*</math>. संक्षेप में, केवल इष्टतम क्रिया-मान कार्य का ज्ञान ही यह जानने के लिए पर्याप्त है कि उत्तम विधि से कैसे कार्य किया जाए।


एमडीपी के पूर्ण ज्ञान को मानते हुए, इष्टतम क्रिया-मूल्य फ़ंक्शन की गणना करने के लिए दो बुनियादी दृष्टिकोण [[मूल्य पुनरावृत्ति]] और [[नीति पुनरावृत्ति]] हैं। दोनों एल्गोरिदम कार्यों के अनुक्रम की गणना करते हैं <math>Q_k</math> (<math>k=0,1,2,\ldots</math>) जो अभिसरण करता है <math>Q^*</math>. इन कार्यों की गणना में पूरे राज्य-स्थान पर अपेक्षाओं की गणना करना शामिल है, जो कि सबसे छोटे (परिमित) एमडीपी के अलावा सभी के लिए अव्यावहारिक है। सुदृढीकरण सीखने के तरीकों में, बड़े राज्य-कार्रवाई स्थानों पर मूल्य कार्यों का प्रतिनिधित्व करने की आवश्यकता से निपटने के लिए नमूनों पर औसत और फ़ंक्शन सन्निकटन तकनीकों का उपयोग करके अपेक्षाओं का अनुमान लगाया जाता है।
एमडीपी के पूर्ण ज्ञान को मानते हुए, इष्टतम क्रिया-मान कार्य की गणना करने के लिए दो मूलभूत दृष्टिकोण [[मूल्य पुनरावृत्ति|मान पुनरावृत्ति]] और [[नीति पुनरावृत्ति]] हैं। दोनों एल्गोरिदम कार्यों के अनुक्रम की गणना करते हैं <math>Q_k</math> (<math>k=0,1,2,\ldots</math>) जो अभिसरण करता है <math>Q^*</math>. इन कार्यों की गणना में पूरे अवस्था -स्थान पर अपेक्षाओं की गणना करना सम्मिलित है जो कि सबसे छोटे (परिमित) एमडीपी के अतिरिक्त सभी के लिए अव्यावहारिक है। सुदृढीकरण सीखने के विधियों में, बड़े अवस्था -कार्रवाई स्थानों पर मान कार्यों का प्रतिनिधित्व करने की आवश्यकता से निपटने के लिए नमूनों पर औसत और कार्य सन्निकटन विधियों का उपयोग करके अपेक्षाओं का अनुमान लगाया जाता है।


==== मोंटे कार्लो के तरीके ====
==== मोंटे कार्लो के विधि ====
[[मोंटे कार्लो नमूनाकरण]] का उपयोग एल्गोरिथम में किया जा सकता है जो नीति पुनरावृत्ति की नकल करता है। नीति पुनरावृत्ति में दो चरण होते हैं: नीति मूल्यांकन और नीति सुधार।
[[मोंटे कार्लो नमूनाकरण]] का उपयोग एल्गोरिथम में किया जा सकता है जो नीति पुनरावृत्ति की नकल करता है। नीति पुनरावृत्ति में दो चरण होते हैं: नीति मूल्यांकन और नीति सुधार है ।


मोंटे कार्लो का उपयोग नीति मूल्यांकन चरण में किया जाता है। इस चरण में, एक स्थिर, नियतात्मक नीति दी गई है <math>\pi</math>, लक्ष्य फ़ंक्शन मानों की गणना करना है <math>Q^\pi(s,a)</math> (या उनके लिए एक अच्छा सन्निकटन) सभी स्टेट-एक्शन जोड़े के लिए <math>(s,a)</math>. मान लें (सरलता के लिए) कि एमडीपी परिमित है, कार्रवाई-मूल्यों को समायोजित करने के लिए पर्याप्त मेमोरी उपलब्ध है और यह कि समस्या एपिसोडिक है और प्रत्येक एपिसोड के बाद कुछ यादृच्छिक प्रारंभिक अवस्था से एक नया शुरू होता है। फिर, किसी दिए गए स्टेट-एक्शन जोड़ी के मूल्य का अनुमान <math>(s,a)</math> से उत्पन्न होने वाले नमूना रिटर्न के औसत से गणना की जा सकती है <math>(s,a)</math> अधिक समय तक। पर्याप्त समय दिया गया है, इस प्रकार यह प्रक्रिया एक सटीक अनुमान का निर्माण कर सकती है <math>Q</math> क्रिया-मूल्य फ़ंक्शन का <math>Q^\pi</math>. यह नीति मूल्यांकन चरण के विवरण को समाप्त करता है।
मोंटे कार्लो का उपयोग नीति मूल्यांकन चरण में किया जाता है। इस चरण में, एक स्थिर, नियतात्मक नीति दी गई है <math>\pi</math>, लक्ष्य कार्य मानों की गणना करना है <math>Q^\pi(s,a)</math> (या उनके लिए एक अच्छा सन्निकटन) सभी स्टेट-एक्शन जोड़े के लिए <math>(s,a)</math>. मान लें (सरलता के लिए) कि एमडीपी परिमित है, कार्रवाई-मानो को समायोजित करने के लिए पर्याप्त मेमोरी उपलब्ध है और यह कि समस्या एपिसोडिक है और प्रत्येक एपिसोड के बाद कुछ यादृच्छिक प्रारंभिक अवस्था से एक नया प्रारंभ होता है। फिर किसी दिए गए स्टेट-एक्शन जोड़ी के मान का अनुमान <math>(s,a)</math> से उत्पन्न होने वाले नमूना रिटर्न के औसत से गणना की जा सकती है <math>(s,a)</math> अधिक समय तक। पर्याप्त समय दिया गया है, इस प्रकार यह प्रक्रिया एक स्पष्ट अनुमान का निर्माण कर सकती है <math>Q</math> क्रिया-मान कार्य का <math>Q^\pi</math>. यह नीति मूल्यांकन चरण के विवरण को समाप्त करता है।


नीति सुधार चरण में, के संबंध में लालची नीति की गणना करके अगली नीति प्राप्त की जाती है <math>Q</math>: एक राज्य दिया <math>s</math>, यह नई नीति अधिकतम करने वाली कार्रवाई लौटाती है <math>Q(s,\cdot)</math>. व्यावहारिक रूप से [[आलसी मूल्यांकन]] अधिकतम क्रियाओं की गणना को तब तक के लिए टाल सकता है जब उनकी आवश्यकता होती है।
नीति सुधार चरण में, के संबंध में ग्रीडी नीति की गणना करके अगली नीति प्राप्त की जाती है <math>Q</math>: एक अवस्था दिया <math>s</math>, यह नई नीति अधिकतम करने वाली कार्रवाई लौटाती है <math>Q(s,\cdot)</math>. व्यावहारिक रूप से [[आलसी मूल्यांकन]] अधिकतम क्रियाओं की गणना को तब तक के लिए टाल सकता है जब उनकी आवश्यकता होती है।


इस प्रक्रिया की समस्याओं में शामिल हैं:
इस प्रक्रिया की समस्याओं में सम्मिलित हैं:


1. प्रक्रिया में एक उप-इष्टतम नीति का मूल्यांकन करने में बहुत अधिक समय लग सकता है।
1. प्रक्रिया में एक उप-इष्टतम नीति का मूल्यांकन करने में बहुत अधिक समय लग सकता है।


2. यह नमूने का अक्षमता से उपयोग करता है जिसमें एक लंबा प्रक्षेपवक्र केवल एकल राज्य-क्रिया जोड़ी के अनुमान में सुधार करता है जिसने प्रक्षेपवक्र शुरू किया।
2. यह नमूने का अक्षमता से उपयोग करता है जिसमें एक लंबा प्रक्षेपवक्र केवल एकल अवस्था -क्रिया जोड़ी के अनुमान में सुधार करता है जिसने प्रक्षेपवक्र प्रारंभ किया।


3. जब प्रक्षेपवक्र के साथ रिटर्न में उच्च विचरण होता है, तो अभिसरण धीमा होता है।
3. जब प्रक्षेपवक्र के साथ रिटर्न में उच्च विचरण होता है, तो अभिसरण धीमा होता है।


4. यह <u>एपिसोडिक प्रॉब्लम्स</u> में ही काम करता है।
4. यह <u>एपिसोडिक</u> समस्या में ही काम करता है।


5. यह छोटे, सीमित एमडीपी में ही काम करता है।
5. यह छोटे, सीमित एमडीपी में ही काम करता है।


==== टेम्पोरल डिफरेंस मेथड्स ====
==== अस्थायी अंतर के विधि ====
{{Main|Temporal difference learning}}
{{Main|अस्थायी अंतर सीखना}}
मूल्यों के व्यवस्थित होने से पहले प्रक्रिया को (कुछ या सभी राज्यों में) नीति को बदलने की अनुमति देकर पहली समस्या को ठीक किया जाता है। यह भी समस्याग्रस्त हो सकता है क्योंकि यह अभिसरण को रोक सकता है। अधिकांश वर्तमान एल्गोरिदम ऐसा करते हैं, सामान्यीकृत नीति पुनरावृत्ति एल्गोरिदम के वर्ग को जन्म देते हैं। अनेक अभिनेता-आलोचक विधियां इसी श्रेणी में आती हैं।
मानो के व्यवस्थित होने से पहले प्रक्रिया को (कुछ या सभी अवस्थाओ में) नीति को बदलने की अनुमति देकर पहली समस्या को ठीक किया जाता है। यह भी समस्याग्रस्त हो सकता है क्योंकि यह अभिसरण को रोक सकता है। अधिकांश वर्तमान एल्गोरिदम ऐसा करते हैं सामान्यीकृत नीति पुनरावृत्ति एल्गोरिदम के वर्ग को जन्म देते हैं। अनेक अभिनेता-आलोचक विधियां इसी श्रेणी में आती हैं।


दूसरे मुद्दे को प्रक्षेपवक्र को उनमें किसी भी राज्य-एक्शन जोड़ी में योगदान करने की अनुमति देकर ठीक किया जा सकता है। यह तीसरी समस्या के साथ कुछ हद तक मदद कर सकता है, हालांकि एक बेहतर समाधान जब रिटर्न में उच्च विचरण होता है, तो सटन की अस्थायी अंतर (टीडी) पद्धतियां होती हैं जो पुनरावर्ती [[बेलमैन समीकरण]] पर आधारित होती हैं।<ref>{{cite thesis|last = Sutton|first = Richard S.|title= रिनफोर्समेंट लर्निंग में टेम्पोरल क्रेडिट असाइनमेंट|degree= PhD|publisher = University of Massachusetts, Amherst, MA|url= http://incompleteideas.net/sutton/publications.html#PhDthesis|author-link = Richard S. Sutton|year= 1984 }}</ref>{{sfn|Sutton|Barto|1998|loc=[http://incompleteideas.net/sutton/book/ebook/node60.html §6. Temporal-Difference Learning]}} टीडी विधियों में गणना वृद्धिशील हो सकती है (जब प्रत्येक संक्रमण के बाद स्मृति बदल जाती है और संक्रमण दूर हो जाता है), या बैच (जब संक्रमण बैच किए जाते हैं और बैच के आधार पर अनुमानों की गणना की जाती है)। बैच विधियाँ, जैसे कि कम से कम वर्ग अस्थायी अंतर विधि,<ref>{{cite journal
दूसरे उद्देश्य को प्रक्षेपवक्र को उनमें किसी भी अवस्था -एक्शन जोड़ी में योगदान करने की अनुमति देकर ठीक किया जा सकता है। यह तीसरी समस्या के साथ कुछ सीमा तक सहायता कर सकता है चूँकि एक उत्तम समाधान जब रिटर्न में उच्च विचरण होता है तो सटन की अस्थायी अंतर (टीडी) पद्धतियां होती हैं जो पुनरावर्ती [[बेलमैन समीकरण]] पर आधारित होती हैं।<ref>{{cite thesis|last = Sutton|first = Richard S.|title= रिनफोर्समेंट लर्निंग में टेम्पोरल क्रेडिट असाइनमेंट|degree= PhD|publisher = University of Massachusetts, Amherst, MA|url= http://incompleteideas.net/sutton/publications.html#PhDthesis|author-link = Richard S. Sutton|year= 1984 }}</ref>{{sfn|Sutton|Barto|1998|loc=[http://incompleteideas.net/sutton/book/ebook/node60.html §6. Temporal-Difference Learning]}} टीडी विधियों में गणना वृद्धिशील हो सकती है (जब प्रत्येक संक्रमण के बाद स्मृति बदल जाती है और संक्रमण दूर हो जाता है) या बैच (जब संक्रमण बैच किए जाते हैं और बैच के आधार पर अनुमानों की गणना की जाती है)। बैच विधियाँ जैसे कि कम से कम वर्ग अस्थायी अंतर विधि,<ref>{{cite journal
   | doi = 10.1023/A:1018056104778
   | doi = 10.1023/A:1018056104778
   | last1 = Bradtke | first1 = Steven J. | author-link1 = Steven J. Bradtke
   | last1 = Bradtke | first1 = Steven J. | author-link1 = Steven J. Bradtke
Line 127: Line 129:
   | pages = 33–57
   | pages = 33–57
   | year = 1996
   | year = 1996
   | citeseerx = 10.1.1.143.857 | s2cid = 20327856 }}</ref> नमूनों में जानकारी का बेहतर उपयोग कर सकते हैं, जबकि वृद्धिशील विधियाँ एकमात्र विकल्प हैं जब बैच विधियाँ उनकी उच्च कम्प्यूटेशनल या मेमोरी जटिलता के कारण अक्षम होती हैं। कुछ विधियाँ दो दृष्टिकोणों को संयोजित करने का प्रयास करती हैं। लौकिक भिन्नताओं पर आधारित पद्धतियाँ भी चौथी समस्या को दूर करती हैं।
   | citeseerx = 10.1.1.143.857 | s2cid = 20327856 }}</ref> नमूनों में जानकारी का उत्तम उपयोग कर सकते हैं, जबकि वृद्धिशील विधियाँ एकमात्र विकल्प हैं जब बैच विधियाँ उनकी उच्च कम्प्यूटेशनल या मेमोरी जटिलता के कारण अक्षम होती हैं। कुछ विधियाँ दो दृष्टिकोणों को संयोजित करने का प्रयास करती हैं। लौकिक भिन्नताओं पर आधारित पद्धतियाँ भी चौथी समस्या को दूर करती हैं।


टीडी के लिए विशिष्ट एक अन्य समस्या पुनरावर्ती बेलमैन समीकरण पर उनकी निर्भरता से आती है। अधिकांश टीडी विधियों में एक तथाकथित है <math>\lambda</math> पैरामीटर <math>(0\le \lambda\le 1)</math> जो मोंटे कार्लो विधियों के बीच लगातार प्रक्षेपित कर सकता है जो बेलमैन समीकरणों पर भरोसा नहीं करते हैं और मूल टीडी विधियां जो पूरी तरह से बेलमैन समीकरणों पर भरोसा करती हैं। यह इस समस्या को दूर करने में कारगर हो सकता है।
टीडी के लिए विशिष्ट एक अन्य समस्या पुनरावर्ती बेलमैन समीकरण पर उनकी निर्भरता से आती है। अधिकांश टीडी विधियों में एक तथाकथित है <math>\lambda</math> पैरामीटर <math>(0\le \lambda\le 1)</math> जो मोंटे कार्लो विधियों के बीच लगातार प्रक्षेपित कर सकता है जो बेलमैन समीकरणों पर विश्वास नहीं करते हैं और मूल टीडी विधियां जो पूरी तरह से बेलमैन समीकरणों पर विश्वास करती हैं। यह इस समस्या को दूर करने में कारगर हो सकता है।


==== फंक्शन सन्निकटन के तरीके ====
==== फंक्शन सन्निकटन के विधि ====
पांचवें मुद्दे को संबोधित करने के लिए, फ़ंक्शन सन्निकटन विधियों का उपयोग किया जाता है। रेखीय कार्य सन्निकटन एक मानचित्रण के साथ शुरू होता है <math>\phi</math> जो प्रत्येक स्टेट-एक्शन जोड़ी को एक परिमित-आयामी वेक्टर प्रदान करता है। फिर, राज्य-क्रिया युग्म के क्रिया मान <math>(s,a)</math> के घटकों को रैखिक रूप से जोड़कर प्राप्त किया जाता है <math>\phi(s,a)</math> कुछ भार के साथ <math>\theta</math>:
पांचवें उद्देश्य को संबोधित करने के लिए, कार्य सन्निकटन विधियों का उपयोग किया जाता है। रैखिक कार्य सन्निकटन एक मानचित्रण <math>\phi</math> से प्रारंभ होता है जो प्रत्येक अवस्था -क्रिया जोड़ी को एक परिमित-आयामी वेक्टर प्रदान करता है। फिर, अवस्था -क्रिया युग्म<math>(s,a)</math> के क्रिया मान को कुछ वज़न <math>\theta</math> के साथ <math>\phi(s,a)</math> के घटकों को रैखिक रूप से जोड़कर प्राप्त किया जाता है।


:<math>Q(s,a) = \sum_{i=1}^d \theta_i \phi_i(s,a).</math>
:<math>Q(s,a) = \sum_{i=1}^d \theta_i \phi_i(s,a).</math>
एल्गोरिदम तब अलग-अलग राज्य-क्रिया जोड़े से जुड़े मूल्यों को समायोजित करने के बजाय वजन समायोजित करता है। गैर-पैरामीट्रिक आँकड़ों (जो अपनी स्वयं की विशेषताओं का निर्माण करने के लिए देखा जा सकता है) से विचारों पर आधारित विधियों का पता लगाया गया है।
एल्गोरिदम तब अलग-अलग अवस्था -क्रिया जोड़े से जुड़े मानो को समायोजित करने के अतिरिक्त वजन समायोजित करता है। गैर-पैरामीट्रिक आँकड़ों (जो अपनी स्वयं की विशेषताओं का निर्माण करने के लिए देखा जा सकता है) से विचारों पर आधारित विधियों का पता लगाया गया है।


[[क्यू-लर्निंग]] एल्गोरिथम और इसके कई वेरिएंट को जन्म देते हुए वैल्यू इटरेशन को शुरुआती बिंदु के रूप में भी इस्तेमाल किया जा सकता है।<ref>{{cite thesis
[[क्यू-लर्निंग]] एल्गोरिथम और इसके कई वेरिएंट को जन्म देते हुए मान इटरेशन को प्रारंभिक बिंदु के रूप में भी उपयोग किया जा सकता है।<ref>{{cite thesis
   | last = Watkins | first = Christopher J.C.H. | author-link = Christopher J.C.H. Watkins
   | last = Watkins | first = Christopher J.C.H. | author-link = Christopher J.C.H. Watkins
   | degree= PhD
   | degree= PhD
Line 143: Line 145:
   | year= 1989  
   | year= 1989  
   | publisher = King’s College, Cambridge, UK
   | publisher = King’s College, Cambridge, UK
   | url= http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf}}</ref> स्टोकेस्टिक खोज समस्याओं में विभिन्न अनुप्रयोगों के साथ क्यू का प्रतिनिधित्व करने के लिए एक तंत्रिका नेटवर्क का उपयोग करते समय डीप क्यू-लर्निंग विधियों को शामिल करना।<ref name="MBK">{{Cite journal |title = डीप क्यू-लर्निंग एबिलिटीज के साथ एक स्वायत्त एजेंट द्वारा स्थिर और मोबाइल लक्ष्यों का पता लगाना| journal=Entropy | year=2022 | volume=24 | issue=8 | page=1168  | doi=10.3390/e24081168 | pmid=36010832 | pmc=9407070 | bibcode=2022Entrp..24.1168M | doi-access=free | last1=Matzliach | first1=Barouch | last2=Ben-Gal | first2=Irad | last3=Kagan | first3=Evgeny }}</ref>
   | url= http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf}}</ref> स्टोकेस्टिक खोज समस्याओं में विभिन्न अनुप्रयोगों के साथ क्यू का प्रतिनिधित्व करने के लिए एक तंत्रिका नेटवर्क का उपयोग करते समय डीप क्यू-लर्निंग विधियों को सम्मिलित करना है।<ref name="MBK">{{Cite journal |title = डीप क्यू-लर्निंग एबिलिटीज के साथ एक स्वायत्त एजेंट द्वारा स्थिर और मोबाइल लक्ष्यों का पता लगाना| journal=Entropy | year=2022 | volume=24 | issue=8 | page=1168  | doi=10.3390/e24081168 | pmid=36010832 | pmc=9407070 | bibcode=2022Entrp..24.1168M | doi-access=free | last1=Matzliach | first1=Barouch | last2=Ben-Gal | first2=Irad | last3=Kagan | first3=Evgeny }}</ref>
क्रिया-मूल्यों का उपयोग करने में समस्या यह है कि उन्हें प्रतिस्पर्धात्मक क्रिया मूल्यों के अत्यधिक सटीक अनुमानों की आवश्यकता हो सकती है जो रिटर्न शोर होने पर प्राप्त करना कठिन हो सकता है, हालांकि अस्थायी अंतर विधियों द्वारा इस समस्या को कुछ हद तक कम किया जाता है। तथाकथित संगत फ़ंक्शन सन्निकटन पद्धति का उपयोग करना सामान्यता और दक्षता से समझौता करता है।
 
क्रिया-मानो का उपयोग करने में समस्या यह है कि उन्हें प्रतिस्पर्धात्मक क्रिया मानो के अत्यधिक स्पष्ट अनुमानों की आवश्यकता हो सकती है जो रिटर्न ध्वनि होने पर प्राप्त करना कठिन हो सकता है चूँकि अस्थायी अंतर विधियों द्वारा इस समस्या को कुछ सीमा तक कम किया जाता है। तथाकथित संगत कार्य सन्निकटन पद्धति का उपयोग करना सामान्यता और दक्षता से समझौता करता है।


=== प्रत्यक्ष नीति खोज ===
=== प्रत्यक्ष नीति खोज ===
एक वैकल्पिक तरीका पॉलिसी स्पेस (कुछ सबसेट) में सीधे खोज करना है, जिस स्थिति में समस्या [[स्टोचैस्टिक अनुकूलन]] का मामला बन जाती है। उपलब्ध दो दृष्टिकोण [[ढाल]]-आधारित और ढाल-मुक्त विधियाँ हैं।
एक वैकल्पिक विधि पॉलिसी स्पेस (कुछ सबसेट) में सीधे खोज करना है जिस स्थिति में समस्या [[स्टोचैस्टिक अनुकूलन]] का स्थति बन जाती है। उपलब्ध दो दृष्टिकोण [[ढाल]]-आधारित और ढाल-मुक्त विधियाँ हैं।


ढाल-आधारित विधियाँ (नीति ढाल विधियाँ) एक परिमित-आयामी (पैरामीटर) स्थान से नीतियों के स्थान तक मानचित्रण के साथ शुरू होती हैं: पैरामीटर वेक्टर दिया गया <math>\theta</math>, होने देना <math>\pi_\theta</math> से संबंधित नीति को निरूपित करें <math>\theta</math>. द्वारा प्रदर्शन समारोह को परिभाषित करना
ढाल-आधारित विधियाँ (नीति ढाल विधियाँ) एक परिमित-आयामी (पैरामीटर) स्थान से नीतियों के स्थान तक मानचित्रण के साथ प्रारंभ होती हैं: पैरामीटर वेक्टर <math>\theta</math> दिया गया है, चलो <math>\pi_\theta</math> , <math>\theta</math>से संबंधित नीति को दर्शाता है द्वारा प्रदर्शन कार्य को परिभाषित करना है


:<math>\rho(\theta) = \rho^{\pi_\theta},</math>
:<math>\rho(\theta) = \rho^{\pi_\theta},</math>
हल्की परिस्थितियों में यह फ़ंक्शन पैरामीटर वेक्टर के फ़ंक्शन के रूप में अलग-अलग होगा <math>\theta</math>. यदि की ढाल <math>\rho</math> ज्ञात था, कोई [[ ढतला हुआ वंश ]] का उपयोग कर सकता है। चूंकि ढाल के लिए एक विश्लेषणात्मक अभिव्यक्ति उपलब्ध नहीं है, केवल शोर का अनुमान उपलब्ध है। इस तरह के अनुमान को कई तरह से बनाया जा सकता है, जिससे विलियम्स की रीइन्फोर्स विधि जैसे एल्गोरिदम को जन्म दिया जा सकता है<ref>{{cite conference
हल्के परिस्थितियों में यह कार्य पैरामीटर वेक्टर <math>\theta</math> के कार्य के रूप में अलग-अलग होगा। यदि <math>\rho</math> का ग्रेडिएंट ज्ञात था, तो ग्रेडिएंट एसेंट का उपयोग किया जा सकता है। चूंकि ढाल के लिए एक विश्लेषणात्मक अभिव्यक्ति उपलब्ध नहीं है केवल ध्वनि का अनुमान उपलब्ध है। इस तरह के एक अनुमान को कई विधियों से बनाया जा सकता है जो एल्गोरिदम को जन्म देता है जैसे कि विलियम्स की रीइन्फोर्स विधि (जिसे सिमुलेशन-आधारित अनुकूलन साहित्य में संभावना अनुपात विधि के रूप में जाना जाता है)। रोबोटिक्स के संदर्भ में नीति खोज विधियों का उपयोग किया गया है।<ref>{{cite conference
   | last = Williams | first = Ronald J. | author-link = Ronald J. Williams  
   | last = Williams | first = Ronald J. | author-link = Ronald J. Williams  
   | title = A class of gradient-estimating algorithms for reinforcement learning in neural networks
   | title = A class of gradient-estimating algorithms for reinforcement learning in neural networks
   | book-title = Proceedings of the IEEE First International Conference on Neural Networks
   | book-title = Proceedings of the IEEE First International Conference on Neural Networks
   | year = 1987| citeseerx = 10.1.1.129.8871 }}</ref> (जिसे सिमुलेशन-आधारित अनुकूलन साहित्य में संभावना अनुपात पद्धति के रूप में जाना जाता है)<ref>{{cite conference
   | year = 1987| citeseerx = 10.1.1.129.8871 }}</ref> कई नीतिगत खोज विधियां स्थानीय ऑप्टिमा में फंस सकती हैं (क्योंकि वे स्थानीय खोज पर आधारित हैं)।<ref>{{Cite book|title = रोबोटिक्स के लिए नीति खोज पर एक सर्वेक्षण|last1 = Deisenroth|first1 = Marc Peter|last2 = Neumann|first2 = Gerhard|last3 = Peters|first3 = Jan|publisher = NOW Publishers|year = 2013|series = Foundations and Trends in Robotics|volume = 2|issue = 1–2|pages = 1–142 |author-link1 = Marc Peter Deisenroth|author-link2 = Gerhard Neumann|author-link3 = Jan Peters (researcher)|hdl = 10044/1/12051|doi = 10.1561/2300000021|url = http://eprints.lincoln.ac.uk/28029/1/PolicySearchReview.pdf}}</ref><ref>{{cite conference
   | last1 = Peters | first1 = Jan | author-link1 = Jan Peters (researcher)
   | last1 = Peters | first1 = Jan | author-link1 = Jan Peters (researcher)
   | last2 = Vijayakumar | first2 = Sethu | author-link2 = Sethu Vijayakumar
   | last2 = Vijayakumar | first2 = Sethu | author-link2 = Sethu Vijayakumar
Line 163: Line 166:
   | book-title = IEEE-RAS International Conference on Humanoid Robots
   | book-title = IEEE-RAS International Conference on Humanoid Robots
   | year = 2003
   | year = 2003
   | url = http://www-clmc.usc.edu/publications/p/peters-ICHR2003.pdf}}</ref> [[रोबोटिक]]्स के संदर्भ में नीति खोज विधियों का उपयोग किया गया है।<ref>{{Cite book|title = रोबोटिक्स के लिए नीति खोज पर एक सर्वेक्षण|last1 = Deisenroth|first1 = Marc Peter|last2 = Neumann|first2 = Gerhard|last3 = Peters|first3 = Jan|publisher = NOW Publishers|year = 2013|series = Foundations and Trends in Robotics|volume = 2|issue = 1–2|pages = 1–142 |author-link1 = Marc Peter Deisenroth|author-link2 = Gerhard Neumann|author-link3 = Jan Peters (researcher)|hdl = 10044/1/12051|doi = 10.1561/2300000021|url = http://eprints.lincoln.ac.uk/28029/1/PolicySearchReview.pdf}}</ref> कई नीतिगत खोज विधियां स्थानीय ऑप्टिमा में फंस सकती हैं (क्योंकि वे [[स्थानीय खोज (अनुकूलन)]] पर आधारित हैं)।
   | url = http://www-clmc.usc.edu/publications/p/peters-ICHR2003.pdf}}</ref>


विधियों का एक बड़ा वर्ग ढाल की जानकारी पर भरोसा करने से बचता है। इनमें [[ तैयार किए हुयी धातु पे पानी चढाने की कला ]], [[क्रॉस-एन्ट्रॉपी विधि]] | क्रॉस-एन्ट्रॉपी खोज या [[विकासवादी संगणना]] के तरीके शामिल हैं। कई ग्रेडियेंट-मुक्त विधियां वैश्विक इष्टतम (सिद्धांत रूप में और सीमा में) प्राप्त कर सकती हैं।
विधियों का एक बड़ा वर्ग ढाल की जानकारी पर विश्वास करने से बचता है। इनमें [[ तैयार किए हुयी धातु पे पानी चढाने की कला |तैयार किए हुयी धातु पे पानी चढाने की कला]] , [[क्रॉस-एन्ट्रॉपी विधि]] क्रॉस-एन्ट्रॉपी खोज या [[विकासवादी संगणना]] के विधि सम्मिलित हैं। कई ग्रेडियेंट-मुक्त विधियां वैश्विक इष्टतम (सिद्धांत रूप में और सीमा में) प्राप्त कर सकती हैं।


नीति खोज पद्धति धीरे-धीरे दिए गए शोर वाले डेटा को अभिसरण कर सकती है। उदाहरण के लिए, यह एपिसोडिक समस्याओं में होता है जब प्रक्षेपवक्र लंबे होते हैं और रिटर्न का विचरण बड़ा होता है। मूल्य-फ़ंक्शन आधारित विधियाँ जो लौकिक अंतरों पर निर्भर करती हैं, इस मामले में मदद कर सकती हैं। हाल के वर्षों में, अभिनेता-आलोचक विधियों का प्रस्ताव किया गया है और विभिन्न समस्याओं पर अच्छा प्रदर्शन किया है।<ref>{{Cite web|url=https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-8-asynchronous-actor-critic-agents-a3c-c88f72a5e9f2|title=Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)|last=Juliani|first=Arthur|date=2016-12-17|website=Medium|access-date=2018-02-22}}</ref>
नीति खोज पद्धति धीरे-धीरे दिए गए ध्वनि वाले डेटा को अभिसरण कर सकती है। उदाहरण के लिए यह एपिसोडिक समस्याओं में होता है जब प्रक्षेपवक्र लंबे होते हैं और रिटर्न का विचरण बड़ा होता है। मूल्य-कार्य आधारित विधियाँ जो लौकिक अंतरों पर निर्भर करती हैं इस स्थिति में सहायता कर सकती हैं। वर्तमान के वर्षों में अभिनेता-आलोचक विधियों का प्रस्ताव किया गया है और विभिन्न समस्याओं पर अच्छा प्रदर्शन किया है।<ref>{{Cite web|url=https://medium.com/emergent-future/simple-reinforcement-learning-with-tensorflow-part-8-asynchronous-actor-critic-agents-a3c-c88f72a5e9f2|title=Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)|last=Juliani|first=Arthur|date=2016-12-17|website=Medium|access-date=2018-02-22}}</ref>




=== मॉडल-आधारित एल्गोरिदम ===
=== मॉडल-आधारित एल्गोरिदम ===
अंत में, उपरोक्त सभी विधियों को एल्गोरिदम के साथ जोड़ा जा सकता है जो पहले एक मॉडल सीखते हैं। उदाहरण के लिए, डायना एल्गोरिथम<ref>{{Cite conference
अंत में उपरोक्त सभी विधियों को एल्गोरिदम के साथ जोड़ा जा सकता है जो पहले एक मॉडल सीखते हैं। उदाहरण के लिए डायना एल्गोरिथम<ref>{{Cite conference
| last1 = Sutton | first1 = Richard
| last1 = Sutton | first1 = Richard
| title = Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming
| title = Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming
     | year = 1990
     | year = 1990
     | book-title = Machine Learning: Proceedings of the Seventh International Workshop}}</ref> अनुभव से एक मॉडल सीखता है, और वास्तविक बदलाव के अलावा, मूल्य फ़ंक्शन के लिए अधिक मॉडल किए गए बदलाव प्रदान करने के लिए उसका उपयोग करता है। इस तरह के तरीकों को कभी-कभी गैर-पैरामीट्रिक मॉडल के उपयोग के लिए बढ़ाया जा सकता है, जैसे कि जब संक्रमण केवल संग्रहीत होते हैं और 'फिर से चलाए जाते हैं'<ref>{{Cite conference | first1 = Long-Ji | last1 = Lin | title = सुदृढीकरण सीखने, योजना और शिक्षण के आधार पर स्व-सुधार प्रतिक्रियाशील एजेंट| book-title = Machine Learning volume 8 | year = 1992 | doi = 10.1007/BF00992699 |url=https://link.springer.com/content/pdf/10.1007/BF00992699.pdf}}</ref> सीखने के एल्गोरिदम के लिए।
     | book-title = Machine Learning: Proceedings of the Seventh International Workshop}}</ref> अनुभव से एक मॉडल सीखता है, और वास्तविक बदलाव के अतिरिक्त मान कार्य के लिए अधिक मॉडल किए गए बदलाव प्रदान करने के लिए उसका उपयोग करता है। इस तरह के विधियों को कभी-कभी गैर-पैरामीट्रिक मॉडल के उपयोग के लिए बढ़ाया जा सकता है जैसे कि जब संक्रमण केवल संग्रहीत होते हैं और सीखने के एल्गोरिदम के लिए 'फिर से चलाए जाते हैं'<ref>{{Cite conference | first1 = Long-Ji | last1 = Lin | title = सुदृढीकरण सीखने, योजना और शिक्षण के आधार पर स्व-सुधार प्रतिक्रियाशील एजेंट| book-title = Machine Learning volume 8 | year = 1992 | doi = 10.1007/BF00992699 |url=https://link.springer.com/content/pdf/10.1007/BF00992699.pdf}}</ref>


मूल्य फ़ंक्शन को अपडेट करने के अलावा मॉडल का उपयोग करने के अन्य तरीके हैं।<ref>{{Cite conference
मान कार्य को अपडेट करने के अतिरिक्त मॉडल का उपयोग करने के अन्य विधि हैं।<ref>{{Cite conference
     | last1 = van Hasselt | first1 = Hado
     | last1 = van Hasselt | first1 = Hado
     | last2 = Hessel | first2 = Matteo
     | last2 = Hessel | first2 = Matteo
Line 185: Line 188:
     | book-title = Advances in Neural Information Processing Systems 32
     | book-title = Advances in Neural Information Processing Systems 32
     | url = https://proceedings.neurips.cc/paper/2019/file/1b742ae215adf18b75449c6e272fd92d-Paper.pdf
     | url = https://proceedings.neurips.cc/paper/2019/file/1b742ae215adf18b75449c6e272fd92d-Paper.pdf
}}</ref> उदाहरण के लिए, [[ मॉडल भविष्य कहनेवाला नियंत्रण ]] में मॉडल का उपयोग सीधे व्यवहार को अपडेट करने के लिए किया जाता है।
}}</ref> उदाहरण के लिए, [[ मॉडल भविष्य कहनेवाला नियंत्रण |मॉडल भविष्य कहनेवाला नियंत्रण]] में मॉडल का उपयोग सीधे व्यवहार को अपडेट करने के लिए किया जाता है।


== सिद्धांत ==
== सिद्धांत ==
अधिकांश एल्गोरिदम के स्पर्शोन्मुख और परिमित-नमूना व्यवहार दोनों को अच्छी तरह से समझा जाता है। सिद्ध रूप से अच्छे ऑनलाइन प्रदर्शन (अन्वेषण मुद्दे को संबोधित करते हुए) वाले एल्गोरिद्म ज्ञात हैं।
अधिकांश एल्गोरिदम के स्पर्शोन्मुख और परिमित-नमूना व्यवहार दोनों को अच्छी तरह से समझा जाता है। सिद्ध रूप से अच्छे ऑनलाइन प्रदर्शन (अन्वेषण उद्देश्य को संबोधित करते हुए) वाले एल्गोरिद्म ज्ञात हैं।


बर्नेटास और कटेहाकिस (1997) में एमडीपी का कुशल अन्वेषण दिया गया है।<ref name="Optimal adaptive policies for Marko"/>कई एल्गोरिदम के लिए परिमित-समय की प्रदर्शन सीमाएँ भी दिखाई दी हैं, लेकिन इन सीमाओं के ढीले होने की उम्मीद है और इस प्रकार सापेक्ष लाभों और सीमाओं को बेहतर ढंग से समझने के लिए अधिक काम करने की आवश्यकता है।
बर्नेटास और कटेहाकिस (1997) में एमडीपी का कुशल अन्वेषण दिया गया है।<ref name="Optimal adaptive policies for Marko"/> कई एल्गोरिदम के लिए परिमित-समय की प्रदर्शन सीमाएँ भी दिखाई दी हैं किन्तु इन सीमाओं के ढीले होने की उम्मीद है और इस प्रकार सापेक्ष लाभों और सीमाओं को उत्तम विधि से समझने के लिए अधिक काम करने की आवश्यकता है।


वृद्धिशील एल्गोरिदम के लिए, स्पर्शोन्मुख अभिसरण मुद्दों का समाधान किया गया है{{Clarify|reason=What are the issues that have been settled?|date=January 2020}}. टेम्पोरल-अंतर-आधारित एल्गोरिदम पहले की तुलना में शर्तों के एक व्यापक सेट के तहत अभिसरण करते हैं (उदाहरण के लिए, जब मनमाने ढंग से, सुचारू फ़ंक्शन सन्निकटन के साथ उपयोग किया जाता है)।
वृद्धिशील एल्गोरिदम के लिए स्पर्शोन्मुख अभिसरण उद्देश्यों का समाधान किया गया है टेम्पोरल-अंतर-आधारित एल्गोरिदम पहले की तुलना में नियमो के एक व्यापक सेट के तहत अभिसरण करते हैं (उदाहरण के लिए जब इच्छानुसार से सुचारू कार्य सन्निकटन के साथ उपयोग किया जाता है)।


== अनुसंधान ==
== अनुसंधान ==
{{More citations needed section|date=October 2022}}
शोध विषयों में सम्मिलित हैं:
शोध विषयों में शामिल हैं:
* अभिनेता-आलोचक
* अभिनेता-आलोचक
* अनुकूली विधियां जो बड़ी संख्या में स्थितियों के तहत कम (या नहीं) पैरामीटर के साथ काम करती हैं
* अनुकूली विधियां जो बड़ी संख्या में स्थितियों के तहत कम (या नहीं) पैरामीटर के साथ काम करती हैं
* सॉफ्टवेयर परियोजनाओं में बग का पता लगाना<ref>{{Cite web |title=On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment |url=https://cie.acm.org/articles/use-reinforcements-learning-testing-game-mechanics/ |access-date=2018-11-27 |website=cie.acm.org |language=en}}</ref>
* सॉफ्टवेयर परियोजनाओं में बग का पता लगाना<ref>{{Cite web |title=On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment |url=https://cie.acm.org/articles/use-reinforcements-learning-testing-game-mechanics/ |access-date=2018-11-27 |website=cie.acm.org |language=en}}</ref>
* लगातार सीखना
* लगातार सीखना
* तर्क-आधारित रूपरेखाओं के साथ संयोजन<ref>{{Cite journal|last1=Riveret|first1=Regis|last2=Gao|first2=Yang|date=2019|title=सुदृढीकरण सीखने वाले एजेंटों के लिए एक संभाव्य तर्क रूपरेखा|journal=Autonomous Agents and Multi-Agent Systems|language=en|volume=33|issue=1–2|pages=216–274|doi=10.1007/s10458-019-09404-2|s2cid=71147890}}</ref> * बड़े एमडीपी में अन्वेषण
* तर्क-आधारित रूपरेखाओं के साथ संयोजन<ref>{{Cite journal|last1=Riveret|first1=Regis|last2=Gao|first2=Yang|date=2019|title=सुदृढीकरण सीखने वाले एजेंटों के लिए एक संभाव्य तर्क रूपरेखा|journal=Autonomous Agents and Multi-Agent Systems|language=en|volume=33|issue=1–2|pages=216–274|doi=10.1007/s10458-019-09404-2|s2cid=71147890}}</ref>
*बड़े एमडीपी में अन्वेषण
* [[मानव प्रतिक्रिया से सुदृढीकरण सीखना]]<ref>{{cite arXiv |last1=Yamagata |first1=Taku |last2=McConville |first2=Ryan |last3=Santos-Rodriguez |first3=Raul |date=2021-11-16 |title=विविध कौशल वाले कई मनुष्यों से प्रतिक्रिया के साथ सुदृढीकरण सीखना|class=cs.LG |eprint=2111.08596 }}</ref>
* [[मानव प्रतिक्रिया से सुदृढीकरण सीखना]]<ref>{{cite arXiv |last1=Yamagata |first1=Taku |last2=McConville |first2=Ryan |last3=Santos-Rodriguez |first3=Raul |date=2021-11-16 |title=विविध कौशल वाले कई मनुष्यों से प्रतिक्रिया के साथ सुदृढीकरण सीखना|class=cs.LG |eprint=2111.08596 }}</ref>
* कौशल अधिग्रहण में निहित और स्पष्ट सीखने के बीच बातचीत
* कौशल अधिग्रहण में निहित और स्पष्ट सीखने के बीच परस्पर क्रिया
* आंतरिक प्रेरणा (कृत्रिम बुद्धिमत्ता) जो सूचना-प्राप्ति, जिज्ञासा-प्रकार के व्यवहारों को कार्य-निर्भर लक्ष्य-निर्देशित व्यवहारों से अलग करती है, बड़े पैमाने पर अनुभवजन्य मूल्यांकन
* आंतरिक प्रेरणा (कृत्रिम बुद्धिमत्ता) जो सूचना-प्राप्ति जिज्ञासा-प्रकार के व्यवहारों को कार्य-निर्भर लक्ष्य-निर्देशित व्यवहारों से अलग करती है बड़े मापदंड पर अनुभवजन्य मूल्यांकन
* बड़े (या निरंतर) क्रिया स्थान
* बड़े (या निरंतर) क्रिया स्थान
* मॉड्यूलर और पदानुक्रमित सुदृढीकरण सीखना<ref>{{Cite journal|last1=Kulkarni|first1=Tejas D.|last2=Narasimhan|first2=Karthik R.|last3=Saeedi|first3=Ardavan|last4=Tenenbaum|first4=Joshua B.|date=2016|title=Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation|url=http://dl.acm.org/citation.cfm?id=3157382.3157509|journal=Proceedings of the 30th International Conference on Neural Information Processing Systems|series=NIPS'16|location=USA|publisher=Curran Associates Inc.|pages=3682–3690|isbn=978-1-5108-3881-9|bibcode=2016arXiv160406057K|arxiv=1604.06057}}</ref>
* मॉड्यूलर और पदानुक्रमित सुदृढीकरण सीखना<ref>{{Cite journal|last1=Kulkarni|first1=Tejas D.|last2=Narasimhan|first2=Karthik R.|last3=Saeedi|first3=Ardavan|last4=Tenenbaum|first4=Joshua B.|date=2016|title=Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation|url=http://dl.acm.org/citation.cfm?id=3157382.3157509|journal=Proceedings of the 30th International Conference on Neural Information Processing Systems|series=NIPS'16|location=USA|publisher=Curran Associates Inc.|pages=3682–3690|isbn=978-1-5108-3881-9|bibcode=2016arXiv160406057K|arxiv=1604.06057}}</ref>
Line 210: Line 213:
* निवासी-केंद्रित नियंत्रण
* निवासी-केंद्रित नियंत्रण
* कंप्यूटिंग संसाधनों का अनुकूलन<ref>{{Cite journal |last1=Dey |first1=Somdip |last2=Singh |first2=Amit Kumar |last3=Wang |first3=Xiaohang |last4=McDonald-Maier |first4=Klaus |date=March 2020 |title=सीपीयू-जीपीयू मोबाइल एमपीएसओसी की पावर और थर्मल दक्षता के लिए यूजर इंटरेक्शन अवेयर रीइन्फोर्समेंट लर्निंग|url=https://ieeexplore.ieee.org/document/9116294 |journal=2020 Design, Automation Test in Europe Conference Exhibition (DATE) |pages=1728–1733 |doi=10.23919/DATE48585.2020.9116294 |isbn=978-3-9819263-4-7 |s2cid=219858480}}</ref><ref>{{Cite web |last=Quested |first=Tony |title=एसेक्स इनोवेशन के साथ स्मार्टफोन और स्मार्ट हो जाते हैं|work=Business Weekly |url=https://www.businessweekly.co.uk/news/academia-research/smartphones-get-smarter-essex-innovation |url-status=live |access-date=2021-06-17}}</ref><ref>{{Cite web |last=Williams |first=Rhiannon |date=2020-07-21 |title=भविष्य के स्मार्टफोन 'मालिकों के व्यवहार की निगरानी करके अपनी खुद की बैटरी लाइफ बढ़ाएंगे'|url=https://inews.co.uk/news/technology/future-smartphones-prolong-battery-life-monitoring-behaviour-558689 |url-status=live |access-date=2021-06-17 |website=[[i (newspaper)|i]] |language=en}}</ref>
* कंप्यूटिंग संसाधनों का अनुकूलन<ref>{{Cite journal |last1=Dey |first1=Somdip |last2=Singh |first2=Amit Kumar |last3=Wang |first3=Xiaohang |last4=McDonald-Maier |first4=Klaus |date=March 2020 |title=सीपीयू-जीपीयू मोबाइल एमपीएसओसी की पावर और थर्मल दक्षता के लिए यूजर इंटरेक्शन अवेयर रीइन्फोर्समेंट लर्निंग|url=https://ieeexplore.ieee.org/document/9116294 |journal=2020 Design, Automation Test in Europe Conference Exhibition (DATE) |pages=1728–1733 |doi=10.23919/DATE48585.2020.9116294 |isbn=978-3-9819263-4-7 |s2cid=219858480}}</ref><ref>{{Cite web |last=Quested |first=Tony |title=एसेक्स इनोवेशन के साथ स्मार्टफोन और स्मार्ट हो जाते हैं|work=Business Weekly |url=https://www.businessweekly.co.uk/news/academia-research/smartphones-get-smarter-essex-innovation |url-status=live |access-date=2021-06-17}}</ref><ref>{{Cite web |last=Williams |first=Rhiannon |date=2020-07-21 |title=भविष्य के स्मार्टफोन 'मालिकों के व्यवहार की निगरानी करके अपनी खुद की बैटरी लाइफ बढ़ाएंगे'|url=https://inews.co.uk/news/technology/future-smartphones-prolong-battery-life-monitoring-behaviour-558689 |url-status=live |access-date=2021-06-17 |website=[[i (newspaper)|i]] |language=en}}</ref>
* आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया (उदाहरण के लिए, [[भविष्य कहनेवाला राज्य प्रतिनिधित्व]] का उपयोग करके)
* आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया (उदाहरण के लिए, [[भविष्य कहनेवाला राज्य प्रतिनिधित्व|भविष्य कहनेवाला अवस्था प्रतिनिधित्व]] का उपयोग करके)
* इनाम समारोह उपन्यास जानकारी को अधिकतम करने पर आधारित है<ref name="kaplan2004">{{cite book |last1=Kaplan |first1=F. |title=सन्निहित आर्टिफिशियल इंटेलिजेंस|last2=Oudeyer |first2=P. |publisher=Springer |year=2004 |isbn=978-3-540-22484-6 |editor-last=Iida |editor-first=F. |series=Lecture Notes in Computer Science |volume=3139 |location=Berlin; Heidelberg |pages=259–270 |chapter=Maximizing learning progress: an internal reward system for development |doi=10.1007/978-3-540-27833-7_19 |s2cid=9781221 |editor2-last=Pfeifer |editor2-first=R. |editor3-last=Steels |editor3-first=L. |editor4-last=Kuniyoshi |editor4-first=Y.}}</ref><ref name="klyubin2008">{{cite journal |last1=Klyubin |first1=A. |last2=Polani |first2=D. |last3=Nehaniv |first3=C. |year=2008 |title=Keep your options open: an information-based driving principle for sensorimotor systems |journal=PLOS ONE |volume=3 |issue=12 |pages=e4018 |bibcode=2008PLoSO...3.4018K |doi=10.1371/journal.pone.0004018 |pmc=2607028 |pmid=19107219 |doi-access=free}}</ref><ref name="barto2013">{{cite book |last=Barto |first=A. G. |url=https://people.cs.umass.edu/~barto/IMCleVer-chapter-totypeset2.pdf |title=प्राकृतिक और कृत्रिम प्रणालियों में आंतरिक रूप से प्रेरित शिक्षा|publisher=Springer |year=2013 |location=Berlin; Heidelberg |pages=17–47 |chapter=Intrinsic motivation and reinforcement learning}}</ref>
* इनाम कार्य उपन्यास जानकारी को अधिकतम करने पर आधारित है<ref name="kaplan2004">{{cite book |last1=Kaplan |first1=F. |title=सन्निहित आर्टिफिशियल इंटेलिजेंस|last2=Oudeyer |first2=P. |publisher=Springer |year=2004 |isbn=978-3-540-22484-6 |editor-last=Iida |editor-first=F. |series=Lecture Notes in Computer Science |volume=3139 |location=Berlin; Heidelberg |pages=259–270 |chapter=Maximizing learning progress: an internal reward system for development |doi=10.1007/978-3-540-27833-7_19 |s2cid=9781221 |editor2-last=Pfeifer |editor2-first=R. |editor3-last=Steels |editor3-first=L. |editor4-last=Kuniyoshi |editor4-first=Y.}}</ref><ref name="klyubin2008">{{cite journal |last1=Klyubin |first1=A. |last2=Polani |first2=D. |last3=Nehaniv |first3=C. |year=2008 |title=Keep your options open: an information-based driving principle for sensorimotor systems |journal=PLOS ONE |volume=3 |issue=12 |pages=e4018 |bibcode=2008PLoSO...3.4018K |doi=10.1371/journal.pone.0004018 |pmc=2607028 |pmid=19107219 |doi-access=free}}</ref><ref name="barto2013">{{cite book |last=Barto |first=A. G. |url=https://people.cs.umass.edu/~barto/IMCleVer-chapter-totypeset2.pdf |title=प्राकृतिक और कृत्रिम प्रणालियों में आंतरिक रूप से प्रेरित शिक्षा|publisher=Springer |year=2013 |location=Berlin; Heidelberg |pages=17–47 |chapter=Intrinsic motivation and reinforcement learning}}</ref>
* नमूना-आधारित योजना (जैसे, [[मोंटे कार्लो ट्री खोज]] पर आधारित)।
* नमूना-आधारित योजना (जैसे, [[मोंटे कार्लो ट्री खोज]] पर आधारित)।
* प्रतिभूति व्यापार<ref>{{cite journal |last1=Dabérius |first1=Kevin |last2=Granat |first2=Elvin |last3=Karlsson |first3=Patrik |date=2020 |title=डीप एक्ज़ीक्यूशन - ट्रेडिंग और बीटिंग मार्केट बेंचमार्क के लिए मूल्य और नीति आधारित सुदृढीकरण सीखना|ssrn=3374766 |journal=The Journal of Machine Learning in Finance |volume=1}}</ref>
* प्रतिभूति व्यापार<ref>{{cite journal |last1=Dabérius |first1=Kevin |last2=Granat |first2=Elvin |last3=Karlsson |first3=Patrik |date=2020 |title=डीप एक्ज़ीक्यूशन - ट्रेडिंग और बीटिंग मार्केट बेंचमार्क के लिए मूल्य और नीति आधारित सुदृढीकरण सीखना|ssrn=3374766 |journal=The Journal of Machine Learning in Finance |volume=1}}</ref>
* [[ सीखने को स्थानांतरित करें ]]<ref>{{Cite journal|last1=George Karimpanal|first1=Thommen|last2=Bouffanais|first2=Roland|date=2019|title=सुदृढीकरण सीखने में ज्ञान के भंडारण और हस्तांतरण के लिए स्व-आयोजन मानचित्र|journal=Adaptive Behavior|language=en|volume=27|issue=2|pages=111–126|doi=10.1177/1059712318818568|issn=1059-7123|arxiv=1811.08318|s2cid=53774629}}</ref>
* [[ सीखने को स्थानांतरित करें ]]<ref>{{Cite journal|last1=George Karimpanal|first1=Thommen|last2=Bouffanais|first2=Roland|date=2019|title=सुदृढीकरण सीखने में ज्ञान के भंडारण और हस्तांतरण के लिए स्व-आयोजन मानचित्र|journal=Adaptive Behavior|language=en|volume=27|issue=2|pages=111–126|doi=10.1177/1059712318818568|issn=1059-7123|arxiv=1811.08318|s2cid=53774629}}</ref>
* टीडी लर्निंग मॉडलिंग [[डोपामाइन]]-आधारित लर्निंग इन द ब्रेन। मूल नाइग्रा से [[बेसल गैन्ग्लिया]] फ़ंक्शन तक [[डोपामिनर्जिक]] अनुमान पूर्वानुमान त्रुटि हैं।
* टीडी लर्निंग मॉडलिंग [[डोपामाइन]]-आधारित लर्निंग इन द ब्रेन मूल नाइग्रा से [[बेसल गैन्ग्लिया]] कार्य तक [[डोपामिनर्जिक]] अनुमान पूर्वानुमान त्रुटि हैं।
* मूल्य-फ़ंक्शन और नीति खोज विधियाँ
* मूल्य-कार्य और नीति खोज विधियाँ


== सुदृढीकरण सीखने के एल्गोरिदम की तुलना ==
== सुदृढीकरण सीखने के एल्गोरिदम की तुलना ==
{| class="wikitable sortable"
{| class="wikitable sortable"
|-
|-
! Algorithm !! Description !!Policy !! Action space !! State space !! Operator
! एल्गोरिथ्म !! विवरण !!नीति !! क्रिया स्थान !! अवस्था स्थान !! संचालिका
|-
|-
| [[Monte Carlo method|Monte Carlo]] || Every visit to Monte Carlo ||  Either || Discrete || Discrete || Sample-means
| [[Monte Carlo method|मोंटे कार्लो]] || मोंटे कार्लो की हर यात्रा ||  दोनों में से एक || पृथक || पृथक || प्रतिदर्श-साधन
|-
|-
| [[Q-learning]] || State–action–reward–state ||  Off-policy || Discrete || Discrete || Q-value
| [[Q-learning|क्यू-लर्निंग]] || अवस्था -कार्रवाई-इनाम-अवस्था ||  ऑफ नीति || पृथक || पृथक || क्यू-मूल्य
|-
|-
| [[State–action–reward–state–action|SARSA]] || State–action–reward–state–action || On-policy || Discrete || Discrete || Q-value
| [[State–action–reward–state–action|सार्सा]] || स्टेट-एक्शन-इनाम-स्टेट-एक्शन || ऑन-नीति || पृथक || पृथक || क्यू-मूल्य
|-
|-
| [[Q-learning]] - Lambda || State–action–reward–state with eligibility traces||  Off-policy || Discrete || Discrete || Q-value
| क्यू-लर्निंग - लैम्ब्डा || अवस्था -कार्रवाई-इनाम-अवस्था योग्यता के निशान के साथ||  ऑफ नीति || पृथक || पृथक || क्यू-मूल्य
|-
|-
| [[State–action–reward–state–action|SARSA]] - Lambda || State–action–reward–state–action with eligibility traces || On-policy || Discrete || Discrete || Q-value
| सरसा - लैम्ब्डा || योग्यता के निशान के साथ अवस्था -कार्रवाई-इनाम-अवस्था -कार्रवाई || ऑन-नीति || पृथक || पृथक || क्यू-मूल्य
|-
|-
| [[Q-learning#Deep Q-learning|DQN]] || Deep Q Network || Off-policy || Discrete || Continuous || Q-value
| [[Q-learning#Deep Q-learning|डीक्यूएन]] || डीप क्यू नेटवर्क || ऑफ नीति || पृथक || निरंतर || क्यू-मूल्य
|-
|-
| DDPG || Deep Deterministic Policy Gradient || Off-policy || Continuous || Continuous || Q-value
| डीडीपीजी || दीप नियतात्मक नीति ढाल || ऑफ नीति || निरंतर || निरंतर || क्यू-मूल्य
|-
|-
| A3C || Asynchronous Advantage Actor-Critic Algorithm || On-policy || Continuous || Continuous || Advantage
| ए3सी || एसिंक्रोनस एडवांटेज एक्टर-क्रिटिक एल्गोरिथम || ऑन-नीति || निरंतर || निरंतर || लाभ
|-
|-
| NAF || Q-Learning with Normalized Advantage Functions || Off-policy || Continuous || Continuous || Advantage
| एनएएफ || सामान्यीकृत लाभ कार्यों के साथ क्यू-लर्निंग || ऑफ नीति || निरंतर || निरंतर || लाभ
|-
|-
| TRPO || Trust Region Policy Optimization ||  On-policy || Continuous or Discrete || Continuous || Advantage
| टीआरपीओ || विश्वास क्षेत्र नीति अनुकूलन ||  ऑन-नीति || निरंतर और पृथक || निरंतर || लाभ
|-
|-
| [[Proximal Policy Optimization|PPO]] || Proximal Policy Optimization ||  On-policy || Continuous or Discrete || Continuous || Advantage
| [[Proximal Policy Optimization|पीपीओ]] || समीपस्थ नीति अनुकूलन ||  ऑन-नीति || निरंतर और पृथक || निरंतर || लाभ
|-
|-
|TD3
|टीडी3
|Twin Delayed Deep Deterministic Policy Gradient
|ट्विन डिलेड डीप डिटर्मिनिस्टिक पॉलिसी ग्रेडिएंट
|Off-policy
|ऑफ नीति
|Continuous
|निरंतर
|Continuous
|निरंतर
|Q-value
|क्यू-मूल्य
|-
|-
|SAC
|एसएसी
|Soft Actor-Critic
|शीतल अभिनेता-आलोचक
|Off-policy
|ऑफ नीति
|Continuous
|निरंतर
|Continuous
|निरंतर
|Advantage
|लाभ
|}
|}




=== साहचर्य सुदृढीकरण सीखना ===
=== साहचर्य सुदृढीकरण सीखना ===
साहचर्य सुदृढीकरण सीखने के कार्य स्टोकेस्टिक लर्निंग ऑटोमेटा कार्यों और पर्यवेक्षित शिक्षण पैटर्न वर्गीकरण कार्यों के पहलुओं को जोड़ते हैं। साहचर्य सुदृढीकरण सीखने के कार्यों में, सीखने की प्रणाली अपने पर्यावरण के साथ एक बंद लूप में इंटरैक्ट करती है।<ref>{{cite book |last1=Soucek |first1=Branko |title=Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series |date=6 May 1992 |publisher=John Wiley & Sons, Inc |isbn=0-471-55717-X |page=38}}</ref>
साहचर्य सुदृढीकरण सीखने के कार्य स्टोकेस्टिक लर्निंग ऑटोमेटा कार्यों और पर्यवेक्षित शिक्षण प्रतिरूप वर्गीकरण कार्यों के पहलुओं को जोड़ते हैं। साहचर्य सुदृढीकरण सीखने के कार्यों में सीखने की प्रणाली अपने पर्यावरण के साथ एक बंद लूप में इंटरैक्ट करती है।<ref>{{cite book |last1=Soucek |first1=Branko |title=Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series |date=6 May 1992 |publisher=John Wiley & Sons, Inc |isbn=0-471-55717-X |page=38}}</ref>
 
 
=== गहरा सुदृढीकरण सीखना ===
=== गहरा सुदृढीकरण सीखना ===
यह दृष्टिकोण एक गहरे तंत्रिका नेटवर्क का उपयोग करके और स्पष्ट रूप से राज्य स्थान को डिजाइन किए बिना सुदृढीकरण सीखने का विस्तार करता है।<ref name="intro_deep_RL">{{cite journal |first= Vincent|display-authors=etal|last= Francois-Lavet |year=2018 |title= गहन सुदृढीकरण सीखने का एक परिचय|journal=Foundations and Trends in Machine Learning|volume=11 |issue=3–4 |pages=219–354 |doi=10.1561/2200000071|arxiv= 1811.12560 |bibcode=2018arXiv181112560F|s2cid=54434537}</ref> Google [[डीपमाइंड]] द्वारा अटारी गेम सीखने पर किए गए काम ने [[गहन सुदृढीकरण सीखना]] या [[एंड-टू-एंड रीइन्फोर्समेंट लर्निंग]] पर ध्यान बढ़ाया। रेफरी नाम = DQN2 >{{cite journal |first= Volodymyr|display-authors=etal|last= Mnih |year=2015 |title= गहन सुदृढीकरण सीखने के माध्यम से मानव-स्तर पर नियंत्रण|journal=Nature|volume=518 |issue=7540 |pages=529–533 |doi=10.1038/nature14236|pmid= 25719670 |bibcode=2015Natur.518..529M |s2cid=205242740|url=https://www.semanticscholar.org/paper/e0e9a94c4a6ba219e768b4e59f72c18f0a22e23d}}</ref>
यह दृष्टिकोण एक गहरे तंत्रिका नेटवर्क का उपयोग करके और स्पष्ट रूप से अवस्था स्थान को डिजाइन किए बिना सुदृढीकरण सीखने का विस्तार करता है।<ref name="intro_deep_RL">{{cite journal |first= Vincent|display-authors=etal|last= Francois-Lavet |year=2018 |title= गहन सुदृढीकरण सीखने का एक परिचय|journal=Foundations and Trends in Machine Learning|volume=11 |issue=3–4 |pages=219–354 |doi=10.1561/2200000071|arxiv= 1811.12560 |bibcode=2018arXiv181112560F|s2cid=54434537}</ref> गूगल [[डीपमाइंड]] द्वारा अटारी गेम सीखने पर किए गए काम ने गहन सुदृढीकरण सीखना या एंड-टू-एंड रीइन्फोर्समेंट लर्निंग पर ध्यान बढ़ाया है ।


=== प्रतिकूल गहन सुदृढीकरण सीखना ===
=== प्रतिकूल गहन सुदृढीकरण सीखना ===
एडवर्सेरियल डीप रीइन्फोर्समेंट लर्निंग, रीइन्फोर्समेंट लर्निंग में अनुसंधान का एक सक्रिय क्षेत्र है, जो सीखी हुई नीतियों की कमजोरियों पर ध्यान केंद्रित करता है। इस शोध क्षेत्र में कुछ अध्ययनों ने शुरू में दिखाया कि सुदृढीकरण सीखने की नीतियां अगोचर प्रतिकूल जोड़-तोड़ के लिए अतिसंवेदनशील हैं।<ref>{{cite journal |last1= Goodfellow|first1=Ian  |last2=Shlens |first2= Jonathan|last3=Szegedy|first3=Christian|title= विरोधात्मक उदाहरणों की व्याख्या करना और उनका उपयोग करना|journal= International Conference on Learning Representations |date= 2015 |arxiv=1412.6572 }}</ref><ref>{{cite journal |last1= Behzadan|first1=Vahid  |last2=Munir |first2= Arslan|title= पॉलिसी इंडक्शन अटैक के लिए डीप रीइन्फोर्समेंट लर्निंग की भेद्यता|journal= International Conference on Machine Learning and Data Mining in Pattern Recognition |series=Lecture Notes in Computer Science |date= 2017 |volume=10358 |pages=262–275 |doi=10.1007/978-3-319-62416-7_19 |arxiv=1701.04143|isbn=978-3-319-62415-0 |s2cid=1562290 }}</ref><ref>{{Cite book |last=Pieter |first=Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel |url=http://worldcat.org/oclc/1106256905 |title=तंत्रिका नेटवर्क नीतियों पर प्रतिकूल हमले|date=2017-02-07 |oclc=1106256905}}</ref> जबकि इन संवेदनशीलताओं को दूर करने के लिए कुछ तरीकों का प्रस्ताव किया गया है, हाल के अध्ययनों में यह दिखाया गया है कि ये प्रस्तावित समाधान गहन सुदृढीकरण सीखने की नीतियों की वर्तमान कमजोरियों का सटीक प्रतिनिधित्व प्रदान करने से बहुत दूर हैं।<ref>{{cite journal |last1=Korkmaz |first1=Ezgi |date=2022 |title=डीप रीइन्फोर्समेंट लर्निंग नीतियां एमडीपी में साझा विरोधी विशेषताएं सीखें।|journal=Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22) |volume=36 |issue=7 |pages=7229–7238 |doi=10.1609/aaai.v36i7.20684 |arxiv=|s2cid=245219157 |doi-access=free }}</ref>
एडवर्सेरियल डीप रीइन्फोर्समेंट लर्निंग रीइन्फोर्समेंट लर्निंग में अनुसंधान का एक सक्रिय क्षेत्र है जो सीखी हुई नीतियों की कमियों पर ध्यान केंद्रित करता है। इस शोध क्षेत्र में कुछ अध्ययनों ने प्रारंभ में दिखाया कि सुदृढीकरण सीखने की नीतियां अगोचर प्रतिकूल जोड़-तोड़ के लिए अतिसंवेदनशील हैं।<ref>{{cite journal |last1= Goodfellow|first1=Ian  |last2=Shlens |first2= Jonathan|last3=Szegedy|first3=Christian|title= विरोधात्मक उदाहरणों की व्याख्या करना और उनका उपयोग करना|journal= International Conference on Learning Representations |date= 2015 |arxiv=1412.6572 }}</ref><ref>{{cite journal |last1= Behzadan|first1=Vahid  |last2=Munir |first2= Arslan|title= पॉलिसी इंडक्शन अटैक के लिए डीप रीइन्फोर्समेंट लर्निंग की भेद्यता|journal= International Conference on Machine Learning and Data Mining in Pattern Recognition |series=Lecture Notes in Computer Science |date= 2017 |volume=10358 |pages=262–275 |doi=10.1007/978-3-319-62416-7_19 |arxiv=1701.04143|isbn=978-3-319-62415-0 |s2cid=1562290 }}</ref><ref>{{Cite book |last=Pieter |first=Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel |url=http://worldcat.org/oclc/1106256905 |title=तंत्रिका नेटवर्क नीतियों पर प्रतिकूल हमले|date=2017-02-07 |oclc=1106256905}}</ref> जबकि इन संवेदनशीलताओं को दूर करने के लिए कुछ विधियों का प्रस्ताव किया गया है वर्तमान के अध्ययनों में यह दिखाया गया है कि ये प्रस्तावित समाधान गहन सुदृढीकरण सीखने की नीतियों की वर्तमान कमियों का स्पष्ट प्रतिनिधित्व प्रदान करने से बहुत दूर हैं।<ref>{{cite journal |last1=Korkmaz |first1=Ezgi |date=2022 |title=डीप रीइन्फोर्समेंट लर्निंग नीतियां एमडीपी में साझा विरोधी विशेषताएं सीखें।|journal=Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22) |volume=36 |issue=7 |pages=7229–7238 |doi=10.1609/aaai.v36i7.20684 |arxiv=|s2cid=245219157 |doi-access=free }}</ref>
 


=== फ़ज़ी रीइन्फोर्समेंट लर्निंग ===
=== अस्पष्ट सुदृढीकरण सीखना ===
आरएल में [[ फजी नियंत्रण प्रणाली ]] शुरू करके,<ref>{{Cite journal |last=Berenji |first=H.R. |date=1994 |title=Fuzzy Q-learning: a new approach for fuzzy dynamic programming |url=https://ieeexplore.ieee.org/document/343737 |journal=Proc. IEEE 3rd International Fuzzy Systems Conference |location=Orlando, FL, USA |publisher=IEEE |pages=486–491 |doi=10.1109/FUZZY.1994.343737|isbn=0-7803-1896-X |s2cid=56694947 }}</ref> निरंतर स्थान में [[फजी नियम]]ों के साथ स्टेट-एक्शन वैल्यू फ़ंक्शन का अनुमान लगाना संभव हो जाता है। फजी नियमों का IF - THEN रूप इस दृष्टिकोण को प्राकृतिक भाषा के करीब के रूप में परिणामों को व्यक्त करने के लिए उपयुक्त बनाता है। फ़ज़ी रूल इंटरपोलेशन के साथ FRL का विस्तार <ref>{{Cite book |last=Vincze |first=David |title=2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI) |date=2017 |chapter=Fuzzy rule interpolation and reinforcement learning |chapter-url=http://users.iit.uni-miskolc.hu/~vinczed/research/vinczed_sami2017_author_draft.pdf |publisher=IEEE |pages=173–178 |doi=10.1109/SAMI.2017.7880298|isbn=978-1-5090-5655-2 |s2cid=17590120 }}</ref> कार्डिनल नियमों (सबसे महत्वपूर्ण राज्य-कार्रवाई मूल्यों) पर जोर देने के लिए कम आकार के विरल फ़ज़ी नियम-आधारों के उपयोग की अनुमति देता है।
आरएल में फजी नियंत्रण प्रणाली प्रारंभ करके<ref>{{Cite journal |last=Berenji |first=H.R. |date=1994 |title=Fuzzy Q-learning: a new approach for fuzzy dynamic programming |url=https://ieeexplore.ieee.org/document/343737 |journal=Proc. IEEE 3rd International Fuzzy Systems Conference |location=Orlando, FL, USA |publisher=IEEE |pages=486–491 |doi=10.1109/FUZZY.1994.343737|isbn=0-7803-1896-X |s2cid=56694947 }}</ref> निरंतर स्थान में फजी नियम के साथ स्टेट-एक्शन मान कार्य का अनुमान लगाना संभव हो जाता है। फजी नियमों का इफ -देन रूप इस दृष्टिकोण को प्राकृतिक भाषा के समीप के रूप में परिणामों को व्यक्त करने के लिए उपयुक्त बनाता है। फ़ज़ी रूल इंटरपोलेशन के साथ एफआरएल का विस्तार <ref>{{Cite book |last=Vincze |first=David |title=2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI) |date=2017 |chapter=Fuzzy rule interpolation and reinforcement learning |chapter-url=http://users.iit.uni-miskolc.hu/~vinczed/research/vinczed_sami2017_author_draft.pdf |publisher=IEEE |pages=173–178 |doi=10.1109/SAMI.2017.7880298|isbn=978-1-5090-5655-2 |s2cid=17590120 }}</ref> कार्डिनल नियमों (सबसे महत्वपूर्ण अवस्था -कार्रवाई मानो ) पर जोर देने के लिए कम आकार के विरल फ़ज़ी नियम-आधारों के उपयोग की अनुमति देता है।


=== उलटा सुदृढीकरण सीखना ===
=== विपरीत सुदृढीकरण सीखना ===
उलटा सुदृढीकरण सीखने (आईआरएल) में, कोई इनाम समारोह नहीं दिया जाता है। इसके बजाय, एक विशेषज्ञ के देखे गए व्यवहार को देखते हुए इनाम समारोह का अनुमान लगाया जाता है। विचार देखे गए व्यवहार की नकल करना है, जो अक्सर इष्टतम या इष्टतम के करीब होता है।<ref>{{cite book |last1=Ng |first1=A. Y. |last2=Russell |first2=S. J. |year=2000 |chapter=Algorithms for Inverse Reinforcement Learning |title=मशीन लर्निंग पर सत्रहवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही ICML '00 की कार्यवाही|pages=663–670 |isbn=1-55860-707-2 |chapter-url=https://ai.stanford.edu/~ang/papers/icml00-irl.pdf }}</ref>
विपरीत सुदृढीकरण सीखने (आईआरएल) में, कोई इनाम कार्य नहीं दिया जाता है। इसके अतिरिक्त एक विशेषज्ञ के देखे गए व्यवहार को देखते हुए इनाम कार्य का अनुमान लगाया जाता है। विचार देखे गए व्यवहार की नकल करना है जो अधिकांशतः इष्टतम या इष्टतम के समीप होता है।<ref>{{cite book |last1=Ng |first1=A. Y. |last2=Russell |first2=S. J. |year=2000 |chapter=Algorithms for Inverse Reinforcement Learning |title=मशीन लर्निंग पर सत्रहवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही ICML '00 की कार्यवाही|pages=663–670 |isbn=1-55860-707-2 |chapter-url=https://ai.stanford.edu/~ang/papers/icml00-irl.pdf }}</ref>




=== सुरक्षित सुदृढीकरण सीखना ===
=== सुरक्षित सुदृढीकरण सीखना ===
सुरक्षित सुदृढीकरण सीखने (SRL) को सीखने की नीतियों की प्रक्रिया के रूप में परिभाषित किया जा सकता है जो समस्याओं में वापसी की अपेक्षा को अधिकतम करता है जिसमें उचित प्रणाली प्रदर्शन सुनिश्चित करना और/या सीखने और/या परिनियोजन प्रक्रियाओं के दौरान सुरक्षा बाधाओं का सम्मान करना महत्वपूर्ण है।<ref>{{cite journal |last1=García |first1=Javier |last2=Fernández |first2=Fernando |title=सुरक्षित सुदृढीकरण सीखने पर एक व्यापक सर्वेक्षण|url=https://jmlr.org/papers/volume16/garcia15a/garcia15a.pdf |journal=The Journal of Machine Learning Research |date=1 January 2015 |volume=16 |issue=1 |pages=1437–1480 }}</ref>
सुरक्षित सुदृढीकरण सीखने (एसआरएल) को सीखने की नीतियों की प्रक्रिया के रूप में परिभाषित किया जा सकता है जो समस्याओं में वापसी की अपेक्षा को अधिकतम करता है जिसमें उचित प्रणाली प्रदर्शन सुनिश्चित करना और/या सीखने और/या परिनियोजन प्रक्रियाओं के समय सुरक्षा बाधाओं का सम्मान करना महत्वपूर्ण है।<ref>{{cite journal |last1=García |first1=Javier |last2=Fernández |first2=Fernando |title=सुरक्षित सुदृढीकरण सीखने पर एक व्यापक सर्वेक्षण|url=https://jmlr.org/papers/volume16/garcia15a/garcia15a.pdf |journal=The Journal of Machine Learning Research |date=1 January 2015 |volume=16 |issue=1 |pages=1437–1480 }}</ref>




Line 349: Line 349:
* [https://lilianweng.github.io/posts/2018-02-19-rl-overview/ A (Long) Peek into Reinforcement Learning]
* [https://lilianweng.github.io/posts/2018-02-19-rl-overview/ A (Long) Peek into Reinforcement Learning]


{{Differentiable computing}}
[[Category:Articles with hatnote templates targeting a nonexistent page]]
{{Computer science}}
[[Category:CS1 English-language sources (en)]]
[[Category: सुदृढीकरण सीखना | सुदृढीकरण सीखना ]] [[Category: मार्कोव मॉडल]] [[Category: विश्वास संशोधन]]  
[[Category:CS1 maint]]
 
[[Category:Collapse templates]]
 
 
[[Category: Machine Translated Page]]
[[Category:Created On 29/05/2023]]
[[Category:Created On 29/05/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Multi-column templates]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages using div col with small parameter]]
[[Category:Pages with script errors]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Translated in Hindi]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates generating microformats]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Templates using under-protected Lua modules]]
[[Category:Webarchive template wayback links]]
[[Category:Wikipedia fully protected templates|Div col]]
[[Category:Wikipedia metatemplates]]
[[Category:मार्कोव मॉडल]]
[[Category:विश्वास संशोधन]]
[[Category:सुदृढीकरण सीखना| सुदृढीकरण सीखना ]]

Latest revision as of 16:37, 18 September 2023



रीइंफोर्समेंट लर्निंग (आरएल) मशीन लर्निंग का एक क्षेत्र है जो इस बात से संबंधित है कि बुद्धिमान एजेंटों को संचयी इनाम की धारणा को अधिकतम करने के लिए पर्यावरण में कार्रवाई कैसे करनी चाहिए। रीइन्फोर्समेंट लर्निंग सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग के साथ-साथ तीन मूलभूत मशीन लर्निंग प्रतिमानों में से एक है।

सुदृढीकरण सीखना पर्यवेक्षित शिक्षण से भिन्न होता है जिसमें लेबल किए गए इनपुट/आउटपुट जोड़े प्रस्तुत करने की आवश्यकता नहीं होती है और उप-इष्टतम क्रियाओं को स्पष्ट रूप से ठीक करने की आवश्यकता नहीं होती है। इसके अतिरिक्त ध्यान अन्वेषण (अज्ञात क्षेत्र का) और शोषण (वर्तमान ज्ञान का) के बीच संतुलन खोजने पर है।[1]

पर्यावरण को सामान्यतः मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में कहा जाता है, क्योंकि इस संदर्भ के लिए कई सुदृढीकरण सीखने वाले एल्गोरिदम डायनामिक प्रोग्रामिंग विधियों का उपयोग करते हैं।[2] मौलिक डायनामिक प्रोग्रामिंग विधियों और सुदृढीकरण सीखने के एल्गोरिदम के बीच मुख्य अंतर यह है कि बाद वाले एमडीपी के एक स्पष्ट गणितीय मॉडल के ज्ञान को नहीं मानते हैं और वे बड़े एमडीपी को लक्षित करते हैं जहां स्पष्ट विधि अव्यवहारिक हो जाते हैं।

परिचय

इसकी व्यापकता के कारण खेल सिद्धांत कंट्रोल सिद्धांत गतिविधि अनुसंधान सूचना सिद्धांत अनुकरण आधारित अनुकूलन बहु एजेंट प्रणाली और आंकड़े जैसे कई विषयों में रीइन्फोर्समेंट लर्निंग का अध्ययन किया जाता है। संचालन अनुसंधान और नियंत्रण साहित्य में सुदृढीकरण सीखने को अनुमानित डायनामिक प्रोग्रामिंग या न्यूरो-डायनामिक प्रोग्रामिंग कहा जाता है। सुदृढीकरण सीखने में रुचि की समस्याओं का इष्टतम नियंत्रण सिद्धांत में भी अध्ययन किया गया है जो अधिकत्तर इष्टतम समाधानों के अस्तित्व और लक्षण वर्णन से संबंधित है और उनकी स्पष्ट गणना के लिए एल्गोरिदम और सीखने या सन्निकटन के साथ कम विशेष रूप से अनुपस्थिति में पर्यावरण का गणितीय मॉडल अर्थशास्त्र और गेम सिद्धांत में रीइन्फोर्समेंट लर्निंग का उपयोग यह समझाने के लिए किया जा सकता है कि बाध्य तर्कसंगतता के तहत संतुलन कैसे उत्पन्न हो सकता है।

मूलभूत सुदृढीकरण सीखने को मार्कोव निर्णय प्रक्रिया मार्कोव निर्णय प्रक्रिया (एमडीपी) के रूप में तैयार किया गया है:

  • पर्यावरण और एजेंट अवस्थाओ का एक सेट, S;
  • एजेंट के कार्यों A का एक सेट;
  • संक्रमण की संभावना है (पर समय ) अवस्था से अवस्था कार्रवाई के तहत।
  • कार्रवाई के साथ से में संक्रमण के बाद तत्काल इनाम है।

सुदृढीकरण सीखने का उद्देश्य एजेंट के लिए एक इष्टतम या लगभग-इष्टतम नीति सीखना है जो इनाम कार्य या अन्य उपयोगकर्ता द्वारा प्रदान किए गए सुदृढीकरण संकेत को अधिकतम करता है जो तत्काल पुरस्कारों से जमा होता है। यह पशु मनोविज्ञान में होने वाली प्रक्रियाओं के समान है। उदाहरण के लिए जैविक सर दर्द और भूख जैसे संकेतों को नकारात्मक सुदृढीकरण के रूप में व्याख्या करने के लिए कठोर होते हैं और सकारात्मक सुदृढीकरण के रूप में आनंद और भोजन के सेवन की व्याख्या करते हैं। कुछ परिस्थितियों में, जानवर इन पुरस्कारों को अनुकूलित करने वाले व्यवहारों में सम्मिलित होना सीख सकते हैं। इससे पता चलता है कि जानवर सुदृढीकरण सीखने में सक्षम हैं।[3][4]

एक मूलभूत सुदृढीकरण सीखने वाला एजेंट AI अपने पर्यावरण के साथ असतत समय चरणों में परस्पर क्रिया करता है। प्रत्येक समय t पर, एजेंट को वर्तमान स्थिति और पुरस्कार प्राप्त होता है। इसके बाद यह उपलब्ध क्रियाओं के सेट से एक क्रिया चुनता है, जिसे बाद में पर्यावरण को भेजा जाता है। पर्यावरण एक नई अवस्था में जाता है और संक्रमण से जुड़ा इनाम निर्धारित होता है। सुदृढीकरण सीखने वाले एजेंट का लक्ष्य एक नीति सीखना है: , जो अपेक्षित संचयी इनाम को अधिकतम करता है।

एमडीपी के रूप में समस्या का सूत्रीकरण यह मानता है कि एजेंट वर्तमान पर्यावरणीय स्थिति को सीधे देखता है इस स्थिति में कहा जाता है कि समस्या का पूर्ण अवलोकन है। यदि एजेंट के पास केवल अवस्थाओ के एक सबसेट तक पहुंच है,या यदि देखे गए अवस्था ध्वनि से दूषित हैं तो एजेंट को आंशिक अवलोकन क्षमता कहा जाता है और औपचारिक रूप से समस्या को आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया के रूप में तैयार किया जाना चाहिए। दोनों ही स्थिति में एजेंट के लिए उपलब्ध कार्रवाइयों के सेट को प्रतिबंधित किया जा सकता है. उदाहरण के लिए खाते की शेष राशि की स्थिति सकारात्मक होने के लिए प्रतिबंधित की जा सकती है; यदि अवस्था का वर्तमान मान 3 है और अवस्था संक्रमण मान को 4 से कम करने का प्रयास करता है, तो संक्रमण की अनुमति नहीं दी जाएगी।

जब एजेंट के प्रदर्शन की तुलना एक ऐसे एजेंट से की जाती है जो उत्तम विधि से काम करता है, तो प्रदर्शन में अंतर शोक की धारणा (गेम सिद्धांत ) को जन्म देता है। उत्तम विधि से कार्य करने के लिए एजेंट को अपने कार्यों के दीर्घकालिक परिणामों (अर्थात भविष्य की आय को अधिकतम करना) के बारे में तर्क करना चाहिए, चूँकि इससे जुड़ा तत्काल इनाम नकारात्मक हो सकता है।

इस प्रकार सुदृढीकरण सीखना विशेष रूप से उन समस्याओं के अनुकूल है जिनमें दीर्घकालिक बनाम अल्पकालिक इनाम व्यापार बंद सम्मिलित है। इसे रोबोट नियंत्रण, एलिवेटर शेड्यूलिंग, दूरसंचार, बैकगैमौन, चेकर्स और गो (अल्फागो) सहित विभिन्न समस्याओं पर सफलतापूर्वक प्रयुक्त किया गया है।

दो तत्व सुदृढीकरण सीखने को शक्तिशाली बनाते हैं: प्रदर्शन को अनुकूलित करने के लिए नमूनों का उपयोग और बड़े वातावरण से निपटने के लिए कार्य सन्निकटन का उपयोग इन दो प्रमुख घटकों के लिए धन्यवाद सुदृढीकरण सीखने का उपयोग निम्नलिखित स्थितियों में बड़े वातावरण में किया जा सकता है:

  • पर्यावरण का एक मॉडल ज्ञात है किन्तु एक बंद रूप अभिव्यक्ति उपलब्ध नहीं है;
  • पर्यावरण का केवल एक सिमुलेशन मॉडल दिया गया है (सिमुलेशन-आधारित अनुकूलन का विषय);[5]
  • पर्यावरण के बारे में जानकारी एकत्र करने का एकमात्र विधि इसके साथ अंतःक्रिया करना है।

इन समस्याओं में से पहली दो समस्याओं को नियोजन समस्या माना जा सकता है (चूंकि मॉडल का कोई रूप उपलब्ध है) जबकि अंतिम समस्या को वास्तविक सीखने की समस्या माना जा सकता है। चूँकि सुदृढीकरण सीखने से दोनों नियोजन समस्याओं को मशीन सीखने की समस्याओं में बदल दिया जाता है।

अन्वेषण

बर्नेटास और कटेहाकिस (1997) में बहु-हथियारबंद दस्यु समस्या और परिमित अवस्था अंतरिक्ष एमडीपी के माध्यम से अन्वेषण बनाम शोषण व्यापार-बंद का सबसे गहन अध्ययन किया गया है।[6]

सुदृढीकरण सीखने के लिए चतुर अन्वेषण तंत्र की आवश्यकता होती है; अनुमानित संभाव्यता वितरण के संदर्भ के बिना व्यवस्थित विधि से क्रियाओं का चयन करना खराब प्रदर्शन दर्शाता है। (छोटे) परिमित एमडीपी का स्थति अपेक्षाकृत अच्छी तरह से समझा गया है। चूँकि एल्गोरिदम की कमी के कारण जो अवस्थाओ की संख्या (या अनंत अवस्था रिक्त स्थान के साथ समस्याओं के मापदंड) के साथ अच्छी तरह से स्केल करते हैं सरल अन्वेषण विधियां सबसे व्यावहारिक हैं।

ऐसा ही एक विधि है -ग्रीडी जहां एक पैरामीटर है जो अन्वेषण बनाम शोषण की मात्रा को नियंत्रित करता है। प्रायिकता के साथ शोषण का चयन किया जाता है, और एजेंट उस क्रिया को चुनता है जिसके बारे में उसका मानना है कि इसका सबसे अच्छा दीर्घकालिक प्रभाव होता है (कार्रवाई के बीच संबंध यादृच्छिक रूप से समान रूप से टूट जाते हैं)। वैकल्पिक रूप से प्रायिकता के साथ अन्वेषण को चुना जाता है और क्रिया को यादृच्छिक रूप से समान रूप से चुना जाता है। सामान्यतः एक निश्चित पैरामीटर होता है, किन्तु या तो एक शेड्यूल के अनुसार समायोजित किया जा सकता है (एजेंट को उत्तरोत्तर कम खोजता है) या अनुकूली रूप से ह्यूरिस्टिक्स पर आधारित होता है।

नियंत्रण सीखने के लिए एल्गोरिदम

यहां तक ​​​​कि यदि अन्वेषण के उद्देश्य की अवहेलना की जाती है और यहां तक ​​​​कि यदि अवस्था अवलोकनीय था (इसके बाद माना जाता है) समस्या यह पता लगाने के लिए पिछले अनुभव का उपयोग करने के लिए बनी हुई है कि कौन से कार्य उच्च संचयी पुरस्कारों की ओर ले जाते हैं।

इष्टतमता का मानदंड

नीति

एजेंट की कार्रवाई का चयन एक मानचित्र के रूप में किया जाता है जिसे नीति कहा जाता है:

नीति मानचित्र जब स्थिति में कार्रवाई करने की संभावना देता है। .[7]: 61  नियतात्मक नीतियां भी हैं।

अवस्था -मान कार्य

मान कार्य के रूप में परिभाषित किया गया है अवस्था से प्रारंभ होने वाली अपेक्षित वापसी , अर्थात , और क्रमिक रूप से नीति का पालन करना . इसलिए, मोटे तौर पर बोलते हुए, मान कार्य का अनुमान है कि यह किसी दिए गए अवस्था में कितना अच्छा है।[7]: 60 

जहां यादृच्छिक चर वापसी को दर्शाता है, और इसे भविष्य के रियायती पुरस्कारों के योग के रूप में परिभाषित किया गया है:

जहां चरण पर पुरस्कार है छूट-दर है। गामा 1 से कम है इसलिए दूर के भविष्य की घटनाओं को तत्काल भविष्य की घटनाओं से कम भारित किया जाता है।

एल्गोरिद्म को अधिकतम प्रत्याशित प्रतिफल वाली नीति खोजनी चाहिए। एमडीपी के सिद्धांत से यह ज्ञात होता है कि सामान्यता के हानि के बिना खोज को तथाकथित स्थिर नीतियों के सेट तक सीमित किया जा सकता है। एक नीति स्थिर होती है यदि उसके द्वारा लौटाया गया क्रिया-वितरण केवल अंतिम सीमा पर निर्भर करता है (अवलोकन एजेंट के इतिहास से)। खोज को नियतात्मक स्थिर नीतियों तक सीमित किया जा सकता है। एक नियतात्मक स्थिर नीति निश्चित रूप से वर्तमान स्थिति के आधार पर क्रियाओं का चयन करती है। चूंकि इस तरह की किसी भी नीति को अवस्थाओ के सेट से लेकर कार्रवाई के सेट तक मैपिंग के साथ पहचाना जा सकता है, इसलिए इन नीतियों की पहचान ऐसे मैपिंग से की जा सकती है, जिसमें व्यापकता का कोई हानि नहीं है।

क्रूर बल

क्रूर-बल खोज एप्रोच में दो चरण होते हैं:

  • प्रत्येक संभावित नीति के लिए, इसका पालन करते हुए नमूना रिटर्न
  • अधिकतम प्रत्याशित रिटर्न वाली पॉलिसी चुनें

इसके साथ एक समस्या यह है कि नीतियों की संख्या बड़ी या अनंत भी हो सकती है। दूसरा यह है कि रिटर्न का अंतर बड़ा हो सकता है, जिसके लिए प्रत्येक पॉलिसी की वापसी का स्पष्ट अनुमान लगाने के लिए कई नमूनों की आवश्यकता होती है।

इन समस्याओं में सुधार किया जा सकता है यदि हम कुछ संरचना मान लें और एक नीति से उत्पन्न नमूनों को दूसरों के लिए किए गए अनुमानों को प्रभावित करने की अनुमति दें। इसे प्राप्त करने के लिए दो मुख्य दृष्टिकोण मूल्य प्रकार्य अनुमान और प्रत्यक्ष नीति खोज हैं।

मान कार्य

मान कार्य दृष्टिकोण ऐसी नीति खोजने का प्रयास करता है जो कुछ नीति के लिए अपेक्षित रिटर्न के अनुमानों के एक सेट को बनाए रखते हुए रिटर्न को अधिकतम करता है (सामान्यतः या तो वर्तमान [ऑन-पॉलिसी] या इष्टतम [ऑफ-पॉलिसी] एक)।

ये विधियाँ मार्कोव निर्णय प्रक्रियाओं के सिद्धांत पर निर्भर करती हैं, जहाँ इष्टतमता को एक अर्थ में परिभाषित किया गया है जो ऊपर वाले से अधिक शक्तिशाली है: एक नीति को इष्टतम कहा जाता है यदि यह किसी भी प्रारंभिक अवस्था से सर्वोत्तम-प्रत्याशित प्रतिफल प्राप्त करती है (अर्थात, प्रारंभिक वितरण नहीं खेलते हैं) इस परिभाषा में भूमिका) फिर से स्थिर नीतियों के बीच एक इष्टतम नीति सदैव पाई जा सकती है।

इष्टतमता को औपचारिक विधि से परिभाषित करने के लिए, नीति के मान को परिभाषित करें

जहाँ निम्नलिखित से जुड़े रिटर्न के लिए खड़ा है प्रारंभिक अवस्था से . परिभाषित के अधिकतम संभव मान के रूप में , जहाँ बदलने की अनुमति है,

एक नीति जो प्रत्येक अवस्था में इन इष्टतम मानो को प्राप्त करती है, इष्टतम कहलाती है। स्पष्ट रूप से, एक नीति जो इस शक्तिशाली अर्थ में इष्टतम है, इस अर्थ में भी इष्टतम है कि यह अपेक्षित प्रतिफल को अधिकतम करती है , तब से , जहाँ वितरण से बेतरतीब विधि से नमूना लिया गया अवस्था है प्रारंभिक अवस्थाओं की (इसलिए ).

यद्यपि अवस्था -मान इष्टतमता को परिभाषित करने के लिए पर्याप्त हैं, यह क्रिया-मानो को परिभाषित करने के लिए उपयोगी है। एक अवस्था दिया , एक कार्यवाही और एक नीति , जोड़ी का क्रिया-मान अंतर्गत द्वारा परिभाषित किया गया है

जहां अब अवस्था में पहली बार कार्रवाई करने और उसके बाद के बाद से जुड़े यादृच्छिक रिटर्न के लिए है।

एमडीपी के सिद्धांत में कहा गया है कि यदि एक इष्टतम नीति है, हम कार्रवाई का चयन करके इष्टतम रूप से कार्य करते हैं (इष्टतम कार्रवाई करें)। प्रत्येक अवस्था में उच्चतम मान के साथ, . ऐसी इष्टतम नीति का क्रिया-मान कार्य () को इष्टतम क्रिया-मान कार्य कहा जाता है और सामान्यतः इसे निरूपित किया जाता है . संक्षेप में, केवल इष्टतम क्रिया-मान कार्य का ज्ञान ही यह जानने के लिए पर्याप्त है कि उत्तम विधि से कैसे कार्य किया जाए।

एमडीपी के पूर्ण ज्ञान को मानते हुए, इष्टतम क्रिया-मान कार्य की गणना करने के लिए दो मूलभूत दृष्टिकोण मान पुनरावृत्ति और नीति पुनरावृत्ति हैं। दोनों एल्गोरिदम कार्यों के अनुक्रम की गणना करते हैं () जो अभिसरण करता है . इन कार्यों की गणना में पूरे अवस्था -स्थान पर अपेक्षाओं की गणना करना सम्मिलित है जो कि सबसे छोटे (परिमित) एमडीपी के अतिरिक्त सभी के लिए अव्यावहारिक है। सुदृढीकरण सीखने के विधियों में, बड़े अवस्था -कार्रवाई स्थानों पर मान कार्यों का प्रतिनिधित्व करने की आवश्यकता से निपटने के लिए नमूनों पर औसत और कार्य सन्निकटन विधियों का उपयोग करके अपेक्षाओं का अनुमान लगाया जाता है।

मोंटे कार्लो के विधि

मोंटे कार्लो नमूनाकरण का उपयोग एल्गोरिथम में किया जा सकता है जो नीति पुनरावृत्ति की नकल करता है। नीति पुनरावृत्ति में दो चरण होते हैं: नीति मूल्यांकन और नीति सुधार है ।

मोंटे कार्लो का उपयोग नीति मूल्यांकन चरण में किया जाता है। इस चरण में, एक स्थिर, नियतात्मक नीति दी गई है , लक्ष्य कार्य मानों की गणना करना है (या उनके लिए एक अच्छा सन्निकटन) सभी स्टेट-एक्शन जोड़े के लिए . मान लें (सरलता के लिए) कि एमडीपी परिमित है, कार्रवाई-मानो को समायोजित करने के लिए पर्याप्त मेमोरी उपलब्ध है और यह कि समस्या एपिसोडिक है और प्रत्येक एपिसोड के बाद कुछ यादृच्छिक प्रारंभिक अवस्था से एक नया प्रारंभ होता है। फिर किसी दिए गए स्टेट-एक्शन जोड़ी के मान का अनुमान से उत्पन्न होने वाले नमूना रिटर्न के औसत से गणना की जा सकती है अधिक समय तक। पर्याप्त समय दिया गया है, इस प्रकार यह प्रक्रिया एक स्पष्ट अनुमान का निर्माण कर सकती है क्रिया-मान कार्य का . यह नीति मूल्यांकन चरण के विवरण को समाप्त करता है।

नीति सुधार चरण में, के संबंध में ग्रीडी नीति की गणना करके अगली नीति प्राप्त की जाती है : एक अवस्था दिया , यह नई नीति अधिकतम करने वाली कार्रवाई लौटाती है . व्यावहारिक रूप से आलसी मूल्यांकन अधिकतम क्रियाओं की गणना को तब तक के लिए टाल सकता है जब उनकी आवश्यकता होती है।

इस प्रक्रिया की समस्याओं में सम्मिलित हैं:

1. प्रक्रिया में एक उप-इष्टतम नीति का मूल्यांकन करने में बहुत अधिक समय लग सकता है।

2. यह नमूने का अक्षमता से उपयोग करता है जिसमें एक लंबा प्रक्षेपवक्र केवल एकल अवस्था -क्रिया जोड़ी के अनुमान में सुधार करता है जिसने प्रक्षेपवक्र प्रारंभ किया।

3. जब प्रक्षेपवक्र के साथ रिटर्न में उच्च विचरण होता है, तो अभिसरण धीमा होता है।

4. यह एपिसोडिक समस्या में ही काम करता है।

5. यह छोटे, सीमित एमडीपी में ही काम करता है।

अस्थायी अंतर के विधि

मानो के व्यवस्थित होने से पहले प्रक्रिया को (कुछ या सभी अवस्थाओ में) नीति को बदलने की अनुमति देकर पहली समस्या को ठीक किया जाता है। यह भी समस्याग्रस्त हो सकता है क्योंकि यह अभिसरण को रोक सकता है। अधिकांश वर्तमान एल्गोरिदम ऐसा करते हैं सामान्यीकृत नीति पुनरावृत्ति एल्गोरिदम के वर्ग को जन्म देते हैं। अनेक अभिनेता-आलोचक विधियां इसी श्रेणी में आती हैं।

दूसरे उद्देश्य को प्रक्षेपवक्र को उनमें किसी भी अवस्था -एक्शन जोड़ी में योगदान करने की अनुमति देकर ठीक किया जा सकता है। यह तीसरी समस्या के साथ कुछ सीमा तक सहायता कर सकता है चूँकि एक उत्तम समाधान जब रिटर्न में उच्च विचरण होता है तो सटन की अस्थायी अंतर (टीडी) पद्धतियां होती हैं जो पुनरावर्ती बेलमैन समीकरण पर आधारित होती हैं।[8][9] टीडी विधियों में गणना वृद्धिशील हो सकती है (जब प्रत्येक संक्रमण के बाद स्मृति बदल जाती है और संक्रमण दूर हो जाता है) या बैच (जब संक्रमण बैच किए जाते हैं और बैच के आधार पर अनुमानों की गणना की जाती है)। बैच विधियाँ जैसे कि कम से कम वर्ग अस्थायी अंतर विधि,[10] नमूनों में जानकारी का उत्तम उपयोग कर सकते हैं, जबकि वृद्धिशील विधियाँ एकमात्र विकल्प हैं जब बैच विधियाँ उनकी उच्च कम्प्यूटेशनल या मेमोरी जटिलता के कारण अक्षम होती हैं। कुछ विधियाँ दो दृष्टिकोणों को संयोजित करने का प्रयास करती हैं। लौकिक भिन्नताओं पर आधारित पद्धतियाँ भी चौथी समस्या को दूर करती हैं।

टीडी के लिए विशिष्ट एक अन्य समस्या पुनरावर्ती बेलमैन समीकरण पर उनकी निर्भरता से आती है। अधिकांश टीडी विधियों में एक तथाकथित है पैरामीटर जो मोंटे कार्लो विधियों के बीच लगातार प्रक्षेपित कर सकता है जो बेलमैन समीकरणों पर विश्वास नहीं करते हैं और मूल टीडी विधियां जो पूरी तरह से बेलमैन समीकरणों पर विश्वास करती हैं। यह इस समस्या को दूर करने में कारगर हो सकता है।

फंक्शन सन्निकटन के विधि

पांचवें उद्देश्य को संबोधित करने के लिए, कार्य सन्निकटन विधियों का उपयोग किया जाता है। रैखिक कार्य सन्निकटन एक मानचित्रण से प्रारंभ होता है जो प्रत्येक अवस्था -क्रिया जोड़ी को एक परिमित-आयामी वेक्टर प्रदान करता है। फिर, अवस्था -क्रिया युग्म के क्रिया मान को कुछ वज़न के साथ के घटकों को रैखिक रूप से जोड़कर प्राप्त किया जाता है।

एल्गोरिदम तब अलग-अलग अवस्था -क्रिया जोड़े से जुड़े मानो को समायोजित करने के अतिरिक्त वजन समायोजित करता है। गैर-पैरामीट्रिक आँकड़ों (जो अपनी स्वयं की विशेषताओं का निर्माण करने के लिए देखा जा सकता है) से विचारों पर आधारित विधियों का पता लगाया गया है।

क्यू-लर्निंग एल्गोरिथम और इसके कई वेरिएंट को जन्म देते हुए मान इटरेशन को प्रारंभिक बिंदु के रूप में भी उपयोग किया जा सकता है।[11] स्टोकेस्टिक खोज समस्याओं में विभिन्न अनुप्रयोगों के साथ क्यू का प्रतिनिधित्व करने के लिए एक तंत्रिका नेटवर्क का उपयोग करते समय डीप क्यू-लर्निंग विधियों को सम्मिलित करना है।[12]

क्रिया-मानो का उपयोग करने में समस्या यह है कि उन्हें प्रतिस्पर्धात्मक क्रिया मानो के अत्यधिक स्पष्ट अनुमानों की आवश्यकता हो सकती है जो रिटर्न ध्वनि होने पर प्राप्त करना कठिन हो सकता है चूँकि अस्थायी अंतर विधियों द्वारा इस समस्या को कुछ सीमा तक कम किया जाता है। तथाकथित संगत कार्य सन्निकटन पद्धति का उपयोग करना सामान्यता और दक्षता से समझौता करता है।

प्रत्यक्ष नीति खोज

एक वैकल्पिक विधि पॉलिसी स्पेस (कुछ सबसेट) में सीधे खोज करना है जिस स्थिति में समस्या स्टोचैस्टिक अनुकूलन का स्थति बन जाती है। उपलब्ध दो दृष्टिकोण ढाल-आधारित और ढाल-मुक्त विधियाँ हैं।

ढाल-आधारित विधियाँ (नीति ढाल विधियाँ) एक परिमित-आयामी (पैरामीटर) स्थान से नीतियों के स्थान तक मानचित्रण के साथ प्रारंभ होती हैं: पैरामीटर वेक्टर दिया गया है, चलो , से संबंधित नीति को दर्शाता है द्वारा प्रदर्शन कार्य को परिभाषित करना है

हल्के परिस्थितियों में यह कार्य पैरामीटर वेक्टर के कार्य के रूप में अलग-अलग होगा। यदि का ग्रेडिएंट ज्ञात था, तो ग्रेडिएंट एसेंट का उपयोग किया जा सकता है। चूंकि ढाल के लिए एक विश्लेषणात्मक अभिव्यक्ति उपलब्ध नहीं है केवल ध्वनि का अनुमान उपलब्ध है। इस तरह के एक अनुमान को कई विधियों से बनाया जा सकता है जो एल्गोरिदम को जन्म देता है जैसे कि विलियम्स की रीइन्फोर्स विधि (जिसे सिमुलेशन-आधारित अनुकूलन साहित्य में संभावना अनुपात विधि के रूप में जाना जाता है)। रोबोटिक्स के संदर्भ में नीति खोज विधियों का उपयोग किया गया है।[13] कई नीतिगत खोज विधियां स्थानीय ऑप्टिमा में फंस सकती हैं (क्योंकि वे स्थानीय खोज पर आधारित हैं)।[14][15]

विधियों का एक बड़ा वर्ग ढाल की जानकारी पर विश्वास करने से बचता है। इनमें तैयार किए हुयी धातु पे पानी चढाने की कला , क्रॉस-एन्ट्रॉपी विधि क्रॉस-एन्ट्रॉपी खोज या विकासवादी संगणना के विधि सम्मिलित हैं। कई ग्रेडियेंट-मुक्त विधियां वैश्विक इष्टतम (सिद्धांत रूप में और सीमा में) प्राप्त कर सकती हैं।

नीति खोज पद्धति धीरे-धीरे दिए गए ध्वनि वाले डेटा को अभिसरण कर सकती है। उदाहरण के लिए यह एपिसोडिक समस्याओं में होता है जब प्रक्षेपवक्र लंबे होते हैं और रिटर्न का विचरण बड़ा होता है। मूल्य-कार्य आधारित विधियाँ जो लौकिक अंतरों पर निर्भर करती हैं इस स्थिति में सहायता कर सकती हैं। वर्तमान के वर्षों में अभिनेता-आलोचक विधियों का प्रस्ताव किया गया है और विभिन्न समस्याओं पर अच्छा प्रदर्शन किया है।[16]


मॉडल-आधारित एल्गोरिदम

अंत में उपरोक्त सभी विधियों को एल्गोरिदम के साथ जोड़ा जा सकता है जो पहले एक मॉडल सीखते हैं। उदाहरण के लिए डायना एल्गोरिथम[17] अनुभव से एक मॉडल सीखता है, और वास्तविक बदलाव के अतिरिक्त मान कार्य के लिए अधिक मॉडल किए गए बदलाव प्रदान करने के लिए उसका उपयोग करता है। इस तरह के विधियों को कभी-कभी गैर-पैरामीट्रिक मॉडल के उपयोग के लिए बढ़ाया जा सकता है जैसे कि जब संक्रमण केवल संग्रहीत होते हैं और सीखने के एल्गोरिदम के लिए 'फिर से चलाए जाते हैं'[18]

मान कार्य को अपडेट करने के अतिरिक्त मॉडल का उपयोग करने के अन्य विधि हैं।[19] उदाहरण के लिए, मॉडल भविष्य कहनेवाला नियंत्रण में मॉडल का उपयोग सीधे व्यवहार को अपडेट करने के लिए किया जाता है।

सिद्धांत

अधिकांश एल्गोरिदम के स्पर्शोन्मुख और परिमित-नमूना व्यवहार दोनों को अच्छी तरह से समझा जाता है। सिद्ध रूप से अच्छे ऑनलाइन प्रदर्शन (अन्वेषण उद्देश्य को संबोधित करते हुए) वाले एल्गोरिद्म ज्ञात हैं।

बर्नेटास और कटेहाकिस (1997) में एमडीपी का कुशल अन्वेषण दिया गया है।[6] कई एल्गोरिदम के लिए परिमित-समय की प्रदर्शन सीमाएँ भी दिखाई दी हैं किन्तु इन सीमाओं के ढीले होने की उम्मीद है और इस प्रकार सापेक्ष लाभों और सीमाओं को उत्तम विधि से समझने के लिए अधिक काम करने की आवश्यकता है।

वृद्धिशील एल्गोरिदम के लिए स्पर्शोन्मुख अभिसरण उद्देश्यों का समाधान किया गया है टेम्पोरल-अंतर-आधारित एल्गोरिदम पहले की तुलना में नियमो के एक व्यापक सेट के तहत अभिसरण करते हैं (उदाहरण के लिए जब इच्छानुसार से सुचारू कार्य सन्निकटन के साथ उपयोग किया जाता है)।

अनुसंधान

शोध विषयों में सम्मिलित हैं:

  • अभिनेता-आलोचक
  • अनुकूली विधियां जो बड़ी संख्या में स्थितियों के तहत कम (या नहीं) पैरामीटर के साथ काम करती हैं
  • सॉफ्टवेयर परियोजनाओं में बग का पता लगाना[20]
  • लगातार सीखना
  • तर्क-आधारित रूपरेखाओं के साथ संयोजन[21]
  • बड़े एमडीपी में अन्वेषण
  • मानव प्रतिक्रिया से सुदृढीकरण सीखना[22]
  • कौशल अधिग्रहण में निहित और स्पष्ट सीखने के बीच परस्पर क्रिया
  • आंतरिक प्रेरणा (कृत्रिम बुद्धिमत्ता) जो सूचना-प्राप्ति जिज्ञासा-प्रकार के व्यवहारों को कार्य-निर्भर लक्ष्य-निर्देशित व्यवहारों से अलग करती है बड़े मापदंड पर अनुभवजन्य मूल्यांकन
  • बड़े (या निरंतर) क्रिया स्थान
  • मॉड्यूलर और पदानुक्रमित सुदृढीकरण सीखना[23]
  • मल्टी-एजेंट/डिस्ट्रीब्यूटेड रिइन्फोर्समेंट लर्निंग रुचि का विषय है। अनुप्रयोगों का विस्तार हो रहा है।[24]
  • निवासी-केंद्रित नियंत्रण
  • कंप्यूटिंग संसाधनों का अनुकूलन[25][26][27]
  • आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया (उदाहरण के लिए, भविष्य कहनेवाला अवस्था प्रतिनिधित्व का उपयोग करके)
  • इनाम कार्य उपन्यास जानकारी को अधिकतम करने पर आधारित है[28][29][30]
  • नमूना-आधारित योजना (जैसे, मोंटे कार्लो ट्री खोज पर आधारित)।
  • प्रतिभूति व्यापार[31]
  • सीखने को स्थानांतरित करें [32]
  • टीडी लर्निंग मॉडलिंग डोपामाइन-आधारित लर्निंग इन द ब्रेन मूल नाइग्रा से बेसल गैन्ग्लिया कार्य तक डोपामिनर्जिक अनुमान पूर्वानुमान त्रुटि हैं।
  • मूल्य-कार्य और नीति खोज विधियाँ

सुदृढीकरण सीखने के एल्गोरिदम की तुलना

एल्गोरिथ्म विवरण नीति क्रिया स्थान अवस्था स्थान संचालिका
मोंटे कार्लो मोंटे कार्लो की हर यात्रा दोनों में से एक पृथक पृथक प्रतिदर्श-साधन
क्यू-लर्निंग अवस्था -कार्रवाई-इनाम-अवस्था ऑफ नीति पृथक पृथक क्यू-मूल्य
सार्सा स्टेट-एक्शन-इनाम-स्टेट-एक्शन ऑन-नीति पृथक पृथक क्यू-मूल्य
क्यू-लर्निंग - लैम्ब्डा अवस्था -कार्रवाई-इनाम-अवस्था योग्यता के निशान के साथ ऑफ नीति पृथक पृथक क्यू-मूल्य
सरसा - लैम्ब्डा योग्यता के निशान के साथ अवस्था -कार्रवाई-इनाम-अवस्था -कार्रवाई ऑन-नीति पृथक पृथक क्यू-मूल्य
डीक्यूएन डीप क्यू नेटवर्क ऑफ नीति पृथक निरंतर क्यू-मूल्य
डीडीपीजी दीप नियतात्मक नीति ढाल ऑफ नीति निरंतर निरंतर क्यू-मूल्य
ए3सी एसिंक्रोनस एडवांटेज एक्टर-क्रिटिक एल्गोरिथम ऑन-नीति निरंतर निरंतर लाभ
एनएएफ सामान्यीकृत लाभ कार्यों के साथ क्यू-लर्निंग ऑफ नीति निरंतर निरंतर लाभ
टीआरपीओ विश्वास क्षेत्र नीति अनुकूलन ऑन-नीति निरंतर और पृथक निरंतर लाभ
पीपीओ समीपस्थ नीति अनुकूलन ऑन-नीति निरंतर और पृथक निरंतर लाभ
टीडी3 ट्विन डिलेड डीप डिटर्मिनिस्टिक पॉलिसी ग्रेडिएंट ऑफ नीति निरंतर निरंतर क्यू-मूल्य
एसएसी शीतल अभिनेता-आलोचक ऑफ नीति निरंतर निरंतर लाभ


साहचर्य सुदृढीकरण सीखना

साहचर्य सुदृढीकरण सीखने के कार्य स्टोकेस्टिक लर्निंग ऑटोमेटा कार्यों और पर्यवेक्षित शिक्षण प्रतिरूप वर्गीकरण कार्यों के पहलुओं को जोड़ते हैं। साहचर्य सुदृढीकरण सीखने के कार्यों में सीखने की प्रणाली अपने पर्यावरण के साथ एक बंद लूप में इंटरैक्ट करती है।[33]

गहरा सुदृढीकरण सीखना

यह दृष्टिकोण एक गहरे तंत्रिका नेटवर्क का उपयोग करके और स्पष्ट रूप से अवस्था स्थान को डिजाइन किए बिना सुदृढीकरण सीखने का विस्तार करता है।[34] गूगल डीपमाइंड द्वारा अटारी गेम सीखने पर किए गए काम ने गहन सुदृढीकरण सीखना या एंड-टू-एंड रीइन्फोर्समेंट लर्निंग पर ध्यान बढ़ाया है ।

प्रतिकूल गहन सुदृढीकरण सीखना

एडवर्सेरियल डीप रीइन्फोर्समेंट लर्निंग रीइन्फोर्समेंट लर्निंग में अनुसंधान का एक सक्रिय क्षेत्र है जो सीखी हुई नीतियों की कमियों पर ध्यान केंद्रित करता है। इस शोध क्षेत्र में कुछ अध्ययनों ने प्रारंभ में दिखाया कि सुदृढीकरण सीखने की नीतियां अगोचर प्रतिकूल जोड़-तोड़ के लिए अतिसंवेदनशील हैं।[35][36][37] जबकि इन संवेदनशीलताओं को दूर करने के लिए कुछ विधियों का प्रस्ताव किया गया है वर्तमान के अध्ययनों में यह दिखाया गया है कि ये प्रस्तावित समाधान गहन सुदृढीकरण सीखने की नीतियों की वर्तमान कमियों का स्पष्ट प्रतिनिधित्व प्रदान करने से बहुत दूर हैं।[38]

अस्पष्ट सुदृढीकरण सीखना

आरएल में फजी नियंत्रण प्रणाली प्रारंभ करके[39] निरंतर स्थान में फजी नियम के साथ स्टेट-एक्शन मान कार्य का अनुमान लगाना संभव हो जाता है। फजी नियमों का इफ -देन रूप इस दृष्टिकोण को प्राकृतिक भाषा के समीप के रूप में परिणामों को व्यक्त करने के लिए उपयुक्त बनाता है। फ़ज़ी रूल इंटरपोलेशन के साथ एफआरएल का विस्तार [40] कार्डिनल नियमों (सबसे महत्वपूर्ण अवस्था -कार्रवाई मानो ) पर जोर देने के लिए कम आकार के विरल फ़ज़ी नियम-आधारों के उपयोग की अनुमति देता है।

विपरीत सुदृढीकरण सीखना

विपरीत सुदृढीकरण सीखने (आईआरएल) में, कोई इनाम कार्य नहीं दिया जाता है। इसके अतिरिक्त एक विशेषज्ञ के देखे गए व्यवहार को देखते हुए इनाम कार्य का अनुमान लगाया जाता है। विचार देखे गए व्यवहार की नकल करना है जो अधिकांशतः इष्टतम या इष्टतम के समीप होता है।[41]


सुरक्षित सुदृढीकरण सीखना

सुरक्षित सुदृढीकरण सीखने (एसआरएल) को सीखने की नीतियों की प्रक्रिया के रूप में परिभाषित किया जा सकता है जो समस्याओं में वापसी की अपेक्षा को अधिकतम करता है जिसमें उचित प्रणाली प्रदर्शन सुनिश्चित करना और/या सीखने और/या परिनियोजन प्रक्रियाओं के समय सुरक्षा बाधाओं का सम्मान करना महत्वपूर्ण है।[42]


यह भी देखें

संदर्भ

  1. Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. S2CID 1708582. Archived from the original on 2001-11-20.
  2. van Otterlo, M.; Wiering, M. (2012). सुदृढीकरण सीखने और मार्कोव निर्णय प्रक्रिया. pp. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6. {{cite book}}: |journal= ignored (help)
  3. Russell, Stuart J.; Norvig, Peter (2010). Artificial intelligence : a modern approach (Third ed.). Upper Saddle River, New Jersey. pp. 830, 831. ISBN 978-0-13-604259-4.{{cite book}}: CS1 maint: location missing publisher (link)
  4. Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 July 2012). "सुदृढीकरण सीखने और निर्णय लेने का तंत्रिका आधार". Annual Review of Neuroscience. 35 (1): 287–308. doi:10.1146/annurev-neuro-062111-150512. PMC 3490621. PMID 22462543.
  5. Gosavi, Abhijit (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Operations Research/Computer Science Interfaces Series. Springer. ISBN 978-1-4020-7454-7.
  6. 6.0 6.1 Burnetas, Apostolos N.; Katehakis, Michael N. (1997), "Optimal adaptive policies for Markov Decision Processes", Mathematics of Operations Research, 22: 222–255, doi:10.1287/moor.22.1.222
  7. 7.0 7.1 "Reinforcement learning: An introduction" (PDF).
  8. Sutton, Richard S. (1984). रिनफोर्समेंट लर्निंग में टेम्पोरल क्रेडिट असाइनमेंट (PhD thesis). University of Massachusetts, Amherst, MA.
  9. Sutton & Barto 1998, §6. Temporal-Difference Learning.
  10. Bradtke, Steven J.; Barto, Andrew G. (1996). "Learning to predict by the method of temporal differences". Machine Learning. 22: 33–57. CiteSeerX 10.1.1.143.857. doi:10.1023/A:1018056104778. S2CID 20327856.
  11. Watkins, Christopher J.C.H. (1989). Learning from Delayed Rewards (PDF) (PhD thesis). King’s College, Cambridge, UK.
  12. Matzliach, Barouch; Ben-Gal, Irad; Kagan, Evgeny (2022). "डीप क्यू-लर्निंग एबिलिटीज के साथ एक स्वायत्त एजेंट द्वारा स्थिर और मोबाइल लक्ष्यों का पता लगाना". Entropy. 24 (8): 1168. Bibcode:2022Entrp..24.1168M. doi:10.3390/e24081168. PMC 9407070. PMID 36010832.
  13. Williams, Ronald J. (1987). "A class of gradient-estimating algorithms for reinforcement learning in neural networks". Proceedings of the IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871.
  14. Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). रोबोटिक्स के लिए नीति खोज पर एक सर्वेक्षण (PDF). Foundations and Trends in Robotics. Vol. 2. NOW Publishers. pp. 1–142. doi:10.1561/2300000021. hdl:10044/1/12051.
  15. Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). "Reinforcement Learning for Humanoid Robotics" (PDF). IEEE-RAS International Conference on Humanoid Robots.
  16. Juliani, Arthur (2016-12-17). "Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)". Medium. Retrieved 2018-02-22.
  17. Sutton, Richard (1990). "Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming". Machine Learning: Proceedings of the Seventh International Workshop.
  18. Lin, Long-Ji (1992). "सुदृढीकरण सीखने, योजना और शिक्षण के आधार पर स्व-सुधार प्रतिक्रियाशील एजेंट" (PDF). Machine Learning volume 8. doi:10.1007/BF00992699.
  19. van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "When to use parametric models in reinforcement learning?" (PDF). Advances in Neural Information Processing Systems 32.
  20. "On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment". cie.acm.org (in English). Retrieved 2018-11-27.
  21. Riveret, Regis; Gao, Yang (2019). "सुदृढीकरण सीखने वाले एजेंटों के लिए एक संभाव्य तर्क रूपरेखा". Autonomous Agents and Multi-Agent Systems (in English). 33 (1–2): 216–274. doi:10.1007/s10458-019-09404-2. S2CID 71147890.
  22. Yamagata, Taku; McConville, Ryan; Santos-Rodriguez, Raul (2021-11-16). "विविध कौशल वाले कई मनुष्यों से प्रतिक्रिया के साथ सुदृढीकरण सीखना". arXiv:2111.08596 [cs.LG].
  23. Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). "Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation". Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS'16. USA: Curran Associates Inc.: 3682–3690. arXiv:1604.06057. Bibcode:2016arXiv160406057K. ISBN 978-1-5108-3881-9.
  24. "Reinforcement Learning / Successes of Reinforcement Learning". umichrl.pbworks.com. Retrieved 2017-08-06.
  25. Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (March 2020). "सीपीयू-जीपीयू मोबाइल एमपीएसओसी की पावर और थर्मल दक्षता के लिए यूजर इंटरेक्शन अवेयर रीइन्फोर्समेंट लर्निंग". 2020 Design, Automation Test in Europe Conference Exhibition (DATE): 1728–1733. doi:10.23919/DATE48585.2020.9116294. ISBN 978-3-9819263-4-7. S2CID 219858480.
  26. Quested, Tony. "एसेक्स इनोवेशन के साथ स्मार्टफोन और स्मार्ट हो जाते हैं". Business Weekly. Retrieved 2021-06-17.{{cite web}}: CS1 maint: url-status (link)
  27. Williams, Rhiannon (2020-07-21). "भविष्य के स्मार्टफोन 'मालिकों के व्यवहार की निगरानी करके अपनी खुद की बैटरी लाइफ बढ़ाएंगे'". i (in English). Retrieved 2021-06-17.{{cite web}}: CS1 maint: url-status (link)
  28. Kaplan, F.; Oudeyer, P. (2004). "Maximizing learning progress: an internal reward system for development". In Iida, F.; Pfeifer, R.; Steels, L.; Kuniyoshi, Y. (eds.). सन्निहित आर्टिफिशियल इंटेलिजेंस. Lecture Notes in Computer Science. Vol. 3139. Berlin; Heidelberg: Springer. pp. 259–270. doi:10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6. S2CID 9781221.
  29. Klyubin, A.; Polani, D.; Nehaniv, C. (2008). "Keep your options open: an information-based driving principle for sensorimotor systems". PLOS ONE. 3 (12): e4018. Bibcode:2008PLoSO...3.4018K. doi:10.1371/journal.pone.0004018. PMC 2607028. PMID 19107219.
  30. Barto, A. G. (2013). "Intrinsic motivation and reinforcement learning". प्राकृतिक और कृत्रिम प्रणालियों में आंतरिक रूप से प्रेरित शिक्षा (PDF). Berlin; Heidelberg: Springer. pp. 17–47.
  31. Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). "डीप एक्ज़ीक्यूशन - ट्रेडिंग और बीटिंग मार्केट बेंचमार्क के लिए मूल्य और नीति आधारित सुदृढीकरण सीखना". The Journal of Machine Learning in Finance. 1. SSRN 3374766.
  32. George Karimpanal, Thommen; Bouffanais, Roland (2019). "सुदृढीकरण सीखने में ज्ञान के भंडारण और हस्तांतरण के लिए स्व-आयोजन मानचित्र". Adaptive Behavior (in English). 27 (2): 111–126. arXiv:1811.08318. doi:10.1177/1059712318818568. ISSN 1059-7123. S2CID 53774629.
  33. Soucek, Branko (6 May 1992). Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series. John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X.
  34. {{cite journal |first= Vincent|display-authors=etal|last= Francois-Lavet |year=2018 |title= गहन सुदृढीकरण सीखने का एक परिचय|journal=Foundations and Trends in Machine Learning|volume=11 |issue=3–4 |pages=219–354 |doi=10.1561/2200000071|arxiv= 1811.12560 |bibcode=2018arXiv181112560F|s2cid=54434537}
  35. Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). "विरोधात्मक उदाहरणों की व्याख्या करना और उनका उपयोग करना". International Conference on Learning Representations. arXiv:1412.6572.
  36. Behzadan, Vahid; Munir, Arslan (2017). "पॉलिसी इंडक्शन अटैक के लिए डीप रीइन्फोर्समेंट लर्निंग की भेद्यता". International Conference on Machine Learning and Data Mining in Pattern Recognition. Lecture Notes in Computer Science. 10358: 262–275. arXiv:1701.04143. doi:10.1007/978-3-319-62416-7_19. ISBN 978-3-319-62415-0. S2CID 1562290.
  37. Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (2017-02-07). तंत्रिका नेटवर्क नीतियों पर प्रतिकूल हमले. OCLC 1106256905.{{cite book}}: CS1 maint: multiple names: authors list (link)
  38. Korkmaz, Ezgi (2022). "डीप रीइन्फोर्समेंट लर्निंग नीतियां एमडीपी में साझा विरोधी विशेषताएं सीखें।". Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22). 36 (7): 7229–7238. doi:10.1609/aaai.v36i7.20684. S2CID 245219157.
  39. Berenji, H.R. (1994). "Fuzzy Q-learning: a new approach for fuzzy dynamic programming". Proc. IEEE 3rd International Fuzzy Systems Conference. Orlando, FL, USA: IEEE: 486–491. doi:10.1109/FUZZY.1994.343737. ISBN 0-7803-1896-X. S2CID 56694947.
  40. Vincze, David (2017). "Fuzzy rule interpolation and reinforcement learning" (PDF). 2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE. pp. 173–178. doi:10.1109/SAMI.2017.7880298. ISBN 978-1-5090-5655-2. S2CID 17590120.
  41. Ng, A. Y.; Russell, S. J. (2000). "Algorithms for Inverse Reinforcement Learning" (PDF). मशीन लर्निंग पर सत्रहवें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही ICML '00 की कार्यवाही. pp. 663–670. ISBN 1-55860-707-2.
  42. García, Javier; Fernández, Fernando (1 January 2015). "सुरक्षित सुदृढीकरण सीखने पर एक व्यापक सर्वेक्षण" (PDF). The Journal of Machine Learning Research. 16 (1): 1437–1480.


अग्रिम पठन


बाहरी संबंध