बेलमैन समीकरण: Difference between revisions
(text) |
No edit summary |
||
(6 intermediate revisions by 4 users not shown) | |||
Line 1: | Line 1: | ||
{{short description|Necessary condition for optimality associated with dynamic programming}} | {{short description|Necessary condition for optimality associated with dynamic programming}} | ||
[[File:Bellman flow chart.png|thumb|बेलमैन प्रवाह मानचित्र]]रिचर्ड ई. बेलमैन के नाम पर एक '''बेलमैन समीकरण''', गणितीय [[अनुकूलन (गणित)]] विधि से जुड़ी इष्टतमता के लिए एक [[आवश्यक शर्त|आवश्यक परिस्थिति]] है जिसे [[गतिशील प्रोग्रामिंग|गतिशील कार्यरचना]] के रूप में जाना जाता है।<ref>{{cite book |first=Avinash K. |last=Dixit |title=Optimization in Economic Theory |publisher=Oxford University Press |edition=2nd |year=1990 |isbn=0-19-877211-4 |page=164 |url=https://books.google.com/books?id=dHrsHz0VocUC&pg=PA164 }}</ref> यह एक निश्चित समय पर एक निर्णय समस्या के मूल्य को कुछ प्रारंभिक विकल्पों से लाभ और उन प्रारंभिक विकल्पों से उत्पन्न शेष निर्णय समस्या के मूल्य के रूप में लिखता है। यह एक गतिशील अनुकूलन समस्या को सरल उप-समस्याओं के [[अनुक्रम]] में तोड़ता है, जैसा कि बेलमैन के "इष्टतमता का सिद्धांत निर्धारित करता है।<ref>{{cite book |first=Donald E. |last=Kirk |title=Optimal Control Theory: An Introduction |publisher=Prentice-Hall |year=1970 |isbn=0-13-638098-0 |page=55 |url=https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA55 }}</ref> समीकरण कुल क्रम के साथ बीजगणितीय संरचनाओं पर लागू होता है; आंशिक क्रम के साथ बीजगणितीय संरचनाओं के लिए, सामान्य बेलमैन के समीकरण का उपयोग किया जा सकता है।<ref name = "Generic Dijkstra correctness">{{citation | title = Generic Dijkstra: correctness and tractability | last1 = Szcześniak | first1 = Ireneusz | last2 = Woźna-Szcześniak | first2 = Bożena | year = 2022 | arxiv = 2204.13547}}</ref> | |||
[[File:Bellman flow chart.png|thumb|बेलमैन प्रवाह मानचित्र]]रिचर्ड ई. बेलमैन के नाम पर एक बेलमैन समीकरण, गणितीय [[अनुकूलन (गणित)]] विधि से जुड़ी इष्टतमता के लिए एक [[आवश्यक शर्त]] है जिसे [[गतिशील प्रोग्रामिंग|गतिशील कार्यरचना]] के रूप में जाना जाता है।<ref>{{cite book |first=Avinash K. |last=Dixit |title=Optimization in Economic Theory |publisher=Oxford University Press |edition=2nd |year=1990 |isbn=0-19-877211-4 |page=164 |url=https://books.google.com/books?id=dHrsHz0VocUC&pg=PA164 }}</ref> यह एक निश्चित समय पर एक निर्णय समस्या के मूल्य को कुछ प्रारंभिक विकल्पों से लाभ और उन प्रारंभिक विकल्पों से उत्पन्न शेष निर्णय समस्या के मूल्य के रूप में लिखता है। | बेलमैन समीकरण पहले इंजीनियरिंग [[नियंत्रण सिद्धांत]] और उपयोजित गणित में अन्य विषयों पर लागू किया गया था, और बाद में [[आर्थिक सिद्धांत]] में एक महत्वपूर्ण उपकरण बन गया; हालांकि गतिशील प्रोग्रामिंग की बुनियादी अवधारणाओं को [[जॉन वॉन न्यूमैन]] और [[ऑस्कर मॉर्गनस्टर्न]] के [[गेम और आर्थिक आचरण का सिद्धांत|खेल और आर्थिक आचरण का सिद्धांत]] और [[अब्राहम का जन्म हुआ|अब्राहम]] के [[अनुक्रमिक विश्लेषण]] में पूर्वनिर्धारित किया गया है। 'बेलमैन समीकरण' शब्द सामान्यतः असतत-समय अनुकूलन समस्याओं से जुड़े गतिशील प्रोग्रामिंग समीकरण को संदर्भित करता है।<ref>{{harvnb|Kirk|1970|p=[https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA70 70]}}</ref> निरंतर-समय की अनुकूलन समस्याओं में, अनुरूप समीकरण एक आंशिक अंतर समीकरण है जिसे हैमिल्टन-जैकोबी-बेलमैन समीकरण कहा जाता है।<ref>{{cite book |first1=Morton I. |last1=Kamien |author-link=Morton Kamien |first2=Nancy L. |last2=Schwartz |title=Dynamic Optimization: The Calculus of Variations and Optimal Control in Economics and Management |location=Amsterdam |publisher=Elsevier |edition=Second |year=1991 |isbn=0-444-01609-0 |page=261 |url=https://books.google.com/books?id=liLCAgAAQBAJ&pg=PA261 }}</ref><ref>{{harvnb|Kirk|1970|p=[https://books.google.com/books?id=fCh2SAtWIdwC&pg=PA88 88]}}</ref> | ||
बेलमैन समीकरण पहले इंजीनियरिंग [[नियंत्रण सिद्धांत]] और उपयोजित गणित में अन्य विषयों पर लागू किया गया था, और बाद में [[आर्थिक सिद्धांत]] में एक महत्वपूर्ण उपकरण बन गया; हालांकि गतिशील प्रोग्रामिंग की बुनियादी अवधारणाओं को [[जॉन वॉन न्यूमैन]] और [[ऑस्कर मॉर्गनस्टर्न]] के [[गेम और आर्थिक आचरण का सिद्धांत|खेल और आर्थिक आचरण का सिद्धांत]] और [[अब्राहम का जन्म हुआ|अब्राहम]] के [[अनुक्रमिक विश्लेषण]] में पूर्वनिर्धारित किया गया है। | |||
असतत समय में उपयुक्त बेलमैन समीकरण का विश्लेषण करके किसी भी बहु-स्तरीय अनुकूलन समस्या को हल किया जा सकता है। नई स्थिति चर को प्रस्तुत करके उपयुक्त बेलमैन समीकरण पाया जा सकता है।<ref>{{cite journal |last1=Jones |first1=Morgan |last2=Peet |first2=Matthew M. |title=Extensions of the Dynamic Programming Framework: Battery Scheduling, Demand Charges, and Renewable Integration |journal=IEEE Transactions on Automatic Control |date=2020 |volume=66 |issue=4 |pages=1602–1617 |doi=10.1109/TAC.2020.3002235|arxiv=1812.00792 |s2cid=119622206 }}</ref> हालाँकि, परिणामी संवर्धित-स्थिति बहु-स्तरीय अनुकूलन समस्या में मूल बहु-स्तरीय अनुकूलन समस्या की तुलना में एक उच्च आयामी स्थिति स्थान है - एक ऐसा विषय जो संभावित रूप से संवर्धित समस्या को "आयामीता के अभिशाप" के कारण असाध्य बना सकता है। वैकल्पिक रूप से, यह दिखाया गया है कि यदि बहु-चरणी इष्टमीकरण समस्या का लागत प्रकार्य एक पिछड़े वियोज्य संरचना को संतुष्ट करता है, तो उपयुक्त बेलमैन समीकरण स्थिति वृद्धि के बिना पाया जा सकता है।<ref>{{cite journal |last1=Jones |first1=Morgan |last2=Peet |first2=Matthew M. |title=A Generalization of Bellman's Equation with Application to Path Planning, Obstacle Avoidance and Invariant Set Estimation |journal=Automatica |date=2021 |volume=127 |pages=109510 |doi=10.1016/j.automatica.2021.109510 |url=https://www.sciencedirect.com/science/article/pii/S0005109821000303 |arxiv=2006.08175 |s2cid=222350370 }}</ref> | असतत समय में उपयुक्त बेलमैन समीकरण का विश्लेषण करके किसी भी बहु-स्तरीय अनुकूलन समस्या को हल किया जा सकता है। नई स्थिति चर को प्रस्तुत करके उपयुक्त बेलमैन समीकरण पाया जा सकता है।<ref>{{cite journal |last1=Jones |first1=Morgan |last2=Peet |first2=Matthew M. |title=Extensions of the Dynamic Programming Framework: Battery Scheduling, Demand Charges, and Renewable Integration |journal=IEEE Transactions on Automatic Control |date=2020 |volume=66 |issue=4 |pages=1602–1617 |doi=10.1109/TAC.2020.3002235|arxiv=1812.00792 |s2cid=119622206 }}</ref> हालाँकि, परिणामी संवर्धित-स्थिति बहु-स्तरीय अनुकूलन समस्या में मूल बहु-स्तरीय अनुकूलन समस्या की तुलना में एक उच्च आयामी स्थिति स्थान है - एक ऐसा विषय जो संभावित रूप से संवर्धित समस्या को "आयामीता के अभिशाप" के कारण असाध्य बना सकता है। वैकल्पिक रूप से, यह दिखाया गया है कि यदि बहु-चरणी इष्टमीकरण समस्या का लागत प्रकार्य एक पिछड़े वियोज्य संरचना को संतुष्ट करता है, तो उपयुक्त बेलमैन समीकरण स्थिति वृद्धि के बिना पाया जा सकता है।<ref>{{cite journal |last1=Jones |first1=Morgan |last2=Peet |first2=Matthew M. |title=A Generalization of Bellman's Equation with Application to Path Planning, Obstacle Avoidance and Invariant Set Estimation |journal=Automatica |date=2021 |volume=127 |pages=109510 |doi=10.1016/j.automatica.2021.109510 |url=https://www.sciencedirect.com/science/article/pii/S0005109821000303 |arxiv=2006.08175 |s2cid=222350370 }}</ref> | ||
Line 11: | Line 10: | ||
बेलमैन समीकरण को समझने के लिए, कई अंतर्निहित अवधारणाओं को समझना आवश्यक है। सबसे पहले, किसी भी अनुकूलन समस्या का कुछ उद्देश्य होता है: यात्रा के समय को कम करना, लागत को कम करना, लाभ को अधिकतम करना, उपयोगिता को अधिकतम करना आदि। गणितीय कार्य जो इस उद्देश्य का वर्णन करता है, उसे हानि फलन कहा जाता है। | बेलमैन समीकरण को समझने के लिए, कई अंतर्निहित अवधारणाओं को समझना आवश्यक है। सबसे पहले, किसी भी अनुकूलन समस्या का कुछ उद्देश्य होता है: यात्रा के समय को कम करना, लागत को कम करना, लाभ को अधिकतम करना, उपयोगिता को अधिकतम करना आदि। गणितीय कार्य जो इस उद्देश्य का वर्णन करता है, उसे हानि फलन कहा जाता है। | ||
गतिशील प्रोग्रामिंग एक बहु-अवधि की योजना समस्या को अलग-अलग समय पर सरल चरणों में तोड़ देती है। इसलिए, समय के साथ निर्णय की स्थिति कैसे विकसित हो रही है, इस पर ध्यान | गतिशील प्रोग्रामिंग एक बहु-अवधि की योजना समस्या को अलग-अलग समय पर सरल चरणों में तोड़ देती है। इसलिए, समय के साथ निर्णय की स्थिति कैसे विकसित हो रही है, इस पर ध्यान केंद्रित करने की आवश्यकता है। सही निर्णय लेने के लिए आवश्यक वर्तमान स्थिति की जानकारी को स्थिति कहा जाता है।<ref name=BellmanDP>{{cite book |last=Bellman |first=R.E. |orig-year=1957 |title=Dynamic Programming |year=2003 |publisher=Dover |isbn=0-486-42809-5}}</ref><ref name=dreyfus>{{cite journal |first=S. |last=Dreyfus |year=2002 |title=Richard Bellman on the birth of dynamic programming |journal=Operations Research |volume=50 |issue=1 |pages=48–51 |doi=10.1287/opre.50.1.48.17791|doi-access=free }}</ref> उदाहरण के लिए, यह निश्चित करने के लिए कि प्रत्येक बिंदु पर कितना उपभोग और व्यय करना है, लोगों को (अन्य बातों के अतिरिक्त) अपनी प्रारंभिक संपत्ति जानने की आवश्यकता होगी। इसलिए धन <math>(W)</math> उनके स्थिति चरों में से एक होगा, परन्तु संभवतः अन्य भी होंगे। | ||
किसी दिए गए समय पर चुने गए चर को प्रायः [[नियंत्रण चर (प्रोग्रामिंग)]] कहा जाता है। उदाहरण के लिए, उनकी वर्तमान संपत्ति को देखते हुए, लोग यह | किसी दिए गए समय पर चुने गए चर को प्रायः [[नियंत्रण चर (प्रोग्रामिंग)]] कहा जाता है। उदाहरण के लिए, उनकी वर्तमान संपत्ति को देखते हुए, लोग यह निश्चित कर सकते हैं कि अभी कितना व्यय करना है। नियंत्रण चर का चयन अब अगले स्थिति को चुनने के सामानांतर हो सकता है; सामान्यतः, अगली स्थिति वर्तमान नियंत्रण के अतिरिक्त अन्य कारकों से प्रभावित होती है। उदाहरण के लिए, सबसे सरल स्तिथि में, आज का धन (स्थिति) और खपत (नियंत्रण) कल के धन (नया स्थिति) को सटीक रूप से निर्धारित कर सकते हैं, हालांकि सामान्यतः अन्य कारक कल के धन को भी प्रभावित करेंगे। | ||
गतिशील प्रोग्रामिंग दृष्टिकोण एक नियम खोजकर इष्टतम योजना का वर्णन करता है जो बताता है कि स्थिति के किसी भी संभावित मूल्य को देखते हुए नियंत्रण क्या होना चाहिए। उदाहरण के लिए, यदि उपभोग (c) केवल धन (W) पर निर्भर करता है, तो हम एक नियम <math>c(W)</math> की खोज करेंगे जो उपभोग को धन के प्रकार्य के रूप में देता है। ऐसे नियम, जो स्थिति के कार्य के रूप में नियंत्रणों का निर्धारण करते हैं, नीति कार्य कहलाते हैं (बेलमैन, 1957, अध्याय III.2 देखें)।<ref name=BellmanDP /> | |||
अंत में, परिभाषा के अनुसार, इष्टतम निर्णय नियम वह है जो उद्देश्य के सर्वोत्तम संभव मूल्य को प्राप्त करता है। उदाहरण के लिए, यदि कोई | अंत में, परिभाषा के अनुसार, इष्टतम निर्णय नियम वह है जो उद्देश्य के सर्वोत्तम संभव मूल्य को प्राप्त करता है। उदाहरण के लिए, यदि कोई आनन्द को अधिकतम करने के लिए, उपभोग को चुनता है, तो आनन्द को अधिकतम करने के लिए (यह मानते हुए कि आनन्द H को एक गणितीय कार्य द्वारा दर्शाया जा सकता है, जैसे [[उपयोगिता]] प्रकार्य और धन द्वारा परिभाषित है), तब धन का प्रत्येक स्तर आनन्द <math>H(W)</math> के किसी उच्चतम संभव स्तर से जुड़ा होगा। स्थिति के एक फलन के रूप में लिखे गए उद्देश्य के सर्वोत्तम संभव मूल्य को मूल्य फलन कहा जाता है। | ||
बेलमैन ने दिखाया कि असतत समय में एक गतिशील अनुकूलन (गणित) समस्या को एक पुनरावृत्ति में कहा जा सकता है, चरण-दर-चरण रूप जिसे [[पीछे की ओर प्रेरण]] के रूप में जाना जाता है, | बेलमैन ने दिखाया कि असतत समय में एक गतिशील अनुकूलन (गणित) समस्या को एक पुनरावृत्ति में कहा जा सकता है, चरण-दर-चरण रूप जिसे एक अवधि में मूल्य फलन और अगली अवधि में मूल्य फलन के बीच संबंध लिखकर [[पीछे की ओर प्रेरण|पश्च प्रेरण]] के रूप में जाना जाता है, इन दो मूल्य कार्यों के बीच संबंध को बेलमैन समीकरण कहा जाता है। इस दृष्टिकोण में, अंतिम समय अवधि में इष्टतम नीति उस समय स्थिति चर के मूल्य के एक फलन के रूप में अग्रिम रूप से निर्दिष्ट की जाती है, और इस प्रकार उद्देश्य फलन के परिणामी इष्टतम मूल्य को स्थिति चर के उस मूल्य के संदर्भ में व्यक्त किया जाता है। इसके बाद, अगली-से-अंतिम अवधि के अनुकूलन में उस अवधि की अवधि-विशिष्ट उद्देश्य फलन और भविष्य के उद्देश्य फलन के इष्टतम मूल्य को अधिकतम करना सम्मिलित है, जो उस अवधि की इष्टतम नीति को स्थिति चर के मूल्य पर निर्भर करता है, जैसा कि अगले-से-अंतिम अवधि का निर्णय निर्भर करता है। यह तर्क समय-समय पर पुनरावर्ती रूप से जारी रहता है, जब तक कि पहली अवधि के निर्णय नियम को प्रारंभिक स्थिति चर मूल्य के एक फलन के रूप में, पहली-अवधि-विशिष्ट उद्देश्य फलन के योग और दूसरी अवधि के मूल्य फलन के मूल्य को अनुकूलित करके, प्राप्त नहीं किया जाता है। जो भविष्य की सभी अवधियों के लिए मूल्य देता है। इस प्रकार, प्रत्येक अवधि का निर्णय स्पष्ट रूप से यह स्वीकार करते हुए किया जाता है कि भविष्य के सभी निर्णय इष्टतम रूप से किए जाएंगे। | ||
== व्युत्पत्ति == | == व्युत्पत्ति == | ||
=== एक गतिशील निर्णय समस्या === | === एक गतिशील निर्णय समस्या === | ||
स्थिति को समय | स्थिति को समय <math>t</math> पर <math>x_t</math> मान लीजिये। एक निर्णय के लिए जो समय 0 से प्रारम्भ होता है, हम प्रारंभिक अवस्था के रूप में <math>x_0</math> लेते हैं। किसी भी समय, संभावित क्रियाओं का समूह वर्तमान स्थिति पर निर्भर करता है; हम इसे इस प्रकार <math> a_{t} \in \Gamma (x_t)</math>लिख सकते हैं, जहां क्रिया <math>a_t</math> एक या अधिक नियंत्रण चर का प्रतिनिधित्व करती है। हम यह भी मानते हैं कि <math>x</math> स्थिति से बदलता है एक नए स्थिति <math>T(x,a)</math> के लिए जब कार्यकलाप <math>a</math> लिया जाता है, और यह कि कार्यकलाप <math>a</math> करने से वर्तमान लाभ स्थिति <math>x</math> में <math>F(x,a)</math> है। अंत में, हम अधीरता को मान लेते हैं, जिसे [[छूट कारक]] <math>0<\beta<1</math> द्वारा दर्शाया जाता है . | ||
इन मान्यताओं के तहत, एक अनंत-क्षितिज निर्णय समस्या निम्न रूप लेती है: | इन मान्यताओं के तहत, एक अनंत-क्षितिज निर्णय समस्या निम्न रूप लेती है: | ||
Line 32: | Line 31: | ||
:<math> a_{t} \in \Gamma (x_t), \; x_{t+1}=T(x_t,a_t), \; \forall t = 0, 1, 2, \dots </math> | :<math> a_{t} \in \Gamma (x_t), \; x_{t+1}=T(x_t,a_t), \; \forall t = 0, 1, 2, \dots </math> | ||
ध्यान दें कि हमने संकेतन | ध्यान दें कि हमने संकेतन <math>V(x_0)</math> को परिभाषित किया है। उस इष्टतम मूल्य को निरूपित करने के लिए जिसे कल्पित बाधाओं के अधीन इस उद्देश्य फलन को अधिकतम करके प्राप्त किया जा सकता है। यह फलन मान फलन है। यह प्रारंभिक अवस्था चर <math>x_0</math> का एक कार्य है, चूंकि प्राप्त करने योग्य सर्वोत्तम मूल्य प्रारंभिक स्थिति पर निर्भर करता है। | ||
=== बेलमैन का इष्टतमता का सिद्धांत === | === बेलमैन का इष्टतमता का सिद्धांत === | ||
गतिशील प्रोग्रामिंग पद्धति इस निर्णय समस्या को छोटे उप-समस्याओं में तोड़ देती है। बेलमैन का इष्टतमता का सिद्धांत बताता है कि यह | गतिशील प्रोग्रामिंग पद्धति इस निर्णय समस्या को छोटे उप-समस्याओं में तोड़ देती है। बेलमैन का इष्टतमता का सिद्धांत बताता है कि यह किस प्रकार करना है:<blockquote>इष्टतमता का सिद्धांत: एक इष्टतम नीति में यह गुण होता है कि प्रारंभिक स्थिति और प्रारंभिक निर्णय चाहे जो भी हों, शेष निर्णयों को पहले से उत्पन्न स्थिति के संबंध में एक इष्टतम नीति का गठन करना चाहिए। (बेलमैन, 1957, अध्याय III.3 देखें।)<ref name="BellmanDP" /><ref name="dreyfus" /><ref name="BellmanTheory">{{cite journal |first=R |last=Bellman |pmc=1063639 |title=On the Theory of Dynamic Programming |journal=Proc Natl Acad Sci U S A |date=August 1952 |volume=38 |issue=8 |pages=716–9 |pmid=16589166 |doi=10.1073/pnas.38.8.716|bibcode=1952PNAS...38..716B |doi-access=free }}</ref></blockquote>कंप्यूटर विज्ञान में, एक समस्या जिसे इस तरह से तोड़ा जा सकता है, उसे [[इष्टतम उपसंरचना]] कहा जाता है। गतिशील [[खेल सिद्धांत]] के संदर्भ में, यह सिद्धांत उपखेल पूर्ण संतुलन की अवधारणा के अनुरूप है, हालांकि इस स्तिथि में एक इष्टतम नीति क्या है जो निर्णयकर्ता के विरोधियों द्वारा उनके दृष्टिकोण से समान इष्टतम नीतियों को चुनने पर निर्भर है। | ||
कंप्यूटर विज्ञान में, एक समस्या जिसे इस तरह से तोड़ा जा सकता है, उसे [[इष्टतम उपसंरचना]] कहा जाता है। गतिशील [[खेल सिद्धांत]] के संदर्भ में, यह सिद्धांत | |||
जैसा कि इष्टतमता के सिद्धांत द्वारा सुझाया गया है, हम भविष्य के सभी निर्णयों को अलग करते हुए पहले निर्णय पर अलग से विचार करेंगे (हम नए स्थिति के साथ समय 1 से नए सिरे | जैसा कि इष्टतमता के सिद्धांत द्वारा सुझाया गया है, हम भविष्य के सभी निर्णयों को अलग करते हुए पहले निर्णय पर अलग से विचार करेंगे (हम नए स्थिति के साथ समय 1 से नए सिरे <math>x_1 </math> से प्रारंभ करेंगे)। भविष्य के निर्णयों को कोष्ठक में दाईं ओर एकत्रित करना, उपरोक्त अनंत-क्षितिज निर्णय समस्या के सामानांतर है:{{Clarify|date=September 2017}} | ||
:<math> \max_{ a_0 } \left \{ F(x_0,a_0) | :<math> \max_{ a_0 } \left \{ F(x_0,a_0) | ||
+ \beta \left[ \max_{ \left \{ a_{t} \right \}_{t=1}^{\infty} } | + \beta \left[ \max_{ \left \{ a_{t} \right \}_{t=1}^{\infty} } | ||
Line 46: | Line 44: | ||
:<math> a_0 \in \Gamma (x_0), \; x_1=T(x_0,a_0). </math> | :<math> a_0 \in \Gamma (x_0), \; x_1=T(x_0,a_0). </math> | ||
यहां हम | यहां हम <math>a_0</math> चुन रहे हैं, यह जानते हुए कि हमारी पसंद समय 1 स्थिति का कारण <math>x_1=T(x_0,a_0)</math> बनेगी। वह नया स्थिति समय 1 से निर्णय समस्या को प्रभावित करेगा। संपूर्ण भविष्य की निर्णय समस्या दाईं ओर वर्ग कोष्ठक के अंदर दिखाई देती है। | ||
=== बेलमैन समीकरण === | === बेलमैन समीकरण === | ||
अभी तक ऐसा लगता है कि हमने आज के निर्णय को भविष्य के निर्णयों से अलग करके समस्या को और अधिक कुरूप बना दिया है। लेकिन हम यह देखकर सरल कर सकते हैं कि दाईं ओर वर्ग कोष्ठक के अंदर जो है वह समय 1 निर्णय समस्या का मान है, जो | अभी तक ऐसा लगता है कि हमने आज के निर्णय को भविष्य के निर्णयों से अलग करके समस्या को और अधिक कुरूप बना दिया है। लेकिन हम यह देखकर सरल कर सकते हैं कि दाईं ओर वर्ग कोष्ठक के अंदर जो है वह समय 1 निर्णय समस्या का मान है, जो <math>x_1=T(x_0,a_0)</math> स्थिति से प्रारम्भ होता है। | ||
इसलिए, हम समस्या को मान | इसलिए, हम समस्या को मान फलन की पुनरावर्तन परिभाषा के रूप में फिर से लिख सकते हैं: | ||
:<math>V(x_0) = \max_{ a_0 } \{ F(x_0,a_0) + \beta V(x_1) \} </math>, बाधाओं के अधीन: <math> a_0 \in \Gamma (x_0), \; x_1=T(x_0,a_0). </math> | :<math>V(x_0) = \max_{ a_0 } \{ F(x_0,a_0) + \beta V(x_1) \} </math>, बाधाओं के अधीन: <math> a_0 \in \Gamma (x_0), \; x_1=T(x_0,a_0). </math> | ||
यह बेलमैन समीकरण है। इसे और भी सरल बनाया जा सकता है यदि हम | यह बेलमैन समीकरण है। इसे और भी सरल बनाया जा सकता है यदि हम काल पादाक्षर छोड़ दें और अगले स्थिति के मान में प्रचार करें: | ||
:<math>V(x) = \max_{a \in \Gamma (x) } \{ F(x,a) + \beta V(T(x,a)) \}.</math> | :<math>V(x) = \max_{a \in \Gamma (x) } \{ F(x,a) + \beta V(T(x,a)) \}.</math> | ||
बेलमैन समीकरण को एक [[कार्यात्मक समीकरण]] के रूप में वर्गीकृत किया गया है, क्योंकि इसे हल करने का अर्थ अज्ञात | बेलमैन समीकरण को एक [[कार्यात्मक समीकरण]] के रूप में वर्गीकृत किया गया है, क्योंकि इसे हल करने का अर्थ अज्ञात फलन <math>V</math> को खोजना है, जो कि परिमाण फलन है। याद रखें कि मूल्य फलन स्थिति के एक फलन के रूप में, उद्देश्य के सर्वोत्तम संभव मूल्य का वर्णन <math>x</math> करता है। मान फलन की गणना करके, हम <math>a(x)</math> फलन भी ज्ञात करेंगे, जो स्थिति के कार्य के रूप में इष्टतम क्रिया का वर्णन करता है; इसे नीति कार्य कहा जाता है। | ||
=== एक | === एक प्रसंभाव्य समस्या में === | ||
{{See also| | {{See also|मार्कोव निर्णय प्रक्रिया}} | ||
अर्थशास्त्र से एक विशिष्ट उदाहरण के लिए, प्रारंभिक धन | नियतात्मक समायोजन में, उपरोक्त [[इष्टतम नियंत्रण]] समस्या से निपटने के लिए गतिशील प्रोग्रामिंग के अतिरिक्त अन्य तकनीकों का उपयोग किया जा सकता है। हालांकि, बेलमैन समीकरण प्रायः प्रसंभाव्य इष्टतम नियंत्रण समस्याओं को हल करने का सबसे सुविधाजनक तरीका होता है। | ||
अर्थशास्त्र से एक विशिष्ट उदाहरण के लिए, प्रारंभिक धन अक्षयनिधि <math>{\color{Red}a_0}</math> के साथ <math>0</math> अवधि में असीम रूप से रहने वाले उपभोक्ता पर विचार करें। उनके पास तात्कालिक उपयोगिता कार्य <math>u(c)</math> है जहाँ <math>c</math> की दर से खपत और अगली अवधि की उपयोगिता को <math>0< \beta<1 </math> दर्शाता है। मान लीजिए कि अवधिकाल <math>t</math> में जो उपभुक्त नहीं किया जाता है वह ब्याज दर <math>r</math> के साथ अगली अवधि के लिए आगे बढ़ता है। तब उपभोक्ता की उपयोगिता अधिकतम करने की समस्या उपभोग योजना <math>\{{\color{OliveGreen}c_t}\}</math> का चयन करना है। वह निम्न हल करता है | |||
:<math>\max \sum_{t=0} ^{\infty} \beta^t u ({\color{OliveGreen}c_t})</math> | :<math>\max \sum_{t=0} ^{\infty} \beta^t u ({\color{OliveGreen}c_t})</math> | ||
के अधीन | |||
:<math>{\color{Red}a_{t+1}} = (1 + r) ({\color{Red}a_t} - {\color{OliveGreen}c_t}), \; {\color{OliveGreen}c_t} \geq 0,</math> | :<math>{\color{Red}a_{t+1}} = (1 + r) ({\color{Red}a_t} - {\color{OliveGreen}c_t}), \; {\color{OliveGreen}c_t} \geq 0,</math> | ||
Line 73: | Line 73: | ||
:<math>\lim_{t \rightarrow \infty} {\color{Red}a_t} \geq 0.</math> | :<math>\lim_{t \rightarrow \infty} {\color{Red}a_t} \geq 0.</math> | ||
पहली बाधा पूंजी संचय/समस्या द्वारा निर्दिष्ट गति का नियम है, जबकि दूसरी बाधा एक [[ट्रांसवर्सलिटी (गणित)]] है कि उपभोक्ता अपने जीवन के अंत में ऋण नहीं लेता है। बेलमैन समीकरण है | पहली बाधा पूंजी संचय/समस्या द्वारा निर्दिष्ट गति का नियम है, जबकि दूसरी बाधा एक [[ट्रांसवर्सलिटी (गणित)|अनुप्रस्थता प्रतिबंध]] है कि उपभोक्ता अपने जीवन के अंत में ऋण नहीं लेता है। बेलमैन समीकरण निम्न है | ||
:<math>V(a) = \max_{ 0 \leq c \leq a } \{ u(c) + \beta V((1+r) (a - c)) \},</math> | :<math>V(a) = \max_{ 0 \leq c \leq a } \{ u(c) + \beta V((1+r) (a - c)) \},</math> | ||
वैकल्पिक रूप से, कोई अनुक्रम समस्या का सीधे उपयोग कर सकता है, उदाहरण के लिए, [[हैमिल्टनियन (नियंत्रण सिद्धांत)]]। | वैकल्पिक रूप से, कोई अनुक्रम समस्या का सीधे उपयोग कर सकता है, उदाहरण के लिए, [[हैमिल्टनियन (नियंत्रण सिद्धांत)|हैमिल्टनियन समीकरण]]। | ||
अब, यदि ब्याज दर समय-समय पर | अब, यदि ब्याज दर समय-समय पर परिवर्तित होती रहती है, तो उपभोक्ता को प्रसंभाव्य अनुकूलन समस्या का सामना करना पड़ता है। बता दें कि ब्याज r प्रायिकता संक्रमण फलन के साथ एक [[मार्कोव प्रक्रिया]] <math>Q(r, d\mu_r)</math> का पालन करता है जहाँ <math>d\mu_r</math> यदि वर्तमान ब्याज दर है तो अगली अवधि में ब्याज दर के वितरण को नियंत्रित करने वाले [[संभाव्यता माप]] <math>r</math> को दर्शाता है। इस प्रतिरूप में उपभोक्ता वर्तमान अवधि की ब्याज दर की घोषणा के बाद अपनी वर्तमान अवधि की खपत निश्चित करता है। | ||
केवल एक अनुक्रम | केवल एक अनुक्रम <math>\{{\color{OliveGreen}c_t}\}</math> चुनने के स्थान पर, उपभोक्ता को अब एक क्रम <math>\{{\color{OliveGreen}c_t}\}</math> चुनना होगा, a के हर संभव प्रत्यक्षीकरण <math>\{r_t\}</math> के लिए, इस तरह से कि उनकी आजीवन अपेक्षित उपयोगिता अधिकतम हो: | ||
:<math>\max_{ \left \{ c_{t} \right \}_{t=0}^{\infty} } \mathbb{E}\bigg( \sum_{t=0} ^{\infty} \beta^t u ({\color{OliveGreen}c_t}) \bigg).</math> | :<math>\max_{ \left \{ c_{t} \right \}_{t=0}^{\infty} } \mathbb{E}\bigg( \sum_{t=0} ^{\infty} \beta^t u ({\color{OliveGreen}c_t}) \bigg).</math> | ||
अपेक्षा <math>\mathbb{E}</math> | अपेक्षा <math>\mathbb{E}</math> r's के अनुक्रमों पर Q द्वारा दिए गए उचित संभाव्यता माप के संबंध में लिया जाता है। क्योंकि r एक मार्कोव प्रक्रिया द्वारा नियंत्रित होता है, गतिशील प्रोग्रामिंग समस्या को महत्वपूर्ण रूप से सहज करती है। तब बेलमैन समीकरण सरल है: | ||
:<math>V(a, r) = \max_{ 0 \leq c \leq a } \{ u(c) + \beta \int V((1+r) (a - c), r') Q(r, d\mu_r) \} .</math> | :<math>V(a, r) = \max_{ 0 \leq c \leq a } \{ u(c) + \beta \int V((1+r) (a - c), r') Q(r, d\mu_r) \} .</math> | ||
कुछ उचित धारणा के तहत, परिणामी इष्टतम नीति कार्य g(a,r) मापने योग्य है। | कुछ उचित धारणा के तहत, परिणामी इष्टतम नीति कार्य g(a,r) मापने योग्य है। | ||
मार्कोवियन | मार्कोवियन प्रघात के साथ एक सामान्य प्रसंभाव्य अनुक्रमिक अनुकूलन समस्या के लिए और जहां अभिकर्ता को अपने निर्णय पूर्व-पट्रवाहक का प्रतिमुखन करना पड़ता है, बेलमैन समीकरण एक समान रूप लेता है | ||
:<math>V(x, z) = \max_{c \in \Gamma(x,z)} \{F(x, c, z) + \beta \int V( T(x,c), z') d\mu_z(z')\}. </math> | :<math>V(x, z) = \max_{c \in \Gamma(x,z)} \{F(x, c, z) + \beta \int V( T(x,c), z') d\mu_z(z')\}. </math> | ||
== समाधान | == समाधान विधियाँ == | ||
* [[अनिर्धारित गुणांक की विधि]], जिसे 'अनुमान और सत्यापन' के रूप में भी जाना जाता है, का उपयोग कुछ अनंत-क्षितिज, [[स्वायत्त प्रणाली (गणित)]] बेलमैन समीकरणों को हल करने के लिए किया जा सकता है।<ref>{{cite book |first1=Lars |last1=Ljungqvist |first2=Thomas J. |last2=Sargent |title=Recursive Macroeconomic Theory |publisher=MIT Press |year=2004 |edition=2nd |pages=[https://archive.org/details/recursivemacroec02edljun/page/88 88]–90 |isbn=0-262-12274-X |url=https://archive.org/details/recursivemacroec02edljun |url-access=registration }}</ref> | * [[अनिर्धारित गुणांक की विधि]], जिसे 'अनुमान और सत्यापन' के रूप में भी जाना जाता है, का उपयोग कुछ अनंत-क्षितिज, [[स्वायत्त प्रणाली (गणित)]] बेलमैन समीकरणों को हल करने के लिए किया जा सकता है।<ref>{{cite book |first1=Lars |last1=Ljungqvist |first2=Thomas J. |last2=Sargent |title=Recursive Macroeconomic Theory |publisher=MIT Press |year=2004 |edition=2nd |pages=[https://archive.org/details/recursivemacroec02edljun/page/88 88]–90 |isbn=0-262-12274-X |url=https://archive.org/details/recursivemacroec02edljun |url-access=registration }}</ref> | ||
* बेलमैन समीकरण को [[पीछे की ओर प्रेरण]] | * बेलमैन समीकरण को [[पीछे की ओर प्रेरण|पश्चगामी प्रेरण]] या तो कुछ विशेष स्तिथियों में [[बंद रूप अभिव्यक्ति|विश्लेषणात्मक रूप से]], या कंप्यूटर पर [[संख्यात्मक विश्लेषण]] द्वारा हल किया जा सकता है। संख्यात्मक पश्चगामी प्रेरण कई तरह की समस्याओं पर लागू होता है, लेकिन विमीयता के अभिशाप के कारण कई अवस्था चर होने पर यह संभव नहीं हो सकता है। बेलमैन फलन का अनुमान लगाने के लिए कृत्रिम तंत्रिका संजाल (बहुपरत परसेप्ट्रॉन) के उपयोग के साथ डी.पी. बर्टसेकास और जे.एन. त्सित्सिकलिस द्वारा अनुमानित गतिशील प्रोग्रामिंग प्रस्तुत की गई है।।<ref name="NeuroDynProg">{{cite book |first1=Dimitri P. |last1=Bertsekas |first2=John N. |last2=Tsitsiklis |title=Neuro-dynamic Programming |year=1996 |publisher=Athena Scientific |isbn=978-1-886529-10-6}}</ref> यह एकमात्र तंत्रिका संजाल मापदंडों के स्मरण के साथ पूरे समष्टि प्रांत के लिए पूर्ण फलन प्रतिचित्रण के संस्मरण को बदलकर आयाम के प्रभाव को कम करने के लिए एक प्रभावी शमन रणनीति है। विशेष रूप से, निरंतर समय प्रणालियों के लिए, एक अनुमानित गतिशील प्रोग्रामिंग दृष्टिकोण प्रस्तुत किया गया था जो दोनों नीति पुनरावृत्तियों को तंत्रिका संजाल के साथ जोड़ता है।<ref name="CTHJB">{{cite journal |first1=Murad |last1=Abu-Khalaf |first2=Frank L.|last2=Lewis |title=Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach|year=2005 |journal=Automatica |volume=41 | issue=5 | pages=779–791|doi=10.1016/j.automatica.2004.11.034}}</ref> असतत समय में, मूल्य पुनरावृत्तियों और तंत्रिका संजाल के संयोजन वाले HJB समीकरण को हल करने के लिए एक दृष्टिकोण प्रस्तुत किया गया था।<ref name="DTHJB">{{cite journal |first1=Asma |last1=Al-Tamimi|first2=Frank L.|last2=Lewis |first3=Murad |last3=Abu-Khalaf |title=Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof|year=2008 |journal=IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics) |volume= 38| issue=4 | pages=943–949 |doi= 10.1109/TSMCB.2008.926614|pmid=18632382|s2cid=14202785}}</ref> | ||
* बेलमैन समीकरण से जुड़ी प्रथम-क्रम की स्थितियों की गणना करके, और फिर [[लिफाफा प्रमेय]] का उपयोग करके मूल्य | * बेलमैन समीकरण से जुड़ी प्रथम-क्रम की स्थितियों की गणना करके, और फिर [[लिफाफा प्रमेय]] का उपयोग करके मूल्य फलन के व्युत्पन्न को समाप्त करने के लिए, या अंतर समीकरणों की एक प्रणाली प्राप्त करना संभव है जिसे 'यूलर-लग्रेंज समीकरण' कहा जाता है।<ref>{{cite book |first=Jianjun |last=Miao |title=Economic Dynamics in Discrete Time |publisher=MIT Press |year=2014 |page=134 |isbn=978-0-262-32560-8 |url=https://books.google.com/books?id=dh2EBAAAQBAJ&pg=PA134 }}</ref> अंतर या अंतर समीकरणों के समाधान के लिए मानक तकनीकों का उपयोग स्थिति चर की गतिशीलता और अनुकूलन समस्या के नियंत्रण चर की गणना के लिए किया जा सकता है। | ||
== अर्थशास्त्र में अनुप्रयोग == | == अर्थशास्त्र में अनुप्रयोग == | ||
अर्थशास्त्र में बेलमैन समीकरण का पहला ज्ञात अनुप्रयोग [[मार्टिन बेकमैन]] और [[रिचर्ड मुथ]] के कारण है।<ref>{{cite journal |first1=Martin |last1=Beckmann |first2=Richard |last2=Muth |year=1954 |title=On the Solution to the 'Fundamental Equation' of inventory theory |journal=Cowles Commission Discussion Paper 2116 |url=http://cowles.yale.edu/sites/default/files/files/pub/cdp/e-2116.pdf }}</ref> मार्टिन बेकमैन ने भी 1959 में बेलमैन समीकरण का उपयोग करते हुए उपभोग सिद्धांत पर व्यापक रूप से लिखा। उनके काम ने एडमंड एस. फेल्प्स सहित अन्य को प्रभावित किया। | अर्थशास्त्र में बेलमैन समीकरण का पहला ज्ञात अनुप्रयोग [[मार्टिन बेकमैन]] और [[रिचर्ड मुथ]] के कारण है।<ref>{{cite journal |first1=Martin |last1=Beckmann |first2=Richard |last2=Muth |year=1954 |title=On the Solution to the 'Fundamental Equation' of inventory theory |journal=Cowles Commission Discussion Paper 2116 |url=http://cowles.yale.edu/sites/default/files/files/pub/cdp/e-2116.pdf }}</ref> मार्टिन बेकमैन ने भी 1959 में बेलमैन समीकरण का उपयोग करते हुए उपभोग सिद्धांत पर व्यापक रूप से लिखा। उनके काम ने एडमंड एस. फेल्प्स सहित अन्य को प्रभावित किया। | ||
बेलमैन समीकरण का एक प्रसिद्ध आर्थिक अनुप्रयोग [[ICAPM]] पर रॉबर्ट सी. मर्टन का 1973 का मौलिक लेख है।<ref>{{cite journal |first=Robert C. |last=Merton |year=1973 |title=An Intertemporal Capital Asset Pricing Model |journal=[[Econometrica]] |volume=41 |issue=5 |pages=867–887 |doi=10.2307/1913811 |jstor=1913811 }}</ref> (मर्टन की | बेलमैन समीकरण का एक प्रसिद्ध आर्थिक अनुप्रयोग [[ICAPM]] पर रॉबर्ट सी. मर्टन का 1973 का मौलिक लेख है।<ref>{{cite journal |first=Robert C. |last=Merton |year=1973 |title=An Intertemporal Capital Asset Pricing Model |journal=[[Econometrica]] |volume=41 |issue=5 |pages=867–887 |doi=10.2307/1913811 |jstor=1913811 }}</ref> (मर्टन की संविभाग समस्या भी देखें)। मर्टन के सैद्धांतिक प्रतिरूप का समाधान, जिसमें निवेशकों ने आज की आय और भविष्य की आय या पूंजीगत लाभ के बीच चयन किया, बेलमैन के समीकरण का एक रूप है। क्योंकि गतिशील प्रोग्रामिंग के आर्थिक अनुप्रयोगों के परिणामस्वरूप सामान्यतः बेलमैन समीकरण होता है जो एक अंतर समीकरण है, अर्थशास्त्री गतिशील प्रोग्रामिंग को एक पुनरावर्ती विधि के रूप में संदर्भित करते हैं और [[पुनरावर्ती अर्थशास्त्र]] का एक उपक्षेत्र अब अर्थशास्त्र के भीतर मान्यता प्राप्त है। | ||
[[नैन्सी स्टोकी]], रॉबर्ट ई. लुकास, और [[एडवर्ड प्रेस्कॉट]] ने | [[नैन्सी स्टोकी]], रॉबर्ट ई. लुकास, और [[एडवर्ड प्रेस्कॉट]] ने प्रसंभाव्य और गैर प्रसंभाव्य गतिशील प्रोग्रामिंग का काफी विस्तार से वर्णन किया है, और कुछ मांगों को पूरा करने वाली समस्याओं के समाधान के अस्तित्व के लिए प्रमेय विकसित किए हैं। वे पुनरावर्ती विधियों का उपयोग करके अर्थशास्त्र में सैद्धांतिक समस्याओं के प्रतिरूपण के कई उदाहरणों का भी वर्णन करते हैं।<ref>{{cite book |first1=Nancy |last1=Stokey |first2=Robert E. |last2=Lucas |first3=Edward |last3=Prescott |year=1989 |title=Recursive Methods in Economic Dynamics |publisher=Harvard University Press |isbn=0-674-75096-9 }}</ref> इस पुस्तक ने गतिशील प्रोग्रामिंग को अर्थशास्त्र में सैद्धांतिक समस्याओं की एक विस्तृत श्रृंखला को हल करने के लिए नियोजित किया, जिसमें इष्टतम [[आर्थिक विकास]], [[संसाधन निष्कर्षण]], मुलतत्व-कारक समस्याएं, [[सार्वजनिक वित्त]], व्यापार [[निवेश]], [[परिसंपत्ति मूल्य निर्धारण]], उत्पादन आपूर्ति का कारक और [[औद्योगिक संगठन]] सम्मिलित हैं। [[Lars Ljungqvist|लार्स जुंगकविस्ट]] और [[थॉमस सार्जेंट]] मौद्रिक नीति, [[राजकोषीय नीति]], कराधान, आर्थिक विकास, [[खोज सिद्धांत]] और [[श्रम अर्थशास्त्र]] में विभिन्न प्रकार के सैद्धांतिक प्रश्नों का अध्ययन करने के लिए गतिशील प्रोग्रामिंग लागू करते हैं।<ref>{{cite book |first1=Lars |last1=Ljungqvist |first2=Thomas |last2=Sargent |year=2012 |title=Recursive Macroeconomic Theory |publisher=MIT Press |edition=3rd |isbn=978-0-262-01874-6 }}</ref> [[अविनाश दीक्षित]] और [[रॉबर्ट पिंडिक]] ने [[पूंजी आय - व्ययक]] के बारे में सोचने के लिए विधि का मूल्य दिखाया।<ref>{{cite book |first1=Avinash |last1=Dixit |first2=Robert |last2=Pindyck |year=1994 |title=Investment Under Uncertainty |publisher=Princeton University Press |isbn=0-691-03410-9 |url-access=registration |url=https://archive.org/details/investmentunderu00dixi_0 }}</ref> एंडरसन ने व्यक्तिगत तौर पर आयोजित व्यवसायों सहित तकनीक को व्यापार मूल्यांकन के लिए अनुकूलित किया।<ref>{{cite book |last=Anderson |first=Patrick L. |title=Business Economics & Finance |publisher=CRC Press |year=2004 |chapter=Ch. 10 |isbn=1-58488-348-0}} | ||
<br/>{{cite journal |last=Anderson |first=Patrick L. |author-mask=1 |title=The Value of Private Businesses in the United States |journal=Business Economics |year=2009 |volume=44 |issue=2 |pages=87–108 |doi=10.1057/be.2009.4|s2cid=154743445 }} | <br/>{{cite journal |last=Anderson |first=Patrick L. |author-mask=1 |title=The Value of Private Businesses in the United States |journal=Business Economics |year=2009 |volume=44 |issue=2 |pages=87–108 |doi=10.1057/be.2009.4|s2cid=154743445 }} | ||
<br/>{{cite book |last=Anderson |first=Patrick L. |author-mask=1 |title=Economics of Business Valuation |publisher=Stanford University Press |year=2013 |isbn=9780804758307}} [http://www.sup.org/book.cgi?id=11400 Stanford Press] {{Webarchive|url=https://web.archive.org/web/20130808132733/http://www.sup.org/book.cgi?id=11400 |date=2013-08-08 }}</ref> | <br/>{{cite book |last=Anderson |first=Patrick L. |author-mask=1 |title=Economics of Business Valuation |publisher=Stanford University Press |year=2013 |isbn=9780804758307}} [http://www.sup.org/book.cgi?id=11400 Stanford Press] {{Webarchive|url=https://web.archive.org/web/20130808132733/http://www.sup.org/book.cgi?id=11400 |date=2013-08-08 }}</ref> | ||
साकार समस्याओं को हल करने के लिए गतिशील प्रोग्रामिंग का उपयोग सूचना संबंधी कठिनाइयों से जटिल है, जैसे कि अप्राप्य छूट दर का चयन करना। संगणनात्मक विषय भी हैं, जिनमें से एक मुख्य संभावित क्रियाओं और संभावित स्थिति चरों की विशाल संख्या से उत्पन्न होने वाली आयामीता का अभिशाप है जिसे एक इष्टतम रणनीति का चयन करने से पहले विचार किया जाना चाहिए। संगणनात्मक विषयों की व्यापक चर्चा के लिए, मिरांडा और फाकलर देखें,<ref>{{cite book |first1=Mario J. |last1=Miranda |first2=Paul L. |last2=Fackler |title=Applied Computational Economics and Finance |url=https://archive.org/details/appliedcomputati0000mira |url-access=registration |date=2004 |publisher=MIT Press |isbn=978-0-262-29175-0 }}</ref> और मेयन 2007.<ref>{{cite book |first=Sean |last=Meyn |title=Control Techniques for Complex Networks |url=https://books.google.com/books?id=0OdSX2BZ4WIC |year=2008 |publisher=Cambridge University Press |isbn=978-0-521-88441-9}} Appendix contains abridged [http://decision.csl.uiuc.edu/~meyn/pages/book.html Meyn & Tweedie] {{webarchive|url=https://web.archive.org/web/20071012194420/http://decision.csl.uiuc.edu/~meyn/pages/book.html |date=2007-10-12 }}.</ref> | |||
Line 113: | Line 115: | ||
:<math> V^\pi(s)= R(s,\pi(s)) + \gamma \sum_{s'} P(s'|s,\pi(s)) V^\pi(s').\ </math> | :<math> V^\pi(s)= R(s,\pi(s)) + \gamma \sum_{s'} P(s'|s,\pi(s)) V^\pi(s').\ </math> | ||
यह समीकरण किसी नीति द्वारा निर्धारित | यह समीकरण किसी नीति <math>\pi</math> द्वारा निर्धारित कार्यकलाप करने के लिए अपेक्षित पुरस्कार का वर्णन करता है। | ||
इष्टतम नीति के समीकरण को बेलमैन इष्टतमता समीकरण कहा जाता है: | इष्टतम नीति के समीकरण को बेलमैन इष्टतमता समीकरण कहा जाता है: | ||
:<math> V^{\pi*}(s)= \max_a \left\{ {R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^{\pi*}(s')} \right\}.\ </math> | :<math> V^{\pi*}(s)= \max_a \left\{ {R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^{\pi*}(s')} \right\}.\ </math> | ||
जहाँ <math>{\pi*}</math> इष्टतम नीति है और <math>V^{\pi*}</math> इष्टतम नीति के मूल्य फलन को संदर्भित करता है। उपरोक्त समीकरण उच्चतम प्रत्याशित लाभ देने वाली कार्यकलाप करने के लिए इनाम का वर्णन करता है। | |||
== यह भी देखें == | == यह भी देखें == | ||
* {{annotated link| | * {{annotated link|बेलमैन स्यूडोस्पेक्ट्रल विधि}} | ||
* {{annotated link| | * {{annotated link|गतिक क्रमादेशन}} | ||
* {{annotated link| | * {{annotated link|हैमिल्टन-जैकोबी-बेलमैन समीकरण}} | ||
* {{annotated link| | * {{annotated link|मार्कोव निर्णय प्रक्रिया}} | ||
* {{annotated link|Optimal control| | * {{annotated link|Optimal control|इष्टतम नियंत्रण सिद्धांत}} | ||
* {{annotated link| | * {{annotated link|सर्वोत्कृष्ट आधार}} | ||
* {{annotated link| | * {{annotated link|पुनरावर्ती प्रतिस्पर्धी संतुलन}} | ||
* {{annotated link| | * {{annotated link|स्टोचैस्टिक गतिशील क्रमादेशन}} | ||
Line 134: | Line 136: | ||
{{Reflist|30em}} | {{Reflist|30em}} | ||
{{DEFAULTSORT:Bellman Equation}} | {{DEFAULTSORT:Bellman Equation}} | ||
[[Category: | [[Category:All articles with unsourced statements|Bellman Equation]] | ||
[[Category:Created On 13/02/2023]] | [[Category:Articles with hatnote templates targeting a nonexistent page|Bellman Equation]] | ||
[[Category:Articles with unsourced statements from September 2017|Bellman Equation]] | |||
[[Category:Created On 13/02/2023|Bellman Equation]] | |||
[[Category:Lua-based templates|Bellman Equation]] | |||
[[Category:Machine Translated Page|Bellman Equation]] | |||
[[Category:Pages with script errors|Bellman Equation]] | |||
[[Category:Short description with empty Wikidata description|Bellman Equation]] | |||
[[Category:Templates Vigyan Ready|Bellman Equation]] | |||
[[Category:Templates that add a tracking category|Bellman Equation]] | |||
[[Category:Templates that generate short descriptions|Bellman Equation]] | |||
[[Category:Templates using TemplateData|Bellman Equation]] | |||
[[Category:Webarchive template wayback links]] | |||
[[Category:Wikipedia articles needing clarification from January 2020|Bellman Equation]] | |||
[[Category:Wikipedia articles needing clarification from September 2017|Bellman Equation]] | |||
[[Category:गतिशील प्रोग्रामिंग|Bellman Equation]] | |||
[[Category:नियंत्रण सिद्धांत|Bellman Equation]] | |||
[[Category:समीकरण|Bellman Equation]] |
Latest revision as of 15:52, 3 November 2023
रिचर्ड ई. बेलमैन के नाम पर एक बेलमैन समीकरण, गणितीय अनुकूलन (गणित) विधि से जुड़ी इष्टतमता के लिए एक आवश्यक परिस्थिति है जिसे गतिशील कार्यरचना के रूप में जाना जाता है।[1] यह एक निश्चित समय पर एक निर्णय समस्या के मूल्य को कुछ प्रारंभिक विकल्पों से लाभ और उन प्रारंभिक विकल्पों से उत्पन्न शेष निर्णय समस्या के मूल्य के रूप में लिखता है। यह एक गतिशील अनुकूलन समस्या को सरल उप-समस्याओं के अनुक्रम में तोड़ता है, जैसा कि बेलमैन के "इष्टतमता का सिद्धांत निर्धारित करता है।[2] समीकरण कुल क्रम के साथ बीजगणितीय संरचनाओं पर लागू होता है; आंशिक क्रम के साथ बीजगणितीय संरचनाओं के लिए, सामान्य बेलमैन के समीकरण का उपयोग किया जा सकता है।[3]
बेलमैन समीकरण पहले इंजीनियरिंग नियंत्रण सिद्धांत और उपयोजित गणित में अन्य विषयों पर लागू किया गया था, और बाद में आर्थिक सिद्धांत में एक महत्वपूर्ण उपकरण बन गया; हालांकि गतिशील प्रोग्रामिंग की बुनियादी अवधारणाओं को जॉन वॉन न्यूमैन और ऑस्कर मॉर्गनस्टर्न के खेल और आर्थिक आचरण का सिद्धांत और अब्राहम के अनुक्रमिक विश्लेषण में पूर्वनिर्धारित किया गया है। 'बेलमैन समीकरण' शब्द सामान्यतः असतत-समय अनुकूलन समस्याओं से जुड़े गतिशील प्रोग्रामिंग समीकरण को संदर्भित करता है।[4] निरंतर-समय की अनुकूलन समस्याओं में, अनुरूप समीकरण एक आंशिक अंतर समीकरण है जिसे हैमिल्टन-जैकोबी-बेलमैन समीकरण कहा जाता है।[5][6]
असतत समय में उपयुक्त बेलमैन समीकरण का विश्लेषण करके किसी भी बहु-स्तरीय अनुकूलन समस्या को हल किया जा सकता है। नई स्थिति चर को प्रस्तुत करके उपयुक्त बेलमैन समीकरण पाया जा सकता है।[7] हालाँकि, परिणामी संवर्धित-स्थिति बहु-स्तरीय अनुकूलन समस्या में मूल बहु-स्तरीय अनुकूलन समस्या की तुलना में एक उच्च आयामी स्थिति स्थान है - एक ऐसा विषय जो संभावित रूप से संवर्धित समस्या को "आयामीता के अभिशाप" के कारण असाध्य बना सकता है। वैकल्पिक रूप से, यह दिखाया गया है कि यदि बहु-चरणी इष्टमीकरण समस्या का लागत प्रकार्य एक पिछड़े वियोज्य संरचना को संतुष्ट करता है, तो उपयुक्त बेलमैन समीकरण स्थिति वृद्धि के बिना पाया जा सकता है।[8]
गतिशील प्रोग्रामिंग में विश्लेषणात्मक अवधारणाएँ
बेलमैन समीकरण को समझने के लिए, कई अंतर्निहित अवधारणाओं को समझना आवश्यक है। सबसे पहले, किसी भी अनुकूलन समस्या का कुछ उद्देश्य होता है: यात्रा के समय को कम करना, लागत को कम करना, लाभ को अधिकतम करना, उपयोगिता को अधिकतम करना आदि। गणितीय कार्य जो इस उद्देश्य का वर्णन करता है, उसे हानि फलन कहा जाता है।
गतिशील प्रोग्रामिंग एक बहु-अवधि की योजना समस्या को अलग-अलग समय पर सरल चरणों में तोड़ देती है। इसलिए, समय के साथ निर्णय की स्थिति कैसे विकसित हो रही है, इस पर ध्यान केंद्रित करने की आवश्यकता है। सही निर्णय लेने के लिए आवश्यक वर्तमान स्थिति की जानकारी को स्थिति कहा जाता है।[9][10] उदाहरण के लिए, यह निश्चित करने के लिए कि प्रत्येक बिंदु पर कितना उपभोग और व्यय करना है, लोगों को (अन्य बातों के अतिरिक्त) अपनी प्रारंभिक संपत्ति जानने की आवश्यकता होगी। इसलिए धन उनके स्थिति चरों में से एक होगा, परन्तु संभवतः अन्य भी होंगे।
किसी दिए गए समय पर चुने गए चर को प्रायः नियंत्रण चर (प्रोग्रामिंग) कहा जाता है। उदाहरण के लिए, उनकी वर्तमान संपत्ति को देखते हुए, लोग यह निश्चित कर सकते हैं कि अभी कितना व्यय करना है। नियंत्रण चर का चयन अब अगले स्थिति को चुनने के सामानांतर हो सकता है; सामान्यतः, अगली स्थिति वर्तमान नियंत्रण के अतिरिक्त अन्य कारकों से प्रभावित होती है। उदाहरण के लिए, सबसे सरल स्तिथि में, आज का धन (स्थिति) और खपत (नियंत्रण) कल के धन (नया स्थिति) को सटीक रूप से निर्धारित कर सकते हैं, हालांकि सामान्यतः अन्य कारक कल के धन को भी प्रभावित करेंगे।
गतिशील प्रोग्रामिंग दृष्टिकोण एक नियम खोजकर इष्टतम योजना का वर्णन करता है जो बताता है कि स्थिति के किसी भी संभावित मूल्य को देखते हुए नियंत्रण क्या होना चाहिए। उदाहरण के लिए, यदि उपभोग (c) केवल धन (W) पर निर्भर करता है, तो हम एक नियम की खोज करेंगे जो उपभोग को धन के प्रकार्य के रूप में देता है। ऐसे नियम, जो स्थिति के कार्य के रूप में नियंत्रणों का निर्धारण करते हैं, नीति कार्य कहलाते हैं (बेलमैन, 1957, अध्याय III.2 देखें)।[9]
अंत में, परिभाषा के अनुसार, इष्टतम निर्णय नियम वह है जो उद्देश्य के सर्वोत्तम संभव मूल्य को प्राप्त करता है। उदाहरण के लिए, यदि कोई आनन्द को अधिकतम करने के लिए, उपभोग को चुनता है, तो आनन्द को अधिकतम करने के लिए (यह मानते हुए कि आनन्द H को एक गणितीय कार्य द्वारा दर्शाया जा सकता है, जैसे उपयोगिता प्रकार्य और धन द्वारा परिभाषित है), तब धन का प्रत्येक स्तर आनन्द के किसी उच्चतम संभव स्तर से जुड़ा होगा। स्थिति के एक फलन के रूप में लिखे गए उद्देश्य के सर्वोत्तम संभव मूल्य को मूल्य फलन कहा जाता है।
बेलमैन ने दिखाया कि असतत समय में एक गतिशील अनुकूलन (गणित) समस्या को एक पुनरावृत्ति में कहा जा सकता है, चरण-दर-चरण रूप जिसे एक अवधि में मूल्य फलन और अगली अवधि में मूल्य फलन के बीच संबंध लिखकर पश्च प्रेरण के रूप में जाना जाता है, इन दो मूल्य कार्यों के बीच संबंध को बेलमैन समीकरण कहा जाता है। इस दृष्टिकोण में, अंतिम समय अवधि में इष्टतम नीति उस समय स्थिति चर के मूल्य के एक फलन के रूप में अग्रिम रूप से निर्दिष्ट की जाती है, और इस प्रकार उद्देश्य फलन के परिणामी इष्टतम मूल्य को स्थिति चर के उस मूल्य के संदर्भ में व्यक्त किया जाता है। इसके बाद, अगली-से-अंतिम अवधि के अनुकूलन में उस अवधि की अवधि-विशिष्ट उद्देश्य फलन और भविष्य के उद्देश्य फलन के इष्टतम मूल्य को अधिकतम करना सम्मिलित है, जो उस अवधि की इष्टतम नीति को स्थिति चर के मूल्य पर निर्भर करता है, जैसा कि अगले-से-अंतिम अवधि का निर्णय निर्भर करता है। यह तर्क समय-समय पर पुनरावर्ती रूप से जारी रहता है, जब तक कि पहली अवधि के निर्णय नियम को प्रारंभिक स्थिति चर मूल्य के एक फलन के रूप में, पहली-अवधि-विशिष्ट उद्देश्य फलन के योग और दूसरी अवधि के मूल्य फलन के मूल्य को अनुकूलित करके, प्राप्त नहीं किया जाता है। जो भविष्य की सभी अवधियों के लिए मूल्य देता है। इस प्रकार, प्रत्येक अवधि का निर्णय स्पष्ट रूप से यह स्वीकार करते हुए किया जाता है कि भविष्य के सभी निर्णय इष्टतम रूप से किए जाएंगे।
व्युत्पत्ति
एक गतिशील निर्णय समस्या
स्थिति को समय पर मान लीजिये। एक निर्णय के लिए जो समय 0 से प्रारम्भ होता है, हम प्रारंभिक अवस्था के रूप में लेते हैं। किसी भी समय, संभावित क्रियाओं का समूह वर्तमान स्थिति पर निर्भर करता है; हम इसे इस प्रकार लिख सकते हैं, जहां क्रिया एक या अधिक नियंत्रण चर का प्रतिनिधित्व करती है। हम यह भी मानते हैं कि स्थिति से बदलता है एक नए स्थिति के लिए जब कार्यकलाप लिया जाता है, और यह कि कार्यकलाप करने से वर्तमान लाभ स्थिति में है। अंत में, हम अधीरता को मान लेते हैं, जिसे छूट कारक द्वारा दर्शाया जाता है .
इन मान्यताओं के तहत, एक अनंत-क्षितिज निर्णय समस्या निम्न रूप लेती है:
बाधाओं के अधीन
ध्यान दें कि हमने संकेतन को परिभाषित किया है। उस इष्टतम मूल्य को निरूपित करने के लिए जिसे कल्पित बाधाओं के अधीन इस उद्देश्य फलन को अधिकतम करके प्राप्त किया जा सकता है। यह फलन मान फलन है। यह प्रारंभिक अवस्था चर का एक कार्य है, चूंकि प्राप्त करने योग्य सर्वोत्तम मूल्य प्रारंभिक स्थिति पर निर्भर करता है।
बेलमैन का इष्टतमता का सिद्धांत
गतिशील प्रोग्रामिंग पद्धति इस निर्णय समस्या को छोटे उप-समस्याओं में तोड़ देती है। बेलमैन का इष्टतमता का सिद्धांत बताता है कि यह किस प्रकार करना है:
इष्टतमता का सिद्धांत: एक इष्टतम नीति में यह गुण होता है कि प्रारंभिक स्थिति और प्रारंभिक निर्णय चाहे जो भी हों, शेष निर्णयों को पहले से उत्पन्न स्थिति के संबंध में एक इष्टतम नीति का गठन करना चाहिए। (बेलमैन, 1957, अध्याय III.3 देखें।)[9][10][11]
कंप्यूटर विज्ञान में, एक समस्या जिसे इस तरह से तोड़ा जा सकता है, उसे इष्टतम उपसंरचना कहा जाता है। गतिशील खेल सिद्धांत के संदर्भ में, यह सिद्धांत उपखेल पूर्ण संतुलन की अवधारणा के अनुरूप है, हालांकि इस स्तिथि में एक इष्टतम नीति क्या है जो निर्णयकर्ता के विरोधियों द्वारा उनके दृष्टिकोण से समान इष्टतम नीतियों को चुनने पर निर्भर है।
जैसा कि इष्टतमता के सिद्धांत द्वारा सुझाया गया है, हम भविष्य के सभी निर्णयों को अलग करते हुए पहले निर्णय पर अलग से विचार करेंगे (हम नए स्थिति के साथ समय 1 से नए सिरे से प्रारंभ करेंगे)। भविष्य के निर्णयों को कोष्ठक में दाईं ओर एकत्रित करना, उपरोक्त अनंत-क्षितिज निर्णय समस्या के सामानांतर है:[clarification needed]
बाधाओं के अधीन
यहां हम चुन रहे हैं, यह जानते हुए कि हमारी पसंद समय 1 स्थिति का कारण बनेगी। वह नया स्थिति समय 1 से निर्णय समस्या को प्रभावित करेगा। संपूर्ण भविष्य की निर्णय समस्या दाईं ओर वर्ग कोष्ठक के अंदर दिखाई देती है।
बेलमैन समीकरण
अभी तक ऐसा लगता है कि हमने आज के निर्णय को भविष्य के निर्णयों से अलग करके समस्या को और अधिक कुरूप बना दिया है। लेकिन हम यह देखकर सरल कर सकते हैं कि दाईं ओर वर्ग कोष्ठक के अंदर जो है वह समय 1 निर्णय समस्या का मान है, जो स्थिति से प्रारम्भ होता है।
इसलिए, हम समस्या को मान फलन की पुनरावर्तन परिभाषा के रूप में फिर से लिख सकते हैं:
- , बाधाओं के अधीन:
यह बेलमैन समीकरण है। इसे और भी सरल बनाया जा सकता है यदि हम काल पादाक्षर छोड़ दें और अगले स्थिति के मान में प्रचार करें:
बेलमैन समीकरण को एक कार्यात्मक समीकरण के रूप में वर्गीकृत किया गया है, क्योंकि इसे हल करने का अर्थ अज्ञात फलन को खोजना है, जो कि परिमाण फलन है। याद रखें कि मूल्य फलन स्थिति के एक फलन के रूप में, उद्देश्य के सर्वोत्तम संभव मूल्य का वर्णन करता है। मान फलन की गणना करके, हम फलन भी ज्ञात करेंगे, जो स्थिति के कार्य के रूप में इष्टतम क्रिया का वर्णन करता है; इसे नीति कार्य कहा जाता है।
एक प्रसंभाव्य समस्या में
नियतात्मक समायोजन में, उपरोक्त इष्टतम नियंत्रण समस्या से निपटने के लिए गतिशील प्रोग्रामिंग के अतिरिक्त अन्य तकनीकों का उपयोग किया जा सकता है। हालांकि, बेलमैन समीकरण प्रायः प्रसंभाव्य इष्टतम नियंत्रण समस्याओं को हल करने का सबसे सुविधाजनक तरीका होता है।
अर्थशास्त्र से एक विशिष्ट उदाहरण के लिए, प्रारंभिक धन अक्षयनिधि के साथ अवधि में असीम रूप से रहने वाले उपभोक्ता पर विचार करें। उनके पास तात्कालिक उपयोगिता कार्य है जहाँ की दर से खपत और अगली अवधि की उपयोगिता को दर्शाता है। मान लीजिए कि अवधिकाल में जो उपभुक्त नहीं किया जाता है वह ब्याज दर के साथ अगली अवधि के लिए आगे बढ़ता है। तब उपभोक्ता की उपयोगिता अधिकतम करने की समस्या उपभोग योजना का चयन करना है। वह निम्न हल करता है
के अधीन
और
पहली बाधा पूंजी संचय/समस्या द्वारा निर्दिष्ट गति का नियम है, जबकि दूसरी बाधा एक अनुप्रस्थता प्रतिबंध है कि उपभोक्ता अपने जीवन के अंत में ऋण नहीं लेता है। बेलमैन समीकरण निम्न है
वैकल्पिक रूप से, कोई अनुक्रम समस्या का सीधे उपयोग कर सकता है, उदाहरण के लिए, हैमिल्टनियन समीकरण।
अब, यदि ब्याज दर समय-समय पर परिवर्तित होती रहती है, तो उपभोक्ता को प्रसंभाव्य अनुकूलन समस्या का सामना करना पड़ता है। बता दें कि ब्याज r प्रायिकता संक्रमण फलन के साथ एक मार्कोव प्रक्रिया का पालन करता है जहाँ यदि वर्तमान ब्याज दर है तो अगली अवधि में ब्याज दर के वितरण को नियंत्रित करने वाले संभाव्यता माप को दर्शाता है। इस प्रतिरूप में उपभोक्ता वर्तमान अवधि की ब्याज दर की घोषणा के बाद अपनी वर्तमान अवधि की खपत निश्चित करता है।
केवल एक अनुक्रम चुनने के स्थान पर, उपभोक्ता को अब एक क्रम चुनना होगा, a के हर संभव प्रत्यक्षीकरण के लिए, इस तरह से कि उनकी आजीवन अपेक्षित उपयोगिता अधिकतम हो:
अपेक्षा r's के अनुक्रमों पर Q द्वारा दिए गए उचित संभाव्यता माप के संबंध में लिया जाता है। क्योंकि r एक मार्कोव प्रक्रिया द्वारा नियंत्रित होता है, गतिशील प्रोग्रामिंग समस्या को महत्वपूर्ण रूप से सहज करती है। तब बेलमैन समीकरण सरल है:
कुछ उचित धारणा के तहत, परिणामी इष्टतम नीति कार्य g(a,r) मापने योग्य है।
मार्कोवियन प्रघात के साथ एक सामान्य प्रसंभाव्य अनुक्रमिक अनुकूलन समस्या के लिए और जहां अभिकर्ता को अपने निर्णय पूर्व-पट्रवाहक का प्रतिमुखन करना पड़ता है, बेलमैन समीकरण एक समान रूप लेता है
समाधान विधियाँ
- अनिर्धारित गुणांक की विधि, जिसे 'अनुमान और सत्यापन' के रूप में भी जाना जाता है, का उपयोग कुछ अनंत-क्षितिज, स्वायत्त प्रणाली (गणित) बेलमैन समीकरणों को हल करने के लिए किया जा सकता है।[12]
- बेलमैन समीकरण को पश्चगामी प्रेरण या तो कुछ विशेष स्तिथियों में विश्लेषणात्मक रूप से, या कंप्यूटर पर संख्यात्मक विश्लेषण द्वारा हल किया जा सकता है। संख्यात्मक पश्चगामी प्रेरण कई तरह की समस्याओं पर लागू होता है, लेकिन विमीयता के अभिशाप के कारण कई अवस्था चर होने पर यह संभव नहीं हो सकता है। बेलमैन फलन का अनुमान लगाने के लिए कृत्रिम तंत्रिका संजाल (बहुपरत परसेप्ट्रॉन) के उपयोग के साथ डी.पी. बर्टसेकास और जे.एन. त्सित्सिकलिस द्वारा अनुमानित गतिशील प्रोग्रामिंग प्रस्तुत की गई है।।[13] यह एकमात्र तंत्रिका संजाल मापदंडों के स्मरण के साथ पूरे समष्टि प्रांत के लिए पूर्ण फलन प्रतिचित्रण के संस्मरण को बदलकर आयाम के प्रभाव को कम करने के लिए एक प्रभावी शमन रणनीति है। विशेष रूप से, निरंतर समय प्रणालियों के लिए, एक अनुमानित गतिशील प्रोग्रामिंग दृष्टिकोण प्रस्तुत किया गया था जो दोनों नीति पुनरावृत्तियों को तंत्रिका संजाल के साथ जोड़ता है।[14] असतत समय में, मूल्य पुनरावृत्तियों और तंत्रिका संजाल के संयोजन वाले HJB समीकरण को हल करने के लिए एक दृष्टिकोण प्रस्तुत किया गया था।[15]
- बेलमैन समीकरण से जुड़ी प्रथम-क्रम की स्थितियों की गणना करके, और फिर लिफाफा प्रमेय का उपयोग करके मूल्य फलन के व्युत्पन्न को समाप्त करने के लिए, या अंतर समीकरणों की एक प्रणाली प्राप्त करना संभव है जिसे 'यूलर-लग्रेंज समीकरण' कहा जाता है।[16] अंतर या अंतर समीकरणों के समाधान के लिए मानक तकनीकों का उपयोग स्थिति चर की गतिशीलता और अनुकूलन समस्या के नियंत्रण चर की गणना के लिए किया जा सकता है।
अर्थशास्त्र में अनुप्रयोग
अर्थशास्त्र में बेलमैन समीकरण का पहला ज्ञात अनुप्रयोग मार्टिन बेकमैन और रिचर्ड मुथ के कारण है।[17] मार्टिन बेकमैन ने भी 1959 में बेलमैन समीकरण का उपयोग करते हुए उपभोग सिद्धांत पर व्यापक रूप से लिखा। उनके काम ने एडमंड एस. फेल्प्स सहित अन्य को प्रभावित किया।
बेलमैन समीकरण का एक प्रसिद्ध आर्थिक अनुप्रयोग ICAPM पर रॉबर्ट सी. मर्टन का 1973 का मौलिक लेख है।[18] (मर्टन की संविभाग समस्या भी देखें)। मर्टन के सैद्धांतिक प्रतिरूप का समाधान, जिसमें निवेशकों ने आज की आय और भविष्य की आय या पूंजीगत लाभ के बीच चयन किया, बेलमैन के समीकरण का एक रूप है। क्योंकि गतिशील प्रोग्रामिंग के आर्थिक अनुप्रयोगों के परिणामस्वरूप सामान्यतः बेलमैन समीकरण होता है जो एक अंतर समीकरण है, अर्थशास्त्री गतिशील प्रोग्रामिंग को एक पुनरावर्ती विधि के रूप में संदर्भित करते हैं और पुनरावर्ती अर्थशास्त्र का एक उपक्षेत्र अब अर्थशास्त्र के भीतर मान्यता प्राप्त है।
नैन्सी स्टोकी, रॉबर्ट ई. लुकास, और एडवर्ड प्रेस्कॉट ने प्रसंभाव्य और गैर प्रसंभाव्य गतिशील प्रोग्रामिंग का काफी विस्तार से वर्णन किया है, और कुछ मांगों को पूरा करने वाली समस्याओं के समाधान के अस्तित्व के लिए प्रमेय विकसित किए हैं। वे पुनरावर्ती विधियों का उपयोग करके अर्थशास्त्र में सैद्धांतिक समस्याओं के प्रतिरूपण के कई उदाहरणों का भी वर्णन करते हैं।[19] इस पुस्तक ने गतिशील प्रोग्रामिंग को अर्थशास्त्र में सैद्धांतिक समस्याओं की एक विस्तृत श्रृंखला को हल करने के लिए नियोजित किया, जिसमें इष्टतम आर्थिक विकास, संसाधन निष्कर्षण, मुलतत्व-कारक समस्याएं, सार्वजनिक वित्त, व्यापार निवेश, परिसंपत्ति मूल्य निर्धारण, उत्पादन आपूर्ति का कारक और औद्योगिक संगठन सम्मिलित हैं। लार्स जुंगकविस्ट और थॉमस सार्जेंट मौद्रिक नीति, राजकोषीय नीति, कराधान, आर्थिक विकास, खोज सिद्धांत और श्रम अर्थशास्त्र में विभिन्न प्रकार के सैद्धांतिक प्रश्नों का अध्ययन करने के लिए गतिशील प्रोग्रामिंग लागू करते हैं।[20] अविनाश दीक्षित और रॉबर्ट पिंडिक ने पूंजी आय - व्ययक के बारे में सोचने के लिए विधि का मूल्य दिखाया।[21] एंडरसन ने व्यक्तिगत तौर पर आयोजित व्यवसायों सहित तकनीक को व्यापार मूल्यांकन के लिए अनुकूलित किया।[22]
साकार समस्याओं को हल करने के लिए गतिशील प्रोग्रामिंग का उपयोग सूचना संबंधी कठिनाइयों से जटिल है, जैसे कि अप्राप्य छूट दर का चयन करना। संगणनात्मक विषय भी हैं, जिनमें से एक मुख्य संभावित क्रियाओं और संभावित स्थिति चरों की विशाल संख्या से उत्पन्न होने वाली आयामीता का अभिशाप है जिसे एक इष्टतम रणनीति का चयन करने से पहले विचार किया जाना चाहिए। संगणनात्मक विषयों की व्यापक चर्चा के लिए, मिरांडा और फाकलर देखें,[23] और मेयन 2007.[24]
उदाहरण
मार्कोव निर्णय प्रक्रियाओं में, बेलमैन समीकरण अपेक्षित पुरस्कारों के लिए एक पुनरावर्तन है। उदाहरण के लिए, किसी विशेष स्थिति में होने और कुछ निश्चित नीति का पालन करने के लिए अपेक्षित इनाम बेलमैन समीकरण है:
यह समीकरण किसी नीति द्वारा निर्धारित कार्यकलाप करने के लिए अपेक्षित पुरस्कार का वर्णन करता है।
इष्टतम नीति के समीकरण को बेलमैन इष्टतमता समीकरण कहा जाता है:
जहाँ इष्टतम नीति है और इष्टतम नीति के मूल्य फलन को संदर्भित करता है। उपरोक्त समीकरण उच्चतम प्रत्याशित लाभ देने वाली कार्यकलाप करने के लिए इनाम का वर्णन करता है।
यह भी देखें
- बेलमैन स्यूडोस्पेक्ट्रल विधि
- गतिक क्रमादेशन
- हैमिल्टन-जैकोबी-बेलमैन समीकरण
- मार्कोव निर्णय प्रक्रिया
- इष्टतम नियंत्रण सिद्धांत
- सर्वोत्कृष्ट आधार
- पुनरावर्ती प्रतिस्पर्धी संतुलन
- स्टोचैस्टिक गतिशील क्रमादेशन
संदर्भ
- ↑ Dixit, Avinash K. (1990). Optimization in Economic Theory (2nd ed.). Oxford University Press. p. 164. ISBN 0-19-877211-4.
- ↑ Kirk, Donald E. (1970). Optimal Control Theory: An Introduction. Prentice-Hall. p. 55. ISBN 0-13-638098-0.
- ↑ Szcześniak, Ireneusz; Woźna-Szcześniak, Bożena (2022), Generic Dijkstra: correctness and tractability, arXiv:2204.13547
- ↑ Kirk 1970, p. 70
- ↑ Kamien, Morton I.; Schwartz, Nancy L. (1991). Dynamic Optimization: The Calculus of Variations and Optimal Control in Economics and Management (Second ed.). Amsterdam: Elsevier. p. 261. ISBN 0-444-01609-0.
- ↑ Kirk 1970, p. 88
- ↑ Jones, Morgan; Peet, Matthew M. (2020). "Extensions of the Dynamic Programming Framework: Battery Scheduling, Demand Charges, and Renewable Integration". IEEE Transactions on Automatic Control. 66 (4): 1602–1617. arXiv:1812.00792. doi:10.1109/TAC.2020.3002235. S2CID 119622206.
- ↑ Jones, Morgan; Peet, Matthew M. (2021). "A Generalization of Bellman's Equation with Application to Path Planning, Obstacle Avoidance and Invariant Set Estimation". Automatica. 127: 109510. arXiv:2006.08175. doi:10.1016/j.automatica.2021.109510. S2CID 222350370.
- ↑ 9.0 9.1 9.2 Bellman, R.E. (2003) [1957]. Dynamic Programming. Dover. ISBN 0-486-42809-5.
- ↑ 10.0 10.1 Dreyfus, S. (2002). "Richard Bellman on the birth of dynamic programming". Operations Research. 50 (1): 48–51. doi:10.1287/opre.50.1.48.17791.
- ↑ Bellman, R (August 1952). "On the Theory of Dynamic Programming". Proc Natl Acad Sci U S A. 38 (8): 716–9. Bibcode:1952PNAS...38..716B. doi:10.1073/pnas.38.8.716. PMC 1063639. PMID 16589166.
- ↑ Ljungqvist, Lars; Sargent, Thomas J. (2004). Recursive Macroeconomic Theory (2nd ed.). MIT Press. pp. 88–90. ISBN 0-262-12274-X.
- ↑ Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Neuro-dynamic Programming. Athena Scientific. ISBN 978-1-886529-10-6.
- ↑ Abu-Khalaf, Murad; Lewis, Frank L. (2005). "Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network HJB approach". Automatica. 41 (5): 779–791. doi:10.1016/j.automatica.2004.11.034.
- ↑ Al-Tamimi, Asma; Lewis, Frank L.; Abu-Khalaf, Murad (2008). "Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof". IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics). 38 (4): 943–949. doi:10.1109/TSMCB.2008.926614. PMID 18632382. S2CID 14202785.
- ↑ Miao, Jianjun (2014). Economic Dynamics in Discrete Time. MIT Press. p. 134. ISBN 978-0-262-32560-8.
- ↑ Beckmann, Martin; Muth, Richard (1954). "On the Solution to the 'Fundamental Equation' of inventory theory" (PDF). Cowles Commission Discussion Paper 2116.
- ↑ Merton, Robert C. (1973). "An Intertemporal Capital Asset Pricing Model". Econometrica. 41 (5): 867–887. doi:10.2307/1913811. JSTOR 1913811.
- ↑ Stokey, Nancy; Lucas, Robert E.; Prescott, Edward (1989). Recursive Methods in Economic Dynamics. Harvard University Press. ISBN 0-674-75096-9.
- ↑ Ljungqvist, Lars; Sargent, Thomas (2012). Recursive Macroeconomic Theory (3rd ed.). MIT Press. ISBN 978-0-262-01874-6.
- ↑ Dixit, Avinash; Pindyck, Robert (1994). Investment Under Uncertainty. Princeton University Press. ISBN 0-691-03410-9.
- ↑ Anderson, Patrick L. (2004). "Ch. 10". Business Economics & Finance. CRC Press. ISBN 1-58488-348-0.
— (2009). "The Value of Private Businesses in the United States". Business Economics. 44 (2): 87–108. doi:10.1057/be.2009.4. S2CID 154743445.
— (2013). Economics of Business Valuation. Stanford University Press. ISBN 9780804758307. Stanford Press Archived 2013-08-08 at the Wayback Machine - ↑ Miranda, Mario J.; Fackler, Paul L. (2004). Applied Computational Economics and Finance. MIT Press. ISBN 978-0-262-29175-0.
- ↑ Meyn, Sean (2008). Control Techniques for Complex Networks. Cambridge University Press. ISBN 978-0-521-88441-9. Appendix contains abridged Meyn & Tweedie Archived 2007-10-12 at the Wayback Machine.