मान फलन: Difference between revisions

From Vigyanwiki
(Created page with "किसी अनुकूलन समस्या का मान फलन किसी समाधान पर उद्देश्य फलन द्वार...")
 
(text)
Line 1: Line 1:
किसी [[अनुकूलन समस्या]] का मान फलन किसी समाधान पर उद्देश्य फलन द्वारा प्राप्त मान (गणित) देता है, जबकि यह केवल समस्या के [[पैरामीटर]]ों पर निर्भर करता है।<ref>{{cite book |first1=Wendell H. |last1=Fleming |author-link=Wendell Fleming |first2=Raymond W. |last2=Rishel |title=नियतात्मक और स्टोकेस्टिक इष्टतम नियंत्रण|location=New York |publisher=Springer |year=1975 |pages=81–83 |url=https://books.google.com/books?id=qJDbBwAAQBAJ&pg=PA81 |isbn=0-387-90155-8 }}</ref><ref>{{cite book |first=Michael R. |last=Caputo |title=Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications |location=New York |publisher=Cambridge University Press |year=2005 |isbn=0-521-60368-4 |page=185 |url=https://books.google.com/books?id=XZ2yYSVKWJkC&pg=PA185 }}</ref> एक [[नियंत्रण सिद्धांत]] [[गतिशील प्रणाली]] में, मान फ़ंक्शन अंतराल <var>[t, t पर सिस्टम के इष्टतम भुगतान का प्रतिनिधित्व करता है<sub>1</sub>]</var> जब समय-<var>t</var> स्थिति चर <var>x(t)=x</var> पर प्रारंभ किया गया।<ref>{{cite book |first=Thomas A. |last=Weber |title=Optimal Control Theory : with Applications in Economics |location=Cambridge |publisher=The MIT Press |year=2011 |isbn=978-0-262-01573-8 |page=82 }}</ref> यदि उद्देश्य फ़ंक्शन कुछ लागत का प्रतिनिधित्व करता है जिसे कम किया जाना है, तो मूल्य फ़ंक्शन को इष्टतम प्रोग्राम को पूरा करने की लागत के रूप में व्याख्या की जा सकती है, और इस प्रकार इसे कॉस्ट-टू-गो फ़ंक्शन के रूप में संदर्भित किया जाता है।<ref name="Bertsekas Tsitsiklis">{{cite book |first1=Dimitri P. |last1=Bertsekas |first2=John N. |last2=Tsitsiklis |title=न्यूरो-डायनामिक प्रोग्रामिंग|location=Belmont |publisher=Athena Scientific |year=1996 |isbn=1-886529-10-8 |page=2 }}</ref><ref>{{cite web |title=EE365: Dynamic Programming |url=https://stanford.edu/class/ee365/lectures/dp.pdf#page=3 }}</ref> एक आर्थिक संदर्भ में, जहां उद्देश्य फलन आमतौर पर [[उपयोगिता]] का प्रतिनिधित्व करता है, मान फलन अवधारणात्मक रूप से अप्रत्यक्ष उपयोगिता फलन के समतुल्य है।<ref>{{cite book |first1=Andreu |last1=Mas-Colell |author-link=Andreu Mas-Colell |first2=Michael D. |last2=Whinston |author-link2=Michael Whinston |first3=Jerry R. |last3=Green |title=सूक्ष्म आर्थिक सिद्धांत|location=New York |publisher=Oxford University Press |year=1995 |isbn=0-19-507340-1 |page=964 }}</ref><ref>{{cite book |first1=Dean |last1=Corbae |first2=Maxwell B. |last2=Stinchcombe |first3=Juraj |last3=Zeman |title=आर्थिक सिद्धांत और अर्थमिति के लिए गणितीय विश्लेषण का परिचय|publisher=Princeton University Press |year=2009 |page=145 |isbn=978-0-691-11867-3 |url=https://books.google.com/books?id=j5P83LtzVO8C&pg=PA145 }}</ref>
किसी [[अनुकूलन समस्या|अनुकूलन निर्मेय]] का मान फलन किसी समाधान पर उद्देश्य फलन द्वारा प्राप्त मान (गणित) देता है, जबकि यह केवल निर्मेय के [[पैरामीटर]]ों पर निर्भर करता है। <ref>{{cite book |first1=Wendell H. |last1=Fleming |author-link=Wendell Fleming |first2=Raymond W. |last2=Rishel |title=नियतात्मक और स्टोकेस्टिक इष्टतम नियंत्रण|location=New York |publisher=Springer |year=1975 |pages=81–83 |url=https://books.google.com/books?id=qJDbBwAAQBAJ&pg=PA81 |isbn=0-387-90155-8 }}</ref><ref>{{cite book |first=Michael R. |last=Caputo |title=Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications |location=New York |publisher=Cambridge University Press |year=2005 |isbn=0-521-60368-4 |page=185 |url=https://books.google.com/books?id=XZ2yYSVKWJkC&pg=PA185 }}</ref> एक [[नियंत्रण सिद्धांत]] [[गतिशील प्रणाली]] में, मान फलन अंतराल <var>[t, t<sub>1</sub> पर प्रणाली के इष्टतम भुगतान का प्रतिनिधित्व करता है]</var> जब समय-<var>t</var> स्थिति चर <var>x(t)=x</var> पर प्रारंभ किया गया। <ref>{{cite book |first=Thomas A. |last=Weber |title=Optimal Control Theory : with Applications in Economics |location=Cambridge |publisher=The MIT Press |year=2011 |isbn=978-0-262-01573-8 |page=82 }}</ref> यदि उद्देश्य फलन कुछ लागत का प्रतिनिधित्व करता है जिसे कम किया जाना है, तो मूल्य फलन को इष्टतम क्रमानुदेश को पूरा करने की लागत के रूप में व्याख्या की जा सकती है, और इस प्रकार इसे कॉस्ट-टू-गो फलन के रूप में संदर्भित किया जाता है। <ref name="Bertsekas Tsitsiklis">{{cite book |first1=Dimitri P. |last1=Bertsekas |first2=John N. |last2=Tsitsiklis |title=न्यूरो-डायनामिक प्रोग्रामिंग|location=Belmont |publisher=Athena Scientific |year=1996 |isbn=1-886529-10-8 |page=2 }}</ref><ref>{{cite web |title=EE365: Dynamic Programming |url=https://stanford.edu/class/ee365/lectures/dp.pdf#page=3 }}</ref> एक आर्थिक संदर्भ में, जहां उद्देश्य फलन सामान्यतः [[उपयोगिता]] का प्रतिनिधित्व करता है, मान फलन अवधारणात्मक रूप से अप्रत्यक्ष उपयोगिता फलन के समतुल्य है। <ref>{{cite book |first1=Andreu |last1=Mas-Colell |author-link=Andreu Mas-Colell |first2=Michael D. |last2=Whinston |author-link2=Michael Whinston |first3=Jerry R. |last3=Green |title=सूक्ष्म आर्थिक सिद्धांत|location=New York |publisher=Oxford University Press |year=1995 |isbn=0-19-507340-1 |page=964 }}</ref><ref>{{cite book |first1=Dean |last1=Corbae |first2=Maxwell B. |last2=Stinchcombe |first3=Juraj |last3=Zeman |title=आर्थिक सिद्धांत और अर्थमिति के लिए गणितीय विश्लेषण का परिचय|publisher=Princeton University Press |year=2009 |page=145 |isbn=978-0-691-11867-3 |url=https://books.google.com/books?id=j5P83LtzVO8C&pg=PA145 }}</ref> [[इष्टतम नियंत्रण]] की निर्मेय में, मान फलन को स्वीकार्य नियंत्रणों के सम्मुच्चय पर लिए गए उद्देश्य फलन के सर्वोच्च के रूप में परिभाषित किया गया है। दिया गया <math>(t_{0}, x_{0}) \in [0, t_{1}] \times \mathbb{R}^{d}</math>, निम्न एक विशिष्ट इष्टतम नियंत्रण निर्मेय
[[इष्टतम नियंत्रण]] की समस्या में, मान फ़ंक्शन को स्वीकार्य नियंत्रणों के सेट पर लिए गए ऑब्जेक्टिव फ़ंक्शन के सर्वोच्च के रूप में परिभाषित किया गया है। दिया गया <math>(t_{0}, x_{0}) \in [0, t_{1}] \times \mathbb{R}^{d}</math>, एक विशिष्ट इष्टतम नियंत्रण समस्या है
:<math> \text{maximize} \quad J(t_{0}, x_{0}; u) = \int_{t_{0}}^{t_{1}} I(t,x(t), u(t)) \, \mathrm{d}t + \phi(x(t_{1}))</math>
:<math> \text{maximize} \quad J(t_{0}, x_{0}; u) = \int_{t_{0}}^{t_{1}} I(t,x(t), u(t)) \, \mathrm{d}t + \phi(x(t_{1}))</math>
का विषय है
का विषय  
:<math>\frac{\mathrm{d}x(t)}{\mathrm{d}t} = f(t, x(t), u(t))</math>
:<math>\frac{\mathrm{d}x(t)}{\mathrm{d}t} = f(t, x(t), u(t))</math>
प्रारंभिक अवस्था चर के साथ <math>x(t_{0})=x_{0}</math>.<ref>{{cite book |first1=Morton I. |last1=Kamien |author-link=Morton Kamien |first2=Nancy L. |last2=Schwartz |title=Dynamic Optimization : The Calculus of Variations and Optimal Control in Economics and Management |location=Amsterdam |publisher=North-Holland |edition=2nd |year=1991 |isbn=0-444-01609-0 |page=259 }}</ref> उद्देश्य समारोह <math>J(t_{0}, x_{0}; u)</math> सभी स्वीकार्य नियंत्रणों पर अधिकतम किया जाना है <math>u \in U[t_{0},t_{1}]</math>, कहाँ <math>u</math> से एक [[मापने योग्य कार्य]] है <math>[t_{0}, t_{1}]</math> कुछ निर्धारित मनमाना सेट में <math>\mathbb{R}^{m}</math>. मूल्य समारोह तब के रूप में परिभाषित किया गया है
प्रारंभिक अवस्था <math>x(t_{0})=x_{0}</math>चर के साथ है। <ref>{{cite book |first1=Morton I. |last1=Kamien |author-link=Morton Kamien |first2=Nancy L. |last2=Schwartz |title=Dynamic Optimization : The Calculus of Variations and Optimal Control in Economics and Management |location=Amsterdam |publisher=North-Holland |edition=2nd |year=1991 |isbn=0-444-01609-0 |page=259 }}</ref> उद्देश्य फलन <math>J(t_{0}, x_{0}; u)</math> सभी स्वीकार्य नियंत्रणों पर अधिकतम <math>u \in U[t_{0},t_{1}]</math> किया जाना है, जहाँ कुछ निर्धारित स्वेच्छाचारी सम्मुच्चय <math>\mathbb{R}^{m}</math> में  <math>u</math> से एक [[मापने योग्य कार्य]] <math>[t_{0}, t_{1}]</math> है। मूल्य फलन तब के रूप में परिभाषित किया गया है
  {{Equation box 1
  {{Equation box 1
|indent =:
|indent =:
Line 12: Line 11:
|border colour = #50C878
|border colour = #50C878
|background colour = #ECFCF4}}
|background colour = #ECFCF4}}
साथ <math>V(t_{1}, x(t_{1})) = \phi(x(t_{1}))</math>, कहाँ <math>\phi(x(t_{1}))</math> स्क्रैप मूल्य है। यदि नियंत्रण और राज्य प्रक्षेपवक्र की इष्टतम जोड़ी है <math>(x^\ast, u^\ast)</math>, तब <math>V(t_{0}, x_{0}) = J(t_{0}, x_{0}; u^\ast)</math>. कार्यक्रम <math>h</math> जो इष्टतम नियंत्रण देता है <math>u^\ast</math> वर्तमान स्थिति के आधार पर <math>x</math> एक प्रतिक्रिया नियंत्रण नीति कहा जाता है,<ref name="Bertsekas Tsitsiklis"/>या बस एक नीति समारोह।<ref>{{cite book |first1=Lars |last1=Ljungqvist |author-link=Lars Ljungqvist |first2=Thomas J. |last2=Sargent |author-link2=Thomas J. Sargent |title=पुनरावर्ती मैक्रोइकॉनॉमिक थ्योरी|location=Cambridge |publisher=MIT Press |edition=Fourth |year=2018 |isbn=978-0-262-03866-9 |page=106 |url=https://books.google.com/books?id=Jm1qDwAAQBAJ&pg=PA106 }}</ref>
<math>V(t_{1}, x(t_{1})) = \phi(x(t_{1}))</math> के साथ, जहाँ <math>\phi(x(t_{1}))</math> उच्छिष्ट मूल्य है। यदि नियंत्रण और राज्य प्रक्षेपवक्र की इष्टतम जोड़ी <math>(x^\ast, u^\ast)</math> है, तब <math>V(t_{0}, x_{0}) = J(t_{0}, x_{0}; u^\ast)</math> है। कार्यक्रम <math>h</math> जो इष्टतम नियंत्रण <math>u^\ast</math> देता है वर्तमान स्थिति के आधार पर <math>x</math> एक प्रतिक्रिया नियंत्रण नीति,<ref name="Bertsekas Tsitsiklis"/> या बस एक नीति फलन कहा जाता है। <ref>{{cite book |first1=Lars |last1=Ljungqvist |author-link=Lars Ljungqvist |first2=Thomas J. |last2=Sargent |author-link2=Thomas J. Sargent |title=पुनरावर्ती मैक्रोइकॉनॉमिक थ्योरी|location=Cambridge |publisher=MIT Press |edition=Fourth |year=2018 |isbn=978-0-262-03866-9 |page=106 |url=https://books.google.com/books?id=Jm1qDwAAQBAJ&pg=PA106 }}</ref>
बेलमैन का इष्टतमता का सिद्धांत मोटे तौर पर बताता है कि समय पर कोई भी इष्टतम नीति <math>t</math>, <math>t_{0} \leq t \leq t_{1}</math> वर्तमान स्थिति ले रहा है <math>x(t)</math> नई प्रारंभिक स्थिति शेष समस्या के लिए इष्टतम होनी चाहिए। यदि मान फ़ंक्शन अवकलनीय फ़ंक्शन होता है,<ref>Benveniste and Scheinkman established sufficient conditions for the differentiability of the value function, which in turn allows the application of the [[envelope theorem]], see {{cite journal |first1=L. M. |last1=Benveniste |first2=J. A. |last2=Scheinkman |author-link2=José Scheinkman |title=On the Differentiability of the Value Function in Dynamic Models of Economics |journal=Econometrica |volume=47 |issue=3 |year=1979 |pages=727–732 |jstor=1910417 |doi=10.2307/1910417 }} Also see {{cite journal |first=Atle |last=Seierstad |title=Differentiability Properties of the Optimal Value Function in Control Theory |journal=Journal of Economic Dynamics and Control |volume=4 |year=1982 |pages=303–310 |doi=10.1016/0165-1889(82)90019-7 }} </ref> यह एक महत्वपूर्ण आंशिक अंतर समीकरण को जन्म देता है जिसे हैमिल्टन-जैकोबी-बेलमैन समीकरण के रूप में जाना जाता है,
 
बेलमैन का इष्टतमता का सिद्धांत स्थूलतः बताता है कि समय <math>t</math> पर कोई भी इष्टतम नीति, <math>t_{0} \leq t \leq t_{1}</math> वर्तमान स्थिति <math>x(t)</math> नई प्रारंभिक स्थिति शेष निर्मेय के लिए इष्टतम होनी चाहिए। यदि मान फलन अवकलनीय फलन होता है,<ref>Benveniste and Scheinkman established sufficient conditions for the differentiability of the value function, which in turn allows the application of the [[envelope theorem]], see {{cite journal |first1=L. M. |last1=Benveniste |first2=J. A. |last2=Scheinkman |author-link2=José Scheinkman |title=On the Differentiability of the Value Function in Dynamic Models of Economics |journal=Econometrica |volume=47 |issue=3 |year=1979 |pages=727–732 |jstor=1910417 |doi=10.2307/1910417 }} Also see {{cite journal |first=Atle |last=Seierstad |title=Differentiability Properties of the Optimal Value Function in Control Theory |journal=Journal of Economic Dynamics and Control |volume=4 |year=1982 |pages=303–310 |doi=10.1016/0165-1889(82)90019-7 }} </ref> यह एक महत्वपूर्ण आंशिक अंतर समीकरण को उत्पन्न करता है जिसे हैमिल्टन-जैकोबी-बेलमैन समीकरण के रूप में जाना जाता है,
:<math>-\frac{\partial V(t,x)}{\partial t} = \max_u \left\{ I(t,x,u) + \frac{\partial V(t,x)}{\partial x} f(t, x, u) \right\}</math>
:<math>-\frac{\partial V(t,x)}{\partial t} = \max_u \left\{ I(t,x,u) + \frac{\partial V(t,x)}{\partial x} f(t, x, u) \right\}</math>
जहाँ विक्षनरी: दाएँ हाथ की ओर अधिकतम भी [[हैमिल्टनियन (नियंत्रण सिद्धांत)]] के रूप में फिर से लिखा जा सकता है, <math>H \left(t, x, u, \lambda \right) = I(t,x,u) + \lambda f(t, x, u)</math>, जैसा
जहाँ विक्षनरी: दाएँ हाथ की ओर अधिकतम भी [[हैमिल्टनियन (नियंत्रण सिद्धांत)]] <math>H \left(t, x, u, \lambda \right) = I(t,x,u) + \lambda f(t, x, u)</math> के रूप में फिर से लिखा जा सकता है, जैसे
:<math>-\frac{\partial V(t,x)}{\partial t} = \max_u H(t,x,u,\lambda)</math>
:<math>-\frac{\partial V(t,x)}{\partial t} = \max_u H(t,x,u,\lambda)</math>
साथ <math>\partial V(t,x)/\partial x = \lambda(t)</math> कॉस्टेट चर की भूमिका निभा रहा है।<ref>{{cite book |first=Donald E. |last=Kirk |title=इष्टतम नियंत्रण सिद्धांत|location=Englewood Cliffs, NJ |publisher=Prentice-Hall |year=1970 |isbn=0-13-638098-0 |page=88 }}</ref> इस परिभाषा को देखते हुए, हमारे पास आगे है <math>\mathrm{d} \lambda(t) / \mathrm{d}t = \partial^{2} V(t,x) / \partial x \partial t + \partial^{2} V(t,x) / \partial x^{2} \cdot f(x)</math>, और के संबंध में HJB समीकरण के दोनों पक्षों को अवकलित करने के बाद <math>x</math>,
<math>\partial V(t,x)/\partial x = \lambda(t)</math> कॉस्टेट चर की भूमिका निभा रहा है। <ref>{{cite book |first=Donald E. |last=Kirk |title=इष्टतम नियंत्रण सिद्धांत|location=Englewood Cliffs, NJ |publisher=Prentice-Hall |year=1970 |isbn=0-13-638098-0 |page=88 }}</ref> इस परिभाषा को देखते हुए, हमारे पास आगे <math>\mathrm{d} \lambda(t) / \mathrm{d}t = \partial^{2} V(t,x) / \partial x \partial t + \partial^{2} V(t,x) / \partial x^{2} \cdot f(x)</math> है, और x के संबंध में HJB समीकरण के दोनों पक्षों को अवकलित करने के बाद समीकरण निम्न प्रकार है,
:<math>- \frac{\partial^{2} V(t,x)}{\partial t \partial x} = \frac{\partial I}{\partial x} + \frac{\partial^{2} V(t,x)}{\partial x^{2}} f(x) + \frac{\partial V(t,x)}{\partial x} \frac{\partial f(x)}{\partial x}</math>
:<math>- \frac{\partial^{2} V(t,x)}{\partial t \partial x} = \frac{\partial I}{\partial x} + \frac{\partial^{2} V(t,x)}{\partial x^{2}} f(x) + \frac{\partial V(t,x)}{\partial x} \frac{\partial f(x)}{\partial x}</math>
जो उपयुक्त शर्तों को बदलने के बाद कॉस्टेट समीकरण को पुनः प्राप्त करता है
जो उपयुक्त परिस्थितियों को बदलने के बाद कॉस्टेट समीकरण को पुनः प्राप्त करता है
:<math>- \dot{\lambda}(t) = \frac{\partial I}{\partial x} + \lambda(t) \frac{\partial f(x)}{\partial x} = \frac{\partial H}{\partial x}</math>
:<math>- \dot{\lambda}(t) = \frac{\partial I}{\partial x} + \lambda(t) \frac{\partial f(x)}{\partial x} = \frac{\partial H}{\partial x}</math>
कहाँ <math>\dot{\lambda}(t)</math> समय के संबंध में डेरिवेटिव के लिए [[न्यूटन नोटेशन]] है।<ref>{{cite journal |first=X. Y. |last=Zhou |title=अधिकतम सिद्धांत, गतिशील प्रोग्रामिंग, और नियतात्मक नियंत्रण में उनका संबंध|journal=Journal of Optimization Theory and Applications |year=1990 |volume=65 |issue=2 |pages=363–373 |doi=10.1007/BF01102352 |s2cid=122333807 }}</ref>
जहाँ <math>\dot{\lambda}(t)</math> समय के संबंध में व्युत्पन्न शब्द के लिए [[न्यूटन नोटेशन|न्यूटन संकेत पद्धति]] है। <ref>{{cite journal |first=X. Y. |last=Zhou |title=अधिकतम सिद्धांत, गतिशील प्रोग्रामिंग, और नियतात्मक नियंत्रण में उनका संबंध|journal=Journal of Optimization Theory and Applications |year=1990 |volume=65 |issue=2 |pages=363–373 |doi=10.1007/BF01102352 |s2cid=122333807 }}</ref> मूल्य फलन हैमिल्टन-जैकोबी-बेलमैन समीकरण का अद्वितीय [[चिपचिपापन समाधान|श्यानता समाधान]] है। <ref>Theorem 10.1 in {{cite web |title=Viscosity Solutions of Hamilton-Jacobi Equations and Optimal Control Problems |first=Alberto |last=Bressan |date=2019 |work=Lecture Notes |url=http://personal.psu.edu/axb62/PSPDF/HJlnotes19.pdf#page=54 }}</ref> एक [[ ऑनलाइन एल्गोरिदम |ऑनलाइन कलन विधि]] बंद-परिपथ अनुमानित इष्टतम नियंत्रण में, वैल्यू फलन भी एक [[लायपुनोव समारोह|लायपुनोव फलन]] है जो बंद-परिपथ प्रणाली की वैश्विक स्पर्शोन्मुख स्थिरता स्थापित करता है।<ref>{{cite book |first1=Rushikesh |last1=Kamalapurkar |first2=Patrick |last2=Walters |first3=Joel |last3=Rosenfeld |first4=Warren |last4=Dixon |title=Reinforcement Learning for Optimal Feedback Control: A Lyapunov-Based Approach |location=Berlin |publisher=Springer |year=2018 |isbn=978-3-319-78383-3 |chapter=Optimal Control and Lyapunov Stability |pages=26–27 |chapter-url=https://books.google.com/books?id=R3haDwAAQBAJ&pg=PA27 }}</ref>
मूल्य समारोह हैमिल्टन-जैकोबी-बेलमैन समीकरण का अद्वितीय [[चिपचिपापन समाधान]] है।<ref>Theorem 10.1 in {{cite web |title=Viscosity Solutions of Hamilton-Jacobi Equations and Optimal Control Problems |first=Alberto |last=Bressan |date=2019 |work=Lecture Notes |url=http://personal.psu.edu/axb62/PSPDF/HJlnotes19.pdf#page=54 }}</ref> एक [[ ऑनलाइन एल्गोरिदम ]] बंद-लूप अनुमानित इष्टतम नियंत्रण में, वैल्यू फ़ंक्शन भी एक [[लायपुनोव समारोह]] है जो बंद-लूप सिस्टम की वैश्विक स्पर्शोन्मुख स्थिरता स्थापित करता है।<ref>{{cite book |first1=Rushikesh |last1=Kamalapurkar |first2=Patrick |last2=Walters |first3=Joel |last3=Rosenfeld |first4=Warren |last4=Dixon |title=Reinforcement Learning for Optimal Feedback Control: A Lyapunov-Based Approach |location=Berlin |publisher=Springer |year=2018 |isbn=978-3-319-78383-3 |chapter=Optimal Control and Lyapunov Stability |pages=26–27 |chapter-url=https://books.google.com/books?id=R3haDwAAQBAJ&pg=PA27 }}</ref>
 




Line 32: Line 32:
*{{cite book |first=Michael R. |last=Caputo |chapter=Necessary and Sufficient Conditions for Isoperimetric Problems |title=Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications |location=New York |publisher=Cambridge University Press |year=2005 |isbn=0-521-60368-4 |pages=174–210 |chapter-url=https://books.google.com/books?id=XZ2yYSVKWJkC&pg=PA174 }}
*{{cite book |first=Michael R. |last=Caputo |chapter=Necessary and Sufficient Conditions for Isoperimetric Problems |title=Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications |location=New York |publisher=Cambridge University Press |year=2005 |isbn=0-521-60368-4 |pages=174–210 |chapter-url=https://books.google.com/books?id=XZ2yYSVKWJkC&pg=PA174 }}
*{{cite journal |first1=Frank H. |last1=Clarke |first2=Philip D. |last2=Loewen |year=1986 |title=The Value Function in Optimal Control: Sensitivity, Controllability, and Time-Optimality |journal=SIAM Journal on Control and Optimization |volume=24 |issue=2 |pages=243–263 |doi=10.1137/0324014 }}
*{{cite journal |first1=Frank H. |last1=Clarke |first2=Philip D. |last2=Loewen |year=1986 |title=The Value Function in Optimal Control: Sensitivity, Controllability, and Time-Optimality |journal=SIAM Journal on Control and Optimization |volume=24 |issue=2 |pages=243–263 |doi=10.1137/0324014 }}
*{{cite journal |first1=Jeffrey T. |last1=LaFrance |first2=L. Dwayne |last2=Barney |title=The Envelope Theorem in Dynamic Optimization |journal=Journal of Economic Dynamics and Control |volume=15 |issue=2 |year=1991 |pages=355–385 |doi=10.1016/0165-1889(91)90018-V |url=http://ageconsearch.umn.edu/record/259398/files/agecon-montanastate-003.pdf }}
*{{cite journal |first1=Jeffrey T. |last1=LaFrance |first2=L. Dwayne |last2=Barney |title=गतिशील अनुकूलन में लिफाफा प्रमेय |journal=आर्थिक गतिशीलता और नियंत्रण जर्नल |volume=15 |issue=2 |year=1991 |pages=355–385 |doi=10.1016/0165-1889(91)90018-V |url=http://ageconsearch.umn.edu/record/259398/files/agecon-montanastate-003.pdf }}
*{{cite book |first=Robert F. |last=Stengel |chapter=Conditions for Optimality |title=Optimal Control and Estimation |location=New York |publisher=Dover |year=1994 |isbn=0-486-68200-5 |pages=201–222 |chapter-url=https://books.google.com/books?id=jDjPxqm7Lw0C&pg=PA201 }}
*{{cite book |first=Robert F. |last=Stengel |chapter=अनुकूलता के लिए शर्तें |title=इष्टतम नियंत्रण और अनुमान |location=New York |publisher=Dover |year=1994 |isbn=0-486-68200-5 |pages=201–222 |chapter-url=https://books.google.com/books?id=jDjPxqm7Lw0C&pg=PA201 }}
[[Category: गतिशील प्रोग्रामिंग]] [[Category: इष्टतम नियंत्रण]]  
[[Category: गतिशील प्रोग्रामिंग]] [[Category: इष्टतम नियंत्रण]]  



Revision as of 21:47, 31 May 2023

किसी अनुकूलन निर्मेय का मान फलन किसी समाधान पर उद्देश्य फलन द्वारा प्राप्त मान (गणित) देता है, जबकि यह केवल निर्मेय के पैरामीटरों पर निर्भर करता है। [1][2] एक नियंत्रण सिद्धांत गतिशील प्रणाली में, मान फलन अंतराल [t, t1 पर प्रणाली के इष्टतम भुगतान का प्रतिनिधित्व करता है] जब समय-t स्थिति चर x(t)=x पर प्रारंभ किया गया। [3] यदि उद्देश्य फलन कुछ लागत का प्रतिनिधित्व करता है जिसे कम किया जाना है, तो मूल्य फलन को इष्टतम क्रमानुदेश को पूरा करने की लागत के रूप में व्याख्या की जा सकती है, और इस प्रकार इसे कॉस्ट-टू-गो फलन के रूप में संदर्भित किया जाता है। [4][5] एक आर्थिक संदर्भ में, जहां उद्देश्य फलन सामान्यतः उपयोगिता का प्रतिनिधित्व करता है, मान फलन अवधारणात्मक रूप से अप्रत्यक्ष उपयोगिता फलन के समतुल्य है। [6][7] इष्टतम नियंत्रण की निर्मेय में, मान फलन को स्वीकार्य नियंत्रणों के सम्मुच्चय पर लिए गए उद्देश्य फलन के सर्वोच्च के रूप में परिभाषित किया गया है। दिया गया , निम्न एक विशिष्ट इष्टतम नियंत्रण निर्मेय

का विषय

प्रारंभिक अवस्था चर के साथ है। [8] उद्देश्य फलन सभी स्वीकार्य नियंत्रणों पर अधिकतम किया जाना है, जहाँ कुछ निर्धारित स्वेच्छाचारी सम्मुच्चय में से एक मापने योग्य कार्य है। मूल्य फलन तब के रूप में परिभाषित किया गया है

के साथ, जहाँ उच्छिष्ट मूल्य है। यदि नियंत्रण और राज्य प्रक्षेपवक्र की इष्टतम जोड़ी है, तब है। कार्यक्रम जो इष्टतम नियंत्रण देता है वर्तमान स्थिति के आधार पर एक प्रतिक्रिया नियंत्रण नीति,[4] या बस एक नीति फलन कहा जाता है। [9]

बेलमैन का इष्टतमता का सिद्धांत स्थूलतः बताता है कि समय पर कोई भी इष्टतम नीति, वर्तमान स्थिति नई प्रारंभिक स्थिति शेष निर्मेय के लिए इष्टतम होनी चाहिए। यदि मान फलन अवकलनीय फलन होता है,[10] यह एक महत्वपूर्ण आंशिक अंतर समीकरण को उत्पन्न करता है जिसे हैमिल्टन-जैकोबी-बेलमैन समीकरण के रूप में जाना जाता है,

जहाँ विक्षनरी: दाएँ हाथ की ओर अधिकतम भी हैमिल्टनियन (नियंत्रण सिद्धांत) के रूप में फिर से लिखा जा सकता है, जैसे

कॉस्टेट चर की भूमिका निभा रहा है। [11] इस परिभाषा को देखते हुए, हमारे पास आगे है, और x के संबंध में HJB समीकरण के दोनों पक्षों को अवकलित करने के बाद समीकरण निम्न प्रकार है,

जो उपयुक्त परिस्थितियों को बदलने के बाद कॉस्टेट समीकरण को पुनः प्राप्त करता है

जहाँ समय के संबंध में व्युत्पन्न शब्द के लिए न्यूटन संकेत पद्धति है। [12] मूल्य फलन हैमिल्टन-जैकोबी-बेलमैन समीकरण का अद्वितीय श्यानता समाधान है। [13] एक ऑनलाइन कलन विधि बंद-परिपथ अनुमानित इष्टतम नियंत्रण में, वैल्यू फलन भी एक लायपुनोव फलन है जो बंद-परिपथ प्रणाली की वैश्विक स्पर्शोन्मुख स्थिरता स्थापित करता है।[14]


संदर्भ

  1. Fleming, Wendell H.; Rishel, Raymond W. (1975). नियतात्मक और स्टोकेस्टिक इष्टतम नियंत्रण. New York: Springer. pp. 81–83. ISBN 0-387-90155-8.
  2. Caputo, Michael R. (2005). Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications. New York: Cambridge University Press. p. 185. ISBN 0-521-60368-4.
  3. Weber, Thomas A. (2011). Optimal Control Theory : with Applications in Economics. Cambridge: The MIT Press. p. 82. ISBN 978-0-262-01573-8.
  4. 4.0 4.1 Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). न्यूरो-डायनामिक प्रोग्रामिंग. Belmont: Athena Scientific. p. 2. ISBN 1-886529-10-8.
  5. "EE365: Dynamic Programming" (PDF).
  6. Mas-Colell, Andreu; Whinston, Michael D.; Green, Jerry R. (1995). सूक्ष्म आर्थिक सिद्धांत. New York: Oxford University Press. p. 964. ISBN 0-19-507340-1.
  7. Corbae, Dean; Stinchcombe, Maxwell B.; Zeman, Juraj (2009). आर्थिक सिद्धांत और अर्थमिति के लिए गणितीय विश्लेषण का परिचय. Princeton University Press. p. 145. ISBN 978-0-691-11867-3.
  8. Kamien, Morton I.; Schwartz, Nancy L. (1991). Dynamic Optimization : The Calculus of Variations and Optimal Control in Economics and Management (2nd ed.). Amsterdam: North-Holland. p. 259. ISBN 0-444-01609-0.
  9. Ljungqvist, Lars; Sargent, Thomas J. (2018). पुनरावर्ती मैक्रोइकॉनॉमिक थ्योरी (Fourth ed.). Cambridge: MIT Press. p. 106. ISBN 978-0-262-03866-9.
  10. Benveniste and Scheinkman established sufficient conditions for the differentiability of the value function, which in turn allows the application of the envelope theorem, see Benveniste, L. M.; Scheinkman, J. A. (1979). "On the Differentiability of the Value Function in Dynamic Models of Economics". Econometrica. 47 (3): 727–732. doi:10.2307/1910417. JSTOR 1910417. Also see Seierstad, Atle (1982). "Differentiability Properties of the Optimal Value Function in Control Theory". Journal of Economic Dynamics and Control. 4: 303–310. doi:10.1016/0165-1889(82)90019-7.
  11. Kirk, Donald E. (1970). इष्टतम नियंत्रण सिद्धांत. Englewood Cliffs, NJ: Prentice-Hall. p. 88. ISBN 0-13-638098-0.
  12. Zhou, X. Y. (1990). "अधिकतम सिद्धांत, गतिशील प्रोग्रामिंग, और नियतात्मक नियंत्रण में उनका संबंध". Journal of Optimization Theory and Applications. 65 (2): 363–373. doi:10.1007/BF01102352. S2CID 122333807.
  13. Theorem 10.1 in Bressan, Alberto (2019). "Viscosity Solutions of Hamilton-Jacobi Equations and Optimal Control Problems" (PDF). Lecture Notes.
  14. Kamalapurkar, Rushikesh; Walters, Patrick; Rosenfeld, Joel; Dixon, Warren (2018). "Optimal Control and Lyapunov Stability". Reinforcement Learning for Optimal Feedback Control: A Lyapunov-Based Approach. Berlin: Springer. pp. 26–27. ISBN 978-3-319-78383-3.


अग्रिम पठन