मान फलन
किसी अनुकूलन समस्या का मान फलन किसी समाधान पर उद्देश्य फलन द्वारा प्राप्त मान (गणित) देता है, जबकि यह केवल समस्या के पैरामीटरों पर निर्भर करता है।[1][2] एक नियंत्रण सिद्धांत गतिशील प्रणाली में, मान फ़ंक्शन अंतराल [t, t पर सिस्टम के इष्टतम भुगतान का प्रतिनिधित्व करता है1] जब समय-t स्थिति चर x(t)=x पर प्रारंभ किया गया।[3] यदि उद्देश्य फ़ंक्शन कुछ लागत का प्रतिनिधित्व करता है जिसे कम किया जाना है, तो मूल्य फ़ंक्शन को इष्टतम प्रोग्राम को पूरा करने की लागत के रूप में व्याख्या की जा सकती है, और इस प्रकार इसे कॉस्ट-टू-गो फ़ंक्शन के रूप में संदर्भित किया जाता है।[4][5] एक आर्थिक संदर्भ में, जहां उद्देश्य फलन आमतौर पर उपयोगिता का प्रतिनिधित्व करता है, मान फलन अवधारणात्मक रूप से अप्रत्यक्ष उपयोगिता फलन के समतुल्य है।[6][7] इष्टतम नियंत्रण की समस्या में, मान फ़ंक्शन को स्वीकार्य नियंत्रणों के सेट पर लिए गए ऑब्जेक्टिव फ़ंक्शन के सर्वोच्च के रूप में परिभाषित किया गया है। दिया गया , एक विशिष्ट इष्टतम नियंत्रण समस्या है
का विषय है
प्रारंभिक अवस्था चर के साथ .[8] उद्देश्य समारोह सभी स्वीकार्य नियंत्रणों पर अधिकतम किया जाना है , कहाँ से एक मापने योग्य कार्य है कुछ निर्धारित मनमाना सेट में . मूल्य समारोह तब के रूप में परिभाषित किया गया है
साथ , कहाँ स्क्रैप मूल्य है। यदि नियंत्रण और राज्य प्रक्षेपवक्र की इष्टतम जोड़ी है , तब . कार्यक्रम जो इष्टतम नियंत्रण देता है वर्तमान स्थिति के आधार पर एक प्रतिक्रिया नियंत्रण नीति कहा जाता है,[4]या बस एक नीति समारोह।[9] बेलमैन का इष्टतमता का सिद्धांत मोटे तौर पर बताता है कि समय पर कोई भी इष्टतम नीति , वर्तमान स्थिति ले रहा है नई प्रारंभिक स्थिति शेष समस्या के लिए इष्टतम होनी चाहिए। यदि मान फ़ंक्शन अवकलनीय फ़ंक्शन होता है,[10] यह एक महत्वपूर्ण आंशिक अंतर समीकरण को जन्म देता है जिसे हैमिल्टन-जैकोबी-बेलमैन समीकरण के रूप में जाना जाता है,
जहाँ विक्षनरी: दाएँ हाथ की ओर अधिकतम भी हैमिल्टनियन (नियंत्रण सिद्धांत) के रूप में फिर से लिखा जा सकता है, , जैसा
साथ कॉस्टेट चर की भूमिका निभा रहा है।[11] इस परिभाषा को देखते हुए, हमारे पास आगे है , और के संबंध में HJB समीकरण के दोनों पक्षों को अवकलित करने के बाद ,
जो उपयुक्त शर्तों को बदलने के बाद कॉस्टेट समीकरण को पुनः प्राप्त करता है
कहाँ समय के संबंध में डेरिवेटिव के लिए न्यूटन नोटेशन है।[12] मूल्य समारोह हैमिल्टन-जैकोबी-बेलमैन समीकरण का अद्वितीय चिपचिपापन समाधान है।[13] एक ऑनलाइन एल्गोरिदम बंद-लूप अनुमानित इष्टतम नियंत्रण में, वैल्यू फ़ंक्शन भी एक लायपुनोव समारोह है जो बंद-लूप सिस्टम की वैश्विक स्पर्शोन्मुख स्थिरता स्थापित करता है।[14]
संदर्भ
- ↑ Fleming, Wendell H.; Rishel, Raymond W. (1975). नियतात्मक और स्टोकेस्टिक इष्टतम नियंत्रण. New York: Springer. pp. 81–83. ISBN 0-387-90155-8.
- ↑ Caputo, Michael R. (2005). Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications. New York: Cambridge University Press. p. 185. ISBN 0-521-60368-4.
- ↑ Weber, Thomas A. (2011). Optimal Control Theory : with Applications in Economics. Cambridge: The MIT Press. p. 82. ISBN 978-0-262-01573-8.
- ↑ 4.0 4.1 Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). न्यूरो-डायनामिक प्रोग्रामिंग. Belmont: Athena Scientific. p. 2. ISBN 1-886529-10-8.
- ↑ "EE365: Dynamic Programming" (PDF).
- ↑ Mas-Colell, Andreu; Whinston, Michael D.; Green, Jerry R. (1995). सूक्ष्म आर्थिक सिद्धांत. New York: Oxford University Press. p. 964. ISBN 0-19-507340-1.
- ↑ Corbae, Dean; Stinchcombe, Maxwell B.; Zeman, Juraj (2009). आर्थिक सिद्धांत और अर्थमिति के लिए गणितीय विश्लेषण का परिचय. Princeton University Press. p. 145. ISBN 978-0-691-11867-3.
- ↑ Kamien, Morton I.; Schwartz, Nancy L. (1991). Dynamic Optimization : The Calculus of Variations and Optimal Control in Economics and Management (2nd ed.). Amsterdam: North-Holland. p. 259. ISBN 0-444-01609-0.
- ↑ Ljungqvist, Lars; Sargent, Thomas J. (2018). पुनरावर्ती मैक्रोइकॉनॉमिक थ्योरी (Fourth ed.). Cambridge: MIT Press. p. 106. ISBN 978-0-262-03866-9.
- ↑ Benveniste and Scheinkman established sufficient conditions for the differentiability of the value function, which in turn allows the application of the envelope theorem, see Benveniste, L. M.; Scheinkman, J. A. (1979). "On the Differentiability of the Value Function in Dynamic Models of Economics". Econometrica. 47 (3): 727–732. doi:10.2307/1910417. JSTOR 1910417. Also see Seierstad, Atle (1982). "Differentiability Properties of the Optimal Value Function in Control Theory". Journal of Economic Dynamics and Control. 4: 303–310. doi:10.1016/0165-1889(82)90019-7.
- ↑ Kirk, Donald E. (1970). इष्टतम नियंत्रण सिद्धांत. Englewood Cliffs, NJ: Prentice-Hall. p. 88. ISBN 0-13-638098-0.
- ↑ Zhou, X. Y. (1990). "अधिकतम सिद्धांत, गतिशील प्रोग्रामिंग, और नियतात्मक नियंत्रण में उनका संबंध". Journal of Optimization Theory and Applications. 65 (2): 363–373. doi:10.1007/BF01102352. S2CID 122333807.
- ↑ Theorem 10.1 in Bressan, Alberto (2019). "Viscosity Solutions of Hamilton-Jacobi Equations and Optimal Control Problems" (PDF). Lecture Notes.
- ↑ Kamalapurkar, Rushikesh; Walters, Patrick; Rosenfeld, Joel; Dixon, Warren (2018). "Optimal Control and Lyapunov Stability". Reinforcement Learning for Optimal Feedback Control: A Lyapunov-Based Approach. Berlin: Springer. pp. 26–27. ISBN 978-3-319-78383-3.
अग्रिम पठन
- Caputo, Michael R. (2005). "Necessary and Sufficient Conditions for Isoperimetric Problems". Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications. New York: Cambridge University Press. pp. 174–210. ISBN 0-521-60368-4.
- Clarke, Frank H.; Loewen, Philip D. (1986). "The Value Function in Optimal Control: Sensitivity, Controllability, and Time-Optimality". SIAM Journal on Control and Optimization. 24 (2): 243–263. doi:10.1137/0324014.
- LaFrance, Jeffrey T.; Barney, L. Dwayne (1991). "The Envelope Theorem in Dynamic Optimization" (PDF). Journal of Economic Dynamics and Control. 15 (2): 355–385. doi:10.1016/0165-1889(91)90018-V.
- Stengel, Robert F. (1994). "Conditions for Optimality". Optimal Control and Estimation. New York: Dover. pp. 201–222. ISBN 0-486-68200-5.