आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया

From Vigyanwiki
Revision as of 12:15, 29 May 2023 by alpha>Indicwiki (Created page with "{{short description|Generalization of a Markov decision process}} आंशिक रूप से देखने योग्य मार्कोव निर्णय...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया (पीओएमडीपी) मार्कोव निर्णय प्रक्रिया (एमडीपी) का सामान्यीकरण है। एक POMDP एक एजेंट निर्णय प्रक्रिया को मॉडल करता है जिसमें यह माना जाता है कि सिस्टम की गतिशीलता एक MDP द्वारा निर्धारित की जाती है, लेकिन एजेंट सीधे अंतर्निहित स्थिति का निरीक्षण नहीं कर सकता है। इसके बजाय, इसे एक सेंसर मॉडल (अंतर्निहित स्थिति को देखते हुए विभिन्न अवलोकनों की संभावना वितरण) और अंतर्निहित एमडीपी को बनाए रखना चाहिए। एमडीपी में पॉलिसी फ़ंक्शन के विपरीत, जो अंतर्निहित राज्यों को क्रियाओं के लिए मैप करता है, पीओएमडीपी की नीति टिप्पणियों के इतिहास (या विश्वास राज्यों) से कार्यों के लिए एक मानचित्रण है।

POMDP ढांचा सामान्य रूप से वास्तविक दुनिया की विभिन्न अनुक्रमिक निर्णय प्रक्रियाओं को मॉडल करने के लिए पर्याप्त है। अनुप्रयोगों में रोबोट नेविगेशन समस्याएं, मशीन रखरखाव और सामान्य रूप से अनिश्चितता के तहत योजना शामिल है। 1965 में कार्ल जोहान एस्ट्रोम द्वारा अपूर्ण जानकारी के साथ मार्कोव निर्णय प्रक्रियाओं के सामान्य ढांचे का वर्णन किया गया था।[1] असतत राज्य स्थान के मामले में, और इसका संचालन अनुसंधान समुदाय में आगे अध्ययन किया गया था जहां संक्षिप्त नाम POMDP गढ़ा गया था। इसे बाद में लेस्ली पी. केलब्लिंग और माइकल एल. लिटमैन द्वारा कृत्रिम बुद्धिमत्ता और स्वचालित योजना में समस्याओं के लिए अनुकूलित किया गया था।[2] पीओएमडीपी का एक सटीक समाधान विश्व राज्यों पर प्रत्येक संभावित विश्वास के लिए इष्टतम कार्रवाई करता है। इष्टतम कार्रवाई संभवतः अनंत क्षितिज पर एजेंट के अपेक्षित इनाम (या लागत को कम करती है) को अधिकतम करती है। इष्टतम क्रियाओं के अनुक्रम को एजेंट के पर्यावरण के साथ बातचीत के लिए इष्टतम नीति के रूप में जाना जाता है।

परिभाषा

औपचारिक परिभाषा

एक असतत-समय POMDP एक एजेंट और उसके वातावरण के बीच संबंध को मॉडल करता है। औपचारिक रूप से, एक पीओएमडीपी 7-ट्यूपल है , कहाँ

  • राज्यों का एक समूह है,
  • क्रियाओं का एक समूह है,
  • राज्यों के बीच सशर्त संक्रमण संभावनाओं का एक सेट है,
  • इनाम समारोह है।
  • टिप्पणियों का एक सेट है,
  • सशर्त अवलोकन संभावनाओं का एक सेट है, और
  • छूट कारक है।

प्रत्येक समय अवधि में, पर्यावरण किसी न किसी अवस्था में होता है . एजेंट कार्रवाई करता है , जो पर्यावरण को राज्य में संक्रमण का कारण बनता है संभावना के साथ . उसी समय, एजेंट एक अवलोकन प्राप्त करता है जो पर्यावरण की नई स्थिति पर निर्भर करता है, , और अभी-अभी की गई कार्रवाई पर, , संभावना के साथ (या कभी-कभी सेंसर मॉडल पर निर्भर करता है)। अंत में, एजेंट को इनाम मिलता है के बराबर . फिर प्रक्रिया दोहराती है। एजेंट के लिए लक्ष्य प्रत्येक समय कदम पर ऐसी कार्रवाइयों का चयन करना है जो उसके अपेक्षित भविष्य के छूट वाले इनाम को अधिकतम करें: , कहाँ समय पर अर्जित पुरस्कार है . छूट का कारक यह निर्धारित करता है कि अधिक दूर के पुरस्कारों पर कितने तात्कालिक पुरस्कार पसंद किए जाते हैं। कब एजेंट केवल इस बात की परवाह करता है कि किस कार्रवाई से सबसे बड़ा अपेक्षित तत्काल इनाम मिलेगा; कब एजेंट भविष्य के पुरस्कारों की अपेक्षित राशि को अधिकतम करने की परवाह करता है।

चर्चा

क्योंकि एजेंट सीधे पर्यावरण की स्थिति का निरीक्षण नहीं करता है, एजेंट को सही पर्यावरण स्थिति की अनिश्चितता के तहत निर्णय लेना चाहिए। हालांकि, पर्यावरण के साथ बातचीत करके और अवलोकन प्राप्त करके, एजेंट वर्तमान स्थिति की संभाव्यता वितरण को अद्यतन करके वास्तविक स्थिति में अपने विश्वास को अद्यतन कर सकता है। इस संपत्ति का एक परिणाम यह है कि इष्टतम व्यवहार में अक्सर (सूचना एकत्र करना) क्रियाएं शामिल हो सकती हैं जो विशुद्ध रूप से इसलिए की जाती हैं क्योंकि वे वर्तमान स्थिति के एजेंट के अनुमान में सुधार करते हैं, जिससे भविष्य में बेहतर निर्णय लेने की अनुमति मिलती है।

मार्कोव निर्णय प्रक्रिया # परिभाषा की परिभाषा के साथ उपरोक्त परिभाषा की तुलना करना शिक्षाप्रद है। एक एमडीपी में अवलोकन सेट शामिल नहीं होता है, क्योंकि एजेंट हमेशा पर्यावरण की वर्तमान स्थिति को निश्चित रूप से जानता है। वैकल्पिक रूप से, एक एमडीपी को पीओएमडीपी के रूप में राज्यों के सेट के बराबर होने के लिए अवलोकन सेट सेट करके और अवलोकन सशर्त संभावनाओं को निश्चित रूप से सही स्थिति से मेल खाने वाले अवलोकन का चयन करके परिभाषित किया जा सकता है।

विश्वास अद्यतन

कार्रवाई करने के बाद और देख रहा है , एक एजेंट को राज्य में अपने विश्वास को अद्यतन करने की आवश्यकता है (या नहीं) पर्यावरण में हो सकता है (या नहीं)। चूंकि राज्य मार्कोवियन है (धारणा के अनुसार), राज्यों पर विश्वास बनाए रखने के लिए केवल पिछले विश्वास राज्य के ज्ञान की आवश्यकता होती है, की गई कार्रवाई, और वर्तमान अवलोकन। ऑपरेशन दर्शाया गया है . नीचे हम वर्णन करते हैं कि इस विश्वास अद्यतन की गणना कैसे की जाती है।

पहुंचने के बाद , एजेंट देखता है संभावना के साथ . होने देना राज्य स्थान पर संभाव्यता वितरण हो . इस संभावना को दर्शाता है कि पर्यावरण स्थिति में है . दिया गया , फिर कार्रवाई करने के बाद और देख रहा है ,

कहाँ के साथ एक सामान्यीकरण स्थिरांक है .

विश्वास एमडीपी

एक मार्कोवियन विश्वास राज्य एक पीओएमडीपी को मार्कोव निर्णय प्रक्रिया के रूप में तैयार करने की अनुमति देता है जहां हर विश्वास एक राज्य है। परिणामी विश्वास एमडीपी इस प्रकार एक निरंतर राज्य स्थान पर परिभाषित किया जाएगा (भले ही मूल पीओएमडीपी में राज्यों की सीमित संख्या हो: अनंत विश्वास राज्य हैं (में ) क्योंकि राज्यों में असीमित संभाव्यता वितरण हैं (के )).[2]

औपचारिक रूप से, विश्वास एमडीपी को टपल के रूप में परिभाषित किया गया है कहाँ

  • POMDP राज्यों पर विश्वास राज्यों का समूह है,
  • मूल पीओएमडीपी के समान कार्रवाई का एक ही सीमित सेट है,
  • विश्वास राज्य संक्रमण समारोह है,
  • विश्वास राज्यों पर इनाम समारोह है,
  • के बराबर छूट कारक है मूल पीओएमडीपी में।

यहाँ इन, और मूल POMDP से प्राप्त करने की आवश्यकता है। है

कहाँ पिछले खंड में प्राप्त मूल्य है और

विश्वास एमडीपी इनाम समारोह () विश्वास राज्य वितरण पर POMDP इनाम समारोह से अपेक्षित इनाम है:

.

विश्वास एमडीपी अब आंशिक रूप से देखने योग्य नहीं है, क्योंकि किसी भी समय एजेंट अपने विश्वास को जानता है, और विस्तार से विश्वास एमडीपी की स्थिति।

नीति और मूल्य समारोह

प्रारंभिक पीओएमडीपी के विपरीत (जहां प्रत्येक क्रिया केवल एक राज्य से उपलब्ध है), संबंधित विश्वास एमडीपी में सभी विश्वास राज्य सभी कार्यों की अनुमति देते हैं, क्योंकि आप (लगभग) हमेशा विश्वास करने की कुछ संभावना रखते हैं कि आप किसी भी (मूल) राज्य में हैं। जैसे की, एक क्रिया निर्दिष्ट करता है किसी विश्वास के लिए .

यहां यह माना जाता है कि उद्देश्य अनंत क्षितिज पर अपेक्षित कुल रियायती इनाम को अधिकतम करना है। कब एक लागत को परिभाषित करता है, उद्देश्य अपेक्षित लागत का न्यूनीकरण हो जाता है।

नीति के लिए अपेक्षित इनाम विश्वास से शुरू परिभाषित किया जाता है

कहाँ छूट कारक है। इष्टतम नीति लंबी अवधि के इनाम का अनुकूलन करके प्राप्त किया जाता है।

कहाँ प्रारंभिक विश्वास है।

इष्टतम नीति, द्वारा निरूपित , प्रत्येक विश्वास राज्य के लिए उच्चतम अपेक्षित इनाम मूल्य प्राप्त करता है, जो कि इष्टतम मूल्य फ़ंक्शन द्वारा कॉम्पैक्ट रूप से दर्शाया गया है . यह मान फलन बेलमैन समीकरण का हल है:

परिमित-क्षितिज POMDPs के लिए, इष्टतम मान फ़ंक्शन टुकड़ावार-रैखिक और उत्तल है।[3] इसे सदिशों के परिमित समुच्चय के रूप में प्रदर्शित किया जा सकता है। अनंत-क्षितिज सूत्रीकरण में, एक परिमित वेक्टर सेट अनुमानित हो सकता है मनमाने ढंग से बारीकी से, जिसका आकार उत्तल रहता है। वैल्यू इटरेशन डायनामिक प्रोग्रामिंग अपडेट को लागू करता है ताकि मूल्य में धीरे-धीरे सुधार हो सके जब तक कि अभिसरण नहीं हो जाता -ऑप्टिमल वैल्यू फंक्शन, और इसकी टुकड़े-टुकड़े रैखिकता और उत्तलता को बरकरार रखता है।[4] मूल्य में सुधार करके, नीति में निहित रूप से सुधार किया जाता है। नीति पुनरावृत्ति नामक एक अन्य गतिशील प्रोग्रामिंग तकनीक स्पष्ट रूप से नीति का प्रतिनिधित्व करती है और इसके बजाय सुधार करती है।[5][6]


अनुमानित POMDP समाधान

व्यवहार में, पीओएमडीपी अक्सर कम्प्यूटेशनल रूप से कम्प्यूटेशनल जटिलता सिद्धांत # वास्तव में हल करने के लिए इंट्रेक्टेबिलिटी होते हैं, इसलिए कंप्यूटर वैज्ञानिकों ने ऐसे तरीके विकसित किए हैं जो पीओएमडीपी के लिए अनुमानित समाधान हैं।[7] ग्रिड-आधारित एल्गोरिदम[8] एक अनुमानित समाधान तकनीक शामिल करें। इस दृष्टिकोण में, मूल्य समारोह की गणना विश्वास स्थान में बिंदुओं के एक सेट के लिए की जाती है, और इंटरपोलेशन का उपयोग उन अन्य विश्वास राज्यों के लिए इष्टतम कार्रवाई निर्धारित करने के लिए किया जाता है जो ग्रिड बिंदुओं के सेट में नहीं हैं। अधिक हाल के कार्य नमूनाकरण तकनीकों, सामान्यीकरण तकनीकों और समस्या संरचना के शोषण का उपयोग करते हैं, और लाखों राज्यों के साथ बड़े डोमेन में POMDP समाधान को विस्तारित किया है।[9][10] उदाहरण के लिए, अनुकूली ग्रिड और बिंदु-आधारित विधियाँ यादृच्छिक पहुंच योग्य विश्वास बिंदुओं का नमूना लेती हैं, जो विश्वास स्थान में प्रासंगिक क्षेत्रों की योजना को विवश करती हैं।[11][12] सिद्धांत घटक विश्लेषण का उपयोग करते हुए आयाम में कमी का भी पता लगाया गया है।[13] पीओएमडीपी को हल करने के लिए अनुमानित समाधान तकनीकों की एक और पंक्ति पिछली टिप्पणियों, कार्यों और पुरस्कारों के इतिहास को एक छद्म राज्य के रूप में उपयोग करने (एक सबसेट) पर निर्भर करती है। इन छद्म अवस्थाओं के आधार पर एमडीपी को हल करने के लिए सामान्य तकनीकों का उपयोग किया जा सकता है (जैसे क्यू-लर्निंग)। आदर्श रूप से छद्म राज्यों में यथासंभव संकुचित होने के दौरान पूरे इतिहास (पूर्वाग्रह को कम करने के लिए) से सबसे महत्वपूर्ण जानकारी होनी चाहिए (ओवरफिटिंग को कम करने के लिए)।[14]


पीओएमडीपी सिद्धांत

पीओएमडीपी में नियोजन सामान्य रूप से अनिर्णीत समस्या है। हालाँकि, कुछ सेटिंग्स को निर्णायक होने के लिए पहचाना गया है (देखें तालिका 2 में,[15] नीचे पुनरुत्पादित)। विभिन्न उद्देश्यों पर विचार किया गया है। बुच्ची उद्देश्यों को बुची ऑटोमेटन|बुची ऑटोमेटा द्वारा परिभाषित किया गया है। रीचैबिलिटी एक बुची स्थिति का एक उदाहरण है (उदाहरण के लिए, एक अच्छी स्थिति तक पहुँचना जिसमें सभी रोबोट घर हैं)। coBüchi उद्देश्य उन निशानों के अनुरूप हैं जो किसी दी गई Büchi स्थिति को संतुष्ट नहीं करते हैं (उदाहरण के लिए, खराब स्थिति में नहीं पहुँचना जिसमें कुछ रोबोट की मृत्यु हो गई)। समता उद्देश्यों को समता खेल के माध्यम से परिभाषित किया जाता है; वे जटिल उद्देश्यों को परिभाषित करने में सक्षम होते हैं जैसे कि हर 10 बार एक अच्छी स्थिति तक पहुँचना। उद्देश्य को पूरा किया जा सकता है:

  • लगभग-निश्चित रूप से, यानी उद्देश्य को पूरा करने की संभावना 1 है;
  • सकारात्मक, अर्थात् उद्देश्य को पूरा करने की संभावना 0 से अधिक है;
  • मात्रात्मक, अर्थात उद्देश्य को पूरा करने की संभावना दी गई सीमा से अधिक है।

हम परिमित स्मृति मामले पर भी विचार करते हैं जिसमें एजेंट एक परिमित-राज्य मशीन है, और सामान्य मामला जिसमें एजेंट की अनंत स्मृति होती है।

Objectives Almost-sure (infinite memory) Almost-sure (finite memory) Positive (inf. mem.) Positive (finite mem.) Quantitative (inf. mem) Quantitative (finite mem.)
Büchi EXPTIME-complete EXPTIME-complete undecidable EXPTIME-complete[15] undecidable undecidable
coBüchi undecidable EXPTIME-complete[15] EXPTIME-complete EXPTIME-complete undecidable undecidable
parity undecidable EXPTIME-complete[15] undecidable EXPTIME-complete[15] undecidable undecidable


अनुप्रयोग

पीओएमडीपी का इस्तेमाल कई तरह की वास्तविक दुनिया की समस्याओं के मॉडल के लिए किया जा सकता है। उल्लेखनीय अनुप्रयोगों में इस्कीमिक हृदय रोग के रोगियों के प्रबंधन में पीओएमडीपी का उपयोग शामिल है,[16] डिमेंशिया वाले व्यक्तियों के लिए सहायक तकनीक,[9][10]गंभीर रूप से लुप्तप्राय और सुमात्रन बाघों का पता लगाना मुश्किल है[17] और विमान टक्कर परिहार।[18]


संदर्भ

  1. Åström, K.J. (1965). "अधूरी राज्य सूचना के साथ मार्कोव प्रक्रियाओं का इष्टतम नियंत्रण". Journal of Mathematical Analysis and Applications. 10: 174–205. doi:10.1016/0022-247X(65)90154-X.
  2. 2.0 2.1 Kaelbling, L.P., Littman, M.L., Cassandra, A.R. (1998). "आंशिक रूप से देखने योग्य स्टोकास्टिक डोमेन में योजना और अभिनय". Artificial Intelligence. 101 (1–2): 99–134. doi:10.1016/S0004-3702(98)00023-X.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  3. Sondik, E.J. (1971). आंशिक रूप से देखने योग्य मार्कोव प्रक्रियाओं का इष्टतम नियंत्रण (PhD thesis). Stanford University. Archived from the original on October 17, 2019.
  4. Smallwood, R.D., Sondik, E.J. (1973). "एक परिमित क्षितिज पर आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं का इष्टतम नियंत्रण". Operations Research. 21 (5): 1071–88. doi:10.1287/opre.21.5.1071.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  5. Sondik, E.J. (1978). "The optimal control of partially observable Markov processes over the infinite horizon: discounted cost". Operations Research. 26 (2): 282–304. doi:10.1287/opre.26.2.282.
  6. Hansen, E. (1998). "पॉलिसी स्पेस में खोज कर पीओएमडीपी को हल करना". Proceedings of the Fourteenth International Conference on Uncertainty In Artificial Intelligence (UAI-98). arXiv:1301.7380.
  7. Hauskrecht, M. (2000). "आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं के लिए मूल्य समारोह सन्निकटन". Journal of Artificial Intelligence Research. 13: 33–94. doi:10.1613/jair.678.
  8. Lovejoy, W. (1991). "आंशिक रूप से देखे गए मार्कोव निर्णय प्रक्रियाओं के लिए कम्प्यूटेशनल रूप से व्यवहार्य सीमाएं". Operations Research. 39: 162–175. doi:10.1287/opre.39.1.162.
  9. 9.0 9.1 Jesse Hoey; Axel von Bertoldi; Pascal Poupart; Alex Mihailidis (2007). "आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रिया का उपयोग करके हैंडवाशिंग के दौरान डिमेंशिया वाले व्यक्तियों की सहायता करना". Proc. International Conference on Computer Vision Systems (ICVS). doi:10.2390/biecoll-icvs2007-89.
  10. 10.0 10.1 Jesse Hoey; Pascal Poupart; Axel von Bertoldi; Tammy Craig; Craig Boutilier; Alex Mihailidis. (2010). "डिमेंशिया से पीड़ित व्यक्तियों के लिए वीडियो और आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रिया का उपयोग करने के लिए स्वचालित हैंडवाशिंग सहायता". Computer Vision and Image Understanding (CVIU). 114 (5): 503–519. CiteSeerX 10.1.1.160.8351. doi:10.1016/j.cviu.2009.06.008.
  11. Pineau, J., Gordon, G., Thrun, S. (August 2003). "Point-based value iteration: An anytime algorithm for POMDPs" (PDF). International Joint Conference on Artificial Intelligence (IJCAI). Acapulco, Mexico. pp. 1025–32.{{cite conference}}: CS1 maint: multiple names: authors list (link)
  12. Hauskrecht, M. (1997). "आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं में सीमा की गणना के लिए वृद्धिशील तरीके". Proceedings of the 14th National Conference on Artificial Intelligence (AAAI). Providence, RI. pp. 734–739. CiteSeerX 10.1.1.85.8303.
  13. Roy, Nicholas; Gordon, Geoffrey (2003). "Exponential Family PCA for Belief Compression in POMDPs" (PDF). न्यूरल इन्फर्मेशन प्रोसेसिंग सिस्टम्स में प्रगति.
  14. Francois-Lavet, V., Rabusseau, G., Pineau, J., Ernst, D., Fonteneau, R. (2019). आंशिक प्रेक्षणीयता के साथ बैच रीइन्फोर्समेंट लर्निंग में ओवरफिटिंग और एसिम्प्टोटिक बायस पर. Journal of Artificial Intelligence Research (JAIR). Vol. 65. pp. 1–30. arXiv:1709.07796.{{cite conference}}: CS1 maint: multiple names: authors list (link)
  15. 15.0 15.1 15.2 15.3 15.4 Chatterjee, Krishnendu; Chmelík, Martin; Tracol, Mathieu (2016-08-01). "What is decidable about partially observable Markov decision processes with ω-regular objectives". Journal of Computer and System Sciences. 82 (5): 878–911. doi:10.1016/j.jcss.2016.02.009. ISSN 0022-0000.
  16. Hauskrecht, M. , Fraser, H. (2000). "आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रियाओं के साथ इस्कीमिक हृदय रोग के उपचार की योजना बनाना". Artificial Intelligence in Medicine. 18 (3): 221–244. doi:10.1016/S0933-3657(99)00042-1. PMID 10675716.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  17. Chadès, I., McDonald-Madden, E., McCarthy, M.A., Wintle, B., Linkie, M., Possingham, H.P. (16 September 2008). "गुप्त खतरे वाली प्रजातियों का प्रबंधन या सर्वेक्षण कब बंद करें". Proc. Natl. Acad. Sci. U.S.A. 105 (37): 13936–40. Bibcode:2008PNAS..10513936C. doi:10.1073/pnas.0805265105. PMC 2544557. PMID 18779594.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  18. Kochenderfer, Mykel J. (2015). "Optimized Airborne Collision Avoidance". अनिश्चितता के तहत निर्णय लेना. The MIT Press.


बाहरी संबंध