आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया: Difference between revisions

Latest revision as of 18:08, 12 June 2023

आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया (पीओएमडीपी), मार्कोव निर्णय प्रक्रिया (एमडीपी) का सामान्यीकरण है। पीओएमडीपी एजेंट निर्णय प्रक्रिया को मॉडल करता है, जिसमें यह माना जाता है कि प्रणाली की गतिशीलता एमडीपी द्वारा निर्धारित की जाती है, लेकिन एजेंट सीधे अंतर्निहित अवस्था का निरीक्षण नहीं कर सकता है। इसके अतिरिक्त, इसे सेंसर मॉडल (अंतर्निहित अवस्था को देखते हुए विभिन्न अवलोकनों की प्रायिकता वितरण) और अंतर्निहित एमडीपी को बनाए रखना चाहिए। एमडीपी में नीति फलन के विपरीत, जो अंतर्निहित अवस्थाओं को क्रियाओं के लिए मैप करता है, पीओएमडीपी की नीति टिप्पणियों के इतिहास (या धारणा अवस्थाओं) से फलनों के लिए मानचित्रण है।

पीओएमडीपी ढांचा सामान्य रूप से वास्तविक विश्व की विभिन्न अनुक्रमिक निर्णय प्रक्रियाओं को मॉडल करने के लिए पर्याप्त है। अनुप्रयोगों में रोबोट संकेतन समस्याएं, मशीन देखरेख और सामान्य रूप से अनिश्चितता के अनुसार योजनायें सम्मिलित हैं। 1965 में कार्ल जोहान एस्ट्रोम द्वारा अपूर्ण जानकारी के साथ मार्कोव निर्णय प्रक्रियाओं के सामान्य ढांचे का वर्णन किया गया था।^[1] असतत अवस्था स्थान की अवस्था में, और इसका संचालन अनुसंधान समुदाय में आगे अध्ययन किया गया था, जहां संक्षिप्त नाम पीओएमडीपी दिया गया था। इसे बाद में लेस्ली पी. केलब्लिंग और माइकल एल. लिटमैन द्वारा कृत्रिम बुद्धिमत्ता और स्वचालित योजना में समस्याओं के लिए अनुकूलित किया गया था।^[2]

पीओएमडीपी का स्पष्ट समाधान विश्व अवस्थाओं पर प्रत्येक संभावित धारणा के लिए इष्टतम कार्रवाई करता है। इष्टतम कार्रवाई संभवतः अनंत क्षितिज पर एजेंट के अपेक्षित रिवार्ड (या व्यय को कम करती है) को अधिकतम करती है। इष्टतम क्रियाओं के अनुक्रम को एजेंट के पर्यावरण के साथ वार्तालाप के लिए इष्टतम नीति के रूप में जाना जाता है।

परिभाषा

औपचारिक परिभाषा

असतत-समय पीओएमडीपी एजेंट और उसके वातावरण के बीच संबंध को मॉडल करता है। औपचारिक रूप से, पीओएमडीपी 7-ट्यूपल $(S,A,T,R,\Omega ,O,\gamma )$ है, जहाँ

अवस्थाओं का समूह $S$ है,
क्रियाओं का समूह $A$ है,
अवस्थाओं के बीच सशर्त संक्रमण प्रायिकताओं का समुच्चय $T$ है,
रिवार्ड फलन $R:S\times A\to \mathbb {R}$ है।
टिप्पणियों का समुच्चय $\Omega$ है,
सशर्त अवलोकन प्रायिकताओं का समुच्चय $O$ है, और
छूट कारक $\gamma \in [0,1)$ है।

प्रत्येक समय अवधि में, पर्यावरण किसी न किसी अवस्था $s\in S$ में होता है। एजेंट $a\in A$ कार्रवाई करता है, जो पर्यावरण को $s'$ अवस्था में प्रायिकता $T(s'\mid s,a)$ के साथ संक्रमण का कारण बनता है। उसी समय, एजेंट अवलोकन $o\in \Omega$ प्राप्त करता है, जो पर्यावरण की नई अवस्था $s'$ पर निर्भर करती है, और अभी-अभी की गई कार्रवाई पर, $a$ , $O(o\mid s',a)$ प्रायिकता के साथ (या कभी-कभी $O(o\mid s')$ सेंसर मॉडल पर) निर्भर करता है। अंत में, एजेंट को $r$ के बराबर $R(s,a)$ रिवार्ड मिलता है। फिर प्रक्रिया दोहरायी जाती है। एजेंट के लिए लक्ष्य प्रत्येक समय चरण पर ऐसी कार्रवाइयों का चयन करना है, जो उसके अपेक्षित भविष्य के छूट वाले रिवार्ड को अधिकतम करें: $E\left[\sum _{t=0}^{\infty }\gamma ^{t}r_{t}\right]$ , जहाँ $r_{t}$ समय पर अर्जित रिवार्ड $t$ है। छूट का कारक $\gamma$ यह निर्धारित करता है कि अधिक दूर के रिवार्डों पर कितने तात्कालिक रिवार्ड पसंद किए जाते हैं। जब $\gamma =0$ एजेंट केवल इस बात की चिंता करता है कि किस कार्रवाई से सबसे बड़ा अपेक्षित तत्काल रिवार्ड मिलेगा; जब $\gamma \rightarrow 1$ एजेंट भविष्य के रिवार्डों की अपेक्षित राशि को अधिकतम करने की चिंता करता है।

चर्चा

क्योंकि एजेंट सीधे पर्यावरण की अवस्था का निरीक्षण नहीं करता है, एजेंट को सही पर्यावरण अवस्था की अनिश्चितता के अनुसार निर्णय लेना चाहिए। चूँकि, पर्यावरण के साथ वार्तालाप करके और अवलोकन प्राप्त करके, एजेंट वर्तमान अवस्था की संभाव्यता वितरण को अद्यतन करके वास्तविक अवस्था में अपने धारणा को अद्यतन कर सकता है। इस संपत्ति का परिणाम यह है कि इष्टतम व्यवहार में अधिकांशतः (सूचना एकत्र करना) क्रियाएं सम्मिलित हो सकती हैं, जो विशुद्ध रूप से इसलिए की जाती हैं क्योंकि वे वर्तमान अवस्था के एजेंट के अनुमान में संशोधन करते हैं, जिससे भविष्य में उत्तम निर्णय लेने की अनुमति मिलती है।

मार्कोव निर्णय प्रक्रिया की परिभाषा के साथ उपरोक्त परिभाषा की तुलना करना शिक्षाप्रद है। एमडीपी में अवलोकन समुच्चय सम्मिलित नहीं होता है, क्योंकि एजेंट सदैव पर्यावरण की वर्तमान अवस्था को निश्चित रूप से जानता है। वैकल्पिक रूप से, एमडीपी को पीओएमडीपी के रूप में अवस्थाओं के समुच्चय के बराबर होने के लिए अवलोकन समुच्चय करके और अवलोकन सशर्त प्रायिकताओं को निश्चित रूप से सही अवस्था से मेल खाने वाले अवलोकन का चयन करके परिभाषित किया जा सकता है।

अद्यतन धारणा

$a$ कार्रवाई करने के बाद और $o$ अवलोकन करने के बाद, एजेंट को अवस्था में अपनी धारणा को अद्यतन करने की आवश्यकता होती है, जिसमें पर्यावरण हो सकता है (या नहीं)। चूंकि अवस्था मार्कोवियन है (धारणा के अनुसार), अवस्थाओं पर धारणा बनाए रखने के लिए केवल पिछले धारणा अवस्था के ज्ञान की, की गई कार्रवाई, और वर्तमान अवलोकन की आवश्यकता होती है। ऑपरेशन $b'=\tau (b,a,o)$ द्वारा दर्शाया गया है। नीचे हम वर्णन करते हैं कि इस धारणा अद्यतन की गणना कैसे की जाती है।

$s'$ तक पहुंचने के बाद, एजेंट प्रायिकता $O(o\mid s',a)$ के साथ $o\in \Omega$ देखता है। माना $b$ अवस्था स्थान $S$ पर संभाव्यता वितरण है। $b(s)$ इस प्रायिकता को दर्शाता है कि पर्यावरण अवस्था $s$ में है। दिया गया $b(s)$ , फिर $a$ कार्रवाई करने और $o$ देखने के बाद,

b'(s')=\eta O(o\mid s',a)\sum _{s\in S}T(s'\mid s,a)b(s)

जहाँ $\eta =1/\Pr(o\mid b,a)$ के साथ सामान्यीकरण स्थिरांक $\Pr(o\mid b,a)=\sum _{s'\in S}O(o\mid s',a)\sum _{s\in S}T(s'\mid s,a)b(s)$ है।

एमडीपी धारणा

मार्कोवियन धारणा अवस्था पीओएमडीपी को मार्कोव निर्णय प्रक्रिया के रूप में तैयार करने की अनुमति देता है, जहां हर धारणा अवस्था है। परिणामी धारणा एमडीपी इस प्रकार निरंतर अवस्था स्थान पर परिभाषित किया जाएगा (तथापि मूल पीओएमडीपी में अवस्थाओं की सीमित संख्या हो: अनंत धारणा अवस्था ( $B$ में) हैं क्योंकि अवस्थाओं में असीमित संभाव्यता वितरण ( $S$ के) हैं।^[2]

औपचारिक रूप से, धारणा एमडीपी को टपल $(B,A,\tau ,r,\gamma )$ के रूप में परिभाषित किया गया है, जहाँ

पीओएमडीपी अवस्थाओं पर धारणा अवस्थाओं का समूह $B$ है,
मूल पीओएमडीपी के समान कार्रवाई का एक ही सीमित समुच्चय $A$ है,
धारणा अवस्था संक्रमण फलन $\tau$ है,
धारणा अवस्थाओं पर रिवार्ड फलन $r:B\times A\to \mathbb {R}$ है,
$\gamma$ मूल पीओएमडीपी में $\gamma$ के बराबर छूट कारक है।

इनमें से $\tau$ और $r$ को मूल पीओएमडीपी से प्राप्त करने की आवश्यकता है। $\tau$ है

$\tau (b,a,b')=\sum _{o\in \Omega }\Pr(b'|b,a,o)\Pr(o|a,b),$

जहाँ $\Pr(o|a,b)$ पिछले खंड में प्राप्त वैल्यू है और

$Pr(b'|b,a,o)={\begin{cases}1&{\text{if the belief update with arguments }}b,a,o{\text{ returns }}b'\\0&{\text{otherwise }}\end{cases}}$

धारणा एमडीपी रिवार्ड फलन ( $r$ ) धारणा अवस्था वितरण पर पीओएमडीपी रिवार्ड फलन से अपेक्षित रिवार्ड है:

$r(b,a)=\sum _{s\in S}b(s)R(s,a)$ .

धारणा एमडीपी अब आंशिक रूप से देखने योग्य नहीं है, क्योंकि किसी भी समय एजेंट अपने धारणा को जानता है, और विस्तार से धारणा एमडीपी की अवस्था।

नीति और वैल्यू फलन

प्रारंभिक पीओएमडीपी के विपरीत (जहां प्रत्येक क्रिया केवल एक अवस्था से उपलब्ध है), संबंधित धारणा एमडीपी में सभी धारणा अवस्था सभी फलनों की अनुमति देते हैं, क्योंकि आप (लगभग) सदैव धारणा करने की कुछ प्रायिकता रखते हैं कि आप किसी भी (मूल) अवस्था में हैं। जैसे की, किसी ट्रस्ट $b$ के लिए, $\pi$ क्रिया निर्दिष्ट $a=\pi (b)$ करता है।

यहां यह माना जाता है कि उद्देश्य अनंत क्षितिज पर अपेक्षित कुल रियायती रिवार्ड को अधिकतम करना है। जब $R$ व्यय को परिभाषित करता है, उद्देश्य अपेक्षित व्यय का न्यूनीकरण हो जाता है।

नीति के लिए अपेक्षित रिवार्ड $\pi$ धारणा से प्रारंभ $b_{0}$ परिभाषित किया जाता है

V^{\pi }(b_{0})=\sum _{t=0}^{\infty }\gamma ^{t}r(b_{t},a_{t})=\sum _{t=0}^{\infty }\gamma ^{t}E{\Bigl [}R(s_{t},a_{t})\mid b_{0},\pi {\Bigr ]}

जहाँ $\gamma <1$ छूट कारक है। इष्टतम नीति $\pi ^{*}$ लंबी अवधि के रिवार्ड का अनुकूलन करके प्राप्त किया जाता है।

\pi ^{*}={\underset {\pi }{\mbox{argmax}}}\ V^{\pi }(b_{0})

जहाँ $b_{0}$ प्रारंभिक धारणा है।

इष्टतम नीति, $\pi ^{*}$ द्वारा निरूपित, प्रत्येक धारणा अवस्था के लिए उच्चतम अपेक्षित रिवार्ड वैल्यू प्राप्त करता है, जो कि इष्टतम वैल्यू फलन $V^{*}$ द्वारा कॉम्पैक्ट रूप से दर्शाया गया है। यह मान फलन बेलमैन समीकरण का हल है:

V^{*}(b)=\max _{a\in A}{\Bigl [}r(b,a)+\gamma \sum _{o\in \Omega }\Pr(o\mid b,a)V^{*}(\tau (b,a,o)){\Bigr ]}

परिमित-क्षितिज पीओएमडीपी के लिए, इष्टतम मान फलन टुकड़ावार-रैखिक और उत्तल है।^[3] इसे सदिशों के परिमित समुच्चय के रूप में प्रदर्शित किया जा सकता है। अनंत-क्षितिज सूत्रीकरण में, परिमित वेक्टर समुच्चय $V^{*}$ अनुमानित हो सकता है, इच्छानुसार ढंग से निकटता से, जिसका आकार उत्तल रहता है। वैल्यू इटरेशन डायनामिक प्रोग्रामिंग अपडेट को प्रयुक्त करता है, जिससे वैल्यू में धीरे-धीरे संशोधन हो सके जब तक कि अभिसरण नहीं हो जाता $\epsilon$ -ऑप्टिमल वैल्यू फलन, और इसकी टुकड़े-टुकड़े रैखिकता और उत्तलता को बनाये रखता है।^[4] वैल्यू में संशोधन करके, नीति में निहित रूप से संशोधन किया जाता है। नीति पुनरावृत्ति नामक अन्य गतिशील प्रोग्रामिंग तकनीक स्पष्ट रूप से नीति का प्रतिनिधित्व करती है और इसके अतिरिक्त संशोधन करती है।^[5]^[6]

अनुमानित पीओएमडीपी समाधान

व्यवहार में, पीओएमडीपी अधिकांशतः कम्प्यूटेशनल रूप से कम्प्यूटेशनल जटिलता सिद्धांत वास्तव में हल करने के लिए इंट्रेक्टेबिलिटी होते हैं, इसलिए कंप्यूटर वैज्ञानिकों ने ऐसी विधियाँ विकसित की हैं, जो पीओएमडीपी के लिए अनुमानित समाधान हैं।^[7] ग्रिड-आधारित एल्गोरिदम^[8] अनुमानित समाधान तकनीक सम्मिलित करें। इस दृष्टिकोण में, वैल्यू फलन की गणना धारणा स्थान में बिंदुओं के समुच्चय के लिए की जाती है, और इंटरपोलेशन का उपयोग उन अन्य धारणा अवस्थाओं के लिए इष्टतम कार्रवाई निर्धारित करने के लिए किया जाता है जो ग्रिड बिंदुओं के समुच्चय में नहीं हैं। अधिक हाल के कार्य नमूनाकरण तकनीकों, सामान्यीकरण तकनीकों और समस्या संरचना के शोषण का उपयोग करते हैं, और लाखों अवस्थाओं के साथ बड़े डोमेन में पीओएमडीपी समाधान को विस्तारित किया है।^[9]^[10] उदाहरण के लिए, अनुकूली ग्रिड और बिंदु-आधारित विधियाँ यादृच्छिक पहुंच योग्य धारणा बिंदुओं का नमूना लेती हैं, जो धारणा स्थान में प्रासंगिक क्षेत्रों की योजना को विवश करती हैं।^[11]^[12]

सिद्धांत घटक विश्लेषण का उपयोग करते हुए आयाम में कमी का भी पता लगाया गया है।^[13] पीओएमडीपी को हल करने के लिए अनुमानित समाधान तकनीकों की एक और पंक्ति पिछली टिप्पणियों, फलनों और रिवार्डों के इतिहास को छद्म अवस्था के रूप में उपयोग करने (सबसमुच्चय) पर निर्भर करती है। इन छद्म अवस्थाओं के आधार पर एमडीपी को हल करने के लिए सामान्य तकनीकों का उपयोग किया जा सकता है (जैसे क्यू-लर्निंग)। आदर्श रूप से छद्म अवस्थाओं में यथासंभव संकुचित होने के दौरान पूरे इतिहास (पूर्वाग्रह को कम करने के लिए) से सबसे महत्वपूर्ण जानकारी होनी चाहिए (ओवरफिटिंग को कम करने के लिए)।^[14]

पीओएमडीपी सिद्धांत

पीओएमडीपी में नियोजन सामान्य रूप से अनिर्णीत समस्या है। चूँकि, कुछ समुच्चयिंग्स को निर्णायक होने के लिए पहचाना गया है (देखें तालिका 2 में,^[15] नीचे पुनरुत्पादित)। विभिन्न उद्देश्यों पर विचार किया गया है। बुच्ची उद्देश्यों को बुच्ची ऑटोमेटा द्वारा परिभाषित किया गया है। रीचैबिलिटी बुच्ची अवस्था का उदाहरण है (उदाहरण के लिए, अच्छी अवस्था तक पहुँचना जिसमें सभी रोबोट घर हैं)। coBüchi उद्देश्य उन निशानों के अनुरूप हैं जो किसी दी गई बुच्ची अवस्था को संतुष्ट नहीं करते हैं (उदाहरण के लिए, खराब अवस्था में नहीं पहुँचना जिसमें कुछ रोबोट की मृत्यु हो गई)। समता उद्देश्यों को समता खेल के माध्यम से परिभाषित किया जाता है; वे जटिल उद्देश्यों को परिभाषित करने में सक्षम होते हैं जैसे कि हर 10 बार अच्छी अवस्था तक पहुँचना। उद्देश्य को पूरा किया जा सकता है:

लगभग-निश्चित रूप से, अर्थात् उद्देश्य को पूरा करने की प्रायिकता 1 है;
सकारात्मक, अर्थात् उद्देश्य को पूरा करने की प्रायिकता 0 से अधिक है;
मात्रात्मक, अर्थात उद्देश्य को पूरा करने की प्रायिकता दी गई सीमा से अधिक है।

हम परिमित मेमोरी अवस्था पर भी विचार करते हैं जिसमें एजेंट परिमित-अवस्था मशीन है, और सामान्य अवस्था जिसमें एजेंट की अनंत मेमोरी होती है।

उद्देश्य

लगभग सुनिश्चित (अनंत मेमोरी)

लगभग सुनिश्चित (परिमित मेमोरी)

सकारात्मक (अनंत मेमोरी)

सकारात्मक (परिमित मेमोरी)

मात्रात्मक (अनंत mem)

मात्रात्मक (परिमित मेमोरी)

Büchi

एक्सपटाइम-पूर्ण

अनिर्णनीय

एक्सपटाइम-पूर्ण^[15]

अनिर्णनीय

coBüchi

अनिर्णनीय

एक्सपटाइम-पूर्ण^[15]

एक्सपटाइम-पूर्ण

अनिर्णनीय

समानता

अनिर्णनीय

एक्सपटाइम-पूर्ण^[15]

अनिर्णनीय

एक्सपटाइम-पूर्ण^[15]

अनिर्णनीय

अनुप्रयोग

पीओएमडीपी का उपयोग कई तरह की वास्तविक विश्व की समस्याओं के मॉडल के लिए किया जा सकता है। उल्लेखनीय अनुप्रयोगों में इस्कीमिक हृदय रोग के रोगियों के प्रबंधन में पीओएमडीपी का उपयोग सम्मिलित है,^[16] डिमेंशिया वाले व्यक्तियों के लिए सहायक तकनीक,^[9]^[10] गंभीर रूप से लुप्तप्राय और सुमात्रन बाघों और विमान टक्कर परिहार का पता लगाना जटिल है।^[17]^[18]

संदर्भ

↑ Åström, K.J. (1965). "अधूरी राज्य सूचना के साथ मार्कोव प्रक्रियाओं का इष्टतम नियंत्रण". Journal of Mathematical Analysis and Applications. 10: 174–205. doi:10.1016/0022-247X(65)90154-X.
↑ ^2.0 ^2.1 Kaelbling, L.P., Littman, M.L., Cassandra, A.R. (1998). "आंशिक रूप से देखने योग्य स्टोकास्टिक डोमेन में योजना और अभिनय". Artificial Intelligence. 101 (1–2): 99–134. doi:10.1016/S0004-3702(98)00023-X.{{cite journal}}: CS1 maint: multiple names: authors list (link)
↑ Sondik, E.J. (1971). आंशिक रूप से देखने योग्य मार्कोव प्रक्रियाओं का इष्टतम नियंत्रण (PhD thesis). Stanford University. Archived from the original on October 17, 2019.
↑ Smallwood, R.D., Sondik, E.J. (1973). "एक परिमित क्षितिज पर आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं का इष्टतम नियंत्रण". Operations Research. 21 (5): 1071–88. doi:10.1287/opre.21.5.1071.{{cite journal}}: CS1 maint: multiple names: authors list (link)
↑ Sondik, E.J. (1978). "The optimal control of partially observable Markov processes over the infinite horizon: discounted cost". Operations Research. 26 (2): 282–304. doi:10.1287/opre.26.2.282.
↑ Hansen, E. (1998). "पॉलिसी स्पेस में खोज कर पीओएमडीपी को हल करना". Proceedings of the Fourteenth International Conference on Uncertainty In Artificial Intelligence (UAI-98). arXiv:1301.7380.
↑ Hauskrecht, M. (2000). "आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं के लिए मूल्य समारोह सन्निकटन". Journal of Artificial Intelligence Research. 13: 33–94. doi:10.1613/jair.678.
↑ Lovejoy, W. (1991). "आंशिक रूप से देखे गए मार्कोव निर्णय प्रक्रियाओं के लिए कम्प्यूटेशनल रूप से व्यवहार्य सीमाएं". Operations Research. 39: 162–175. doi:10.1287/opre.39.1.162.
↑ ^9.0 ^9.1 Jesse Hoey; Axel von Bertoldi; Pascal Poupart; Alex Mihailidis (2007). "आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रिया का उपयोग करके हैंडवाशिंग के दौरान डिमेंशिया वाले व्यक्तियों की सहायता करना". Proc. International Conference on Computer Vision Systems (ICVS). doi:10.2390/biecoll-icvs2007-89.
↑ ^10.0 ^10.1 Jesse Hoey; Pascal Poupart; Axel von Bertoldi; Tammy Craig; Craig Boutilier; Alex Mihailidis. (2010). "डिमेंशिया से पीड़ित व्यक्तियों के लिए वीडियो और आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रिया का उपयोग करने के लिए स्वचालित हैंडवाशिंग सहायता". Computer Vision and Image Understanding (CVIU). 114 (5): 503–519. CiteSeerX 10.1.1.160.8351. doi:10.1016/j.cviu.2009.06.008.
↑ Pineau, J., Gordon, G., Thrun, S. (August 2003). "Point-based value iteration: An anytime algorithm for POMDPs" (PDF). International Joint Conference on Artificial Intelligence (IJCAI). Acapulco, Mexico. pp. 1025–32.{{cite conference}}: CS1 maint: multiple names: authors list (link)
↑ Hauskrecht, M. (1997). "आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं में सीमा की गणना के लिए वृद्धिशील तरीके". Proceedings of the 14th National Conference on Artificial Intelligence (AAAI). Providence, RI. pp. 734–739. CiteSeerX 10.1.1.85.8303.
↑ Roy, Nicholas; Gordon, Geoffrey (2003). "Exponential Family PCA for Belief Compression in POMDPs" (PDF). न्यूरल इन्फर्मेशन प्रोसेसिंग सिस्टम्स में प्रगति.
↑ Francois-Lavet, V., Rabusseau, G., Pineau, J., Ernst, D., Fonteneau, R. (2019). आंशिक प्रेक्षणीयता के साथ बैच रीइन्फोर्समेंट लर्निंग में ओवरफिटिंग और एसिम्प्टोटिक बायस पर. Journal of Artificial Intelligence Research (JAIR). Vol. 65. pp. 1–30. arXiv:1709.07796.{{cite conference}}: CS1 maint: multiple names: authors list (link)
↑ ^15.0 ^15.1 ^15.2 ^15.3 ^15.4 Chatterjee, Krishnendu; Chmelík, Martin; Tracol, Mathieu (2016-08-01). "What is decidable about partially observable Markov decision processes with ω-regular objectives". Journal of Computer and System Sciences. 82 (5): 878–911. doi:10.1016/j.jcss.2016.02.009. ISSN 0022-0000.
↑ Hauskrecht, M. , Fraser, H. (2000). "आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रियाओं के साथ इस्कीमिक हृदय रोग के उपचार की योजना बनाना". Artificial Intelligence in Medicine. 18 (3): 221–244. doi:10.1016/S0933-3657(99)00042-1. PMID 10675716.{{cite journal}}: CS1 maint: multiple names: authors list (link)
↑ Chadès, I., McDonald-Madden, E., McCarthy, M.A., Wintle, B., Linkie, M., Possingham, H.P. (16 September 2008). "गुप्त खतरे वाली प्रजातियों का प्रबंधन या सर्वेक्षण कब बंद करें". Proc. Natl. Acad. Sci. U.S.A. 105 (37): 13936–40. Bibcode:2008PNAS..10513936C. doi:10.1073/pnas.0805265105. PMC 2544557. PMID 18779594.{{cite journal}}: CS1 maint: multiple names: authors list (link)
↑ Kochenderfer, Mykel J. (2015). "Optimized Airborne Collision Avoidance". अनिश्चितता के तहत निर्णय लेना. The MIT Press.

बाहरी संबंध

APPL, a fast point-based POMDP solver
Finite-state Controllers using Branch-and-Bound An Exact POMDP Solver for Policies of a Bounded Size
pomdp: Infrastructure for Partially Observable Markov Decision Processes (POMDP) an R package which includes an interface to Tony Cassandra's pomdp-solve program.
POMDPs.jl, an interface for defining and solving MDPs and POMDPs in Julia and python with a variety of solvers.
pyPOMDP, a (PO)MDP toolbox (simulator, solver, learner, file reader) for Python by Oliver Stollmann and Bastian Migge
zmdp, a POMDP solver by Trey Smith

[1] Åström, K.J. (1965). "अधूरी राज्य सूचना के साथ मार्कोव प्रक्रियाओं का इष्टतम नियंत्रण". Journal of Mathematical Analysis and Applications. 10: 174–205. doi:10.1016/0022-247X(65)90154-X.

[Kaelbling98-2] 2.0 ^2.1 Kaelbling, L.P., Littman, M.L., Cassandra, A.R. (1998). "आंशिक रूप से देखने योग्य स्टोकास्टिक डोमेन में योजना और अभिनय". Artificial Intelligence. 101 (1–2): 99–134. doi:10.1016/S0004-3702(98)00023-X.{{cite journal}}: CS1 maint: multiple names: authors list (link)

[3] Sondik, E.J. (1971). आंशिक रूप से देखने योग्य मार्कोव प्रक्रियाओं का इष्टतम नियंत्रण (PhD thesis). Stanford University. Archived from the original on October 17, 2019.

[4] Smallwood, R.D., Sondik, E.J. (1973). "एक परिमित क्षितिज पर आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं का इष्टतम नियंत्रण". Operations Research. 21 (5): 1071–88. doi:10.1287/opre.21.5.1071.{{cite journal}}: CS1 maint: multiple names: authors list (link)

[5] Sondik, E.J. (1978). "The optimal control of partially observable Markov processes over the infinite horizon: discounted cost". Operations Research. 26 (2): 282–304. doi:10.1287/opre.26.2.282.

[6] Hansen, E. (1998). "पॉलिसी स्पेस में खोज कर पीओएमडीपी को हल करना". Proceedings of the Fourteenth International Conference on Uncertainty In Artificial Intelligence (UAI-98). arXiv:1301.7380.

[7] Hauskrecht, M. (2000). "आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं के लिए मूल्य समारोह सन्निकटन". Journal of Artificial Intelligence Research. 13: 33–94. doi:10.1613/jair.678.

[8] Lovejoy, W. (1991). "आंशिक रूप से देखे गए मार्कोव निर्णय प्रक्रियाओं के लिए कम्प्यूटेशनल रूप से व्यवहार्य सीमाएं". Operations Research. 39: 162–175. doi:10.1287/opre.39.1.162.

[hoey-9] 9.0 ^9.1 Jesse Hoey; Axel von Bertoldi; Pascal Poupart; Alex Mihailidis (2007). "आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रिया का उपयोग करके हैंडवाशिंग के दौरान डिमेंशिया वाले व्यक्तियों की सहायता करना". Proc. International Conference on Computer Vision Systems (ICVS). doi:10.2390/biecoll-icvs2007-89.

[hoeyCVIU-10] 10.0 ^10.1 Jesse Hoey; Pascal Poupart; Axel von Bertoldi; Tammy Craig; Craig Boutilier; Alex Mihailidis. (2010). "डिमेंशिया से पीड़ित व्यक्तियों के लिए वीडियो और आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रिया का उपयोग करने के लिए स्वचालित हैंडवाशिंग सहायता". Computer Vision and Image Understanding (CVIU). 114 (5): 503–519. CiteSeerX 10.1.1.160.8351. doi:10.1016/j.cviu.2009.06.008.

[11] Pineau, J., Gordon, G., Thrun, S. (August 2003). "Point-based value iteration: An anytime algorithm for POMDPs" (PDF). International Joint Conference on Artificial Intelligence (IJCAI). Acapulco, Mexico. pp. 1025–32.{{cite conference}}: CS1 maint: multiple names: authors list (link)

[12] Hauskrecht, M. (1997). "आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं में सीमा की गणना के लिए वृद्धिशील तरीके". Proceedings of the 14th National Conference on Artificial Intelligence (AAAI). Providence, RI. pp. 734–739. CiteSeerX 10.1.1.85.8303.

[13] Roy, Nicholas; Gordon, Geoffrey (2003). "Exponential Family PCA for Belief Compression in POMDPs" (PDF). न्यूरल इन्फर्मेशन प्रोसेसिंग सिस्टम्स में प्रगति.

[14] Francois-Lavet, V., Rabusseau, G., Pineau, J., Ernst, D., Fonteneau, R. (2019). आंशिक प्रेक्षणीयता के साथ बैच रीइन्फोर्समेंट लर्निंग में ओवरफिटिंग और एसिम्प्टोटिक बायस पर. Journal of Artificial Intelligence Research (JAIR). Vol. 65. pp. 1–30. arXiv:1709.07796.{{cite conference}}: CS1 maint: multiple names: authors list (link)

[:0-15] 15.0 ^15.1 ^15.2 ^15.3 ^15.4 Chatterjee, Krishnendu; Chmelík, Martin; Tracol, Mathieu (2016-08-01). "What is decidable about partially observable Markov decision processes with ω-regular objectives". Journal of Computer and System Sciences. 82 (5): 878–911. doi:10.1016/j.jcss.2016.02.009. ISSN 0022-0000.

[16] Hauskrecht, M. , Fraser, H. (2000). "आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रियाओं के साथ इस्कीमिक हृदय रोग के उपचार की योजना बनाना". Artificial Intelligence in Medicine. 18 (3): 221–244. doi:10.1016/S0933-3657(99)00042-1. PMID 10675716.{{cite journal}}: CS1 maint: multiple names: authors list (link)

[chades-17] Chadès, I., McDonald-Madden, E., McCarthy, M.A., Wintle, B., Linkie, M., Possingham, H.P. (16 September 2008). "गुप्त खतरे वाली प्रजातियों का प्रबंधन या सर्वेक्षण कब बंद करें". Proc. Natl. Acad. Sci. U.S.A. 105 (37): 13936–40. Bibcode:2008PNAS..10513936C. doi:10.1073/pnas.0805265105. PMC 2544557. PMID 18779594.{{cite journal}}: CS1 maint: multiple names: authors list (link)

[18] Kochenderfer, Mykel J. (2015). "Optimized Airborne Collision Avoidance". अनिश्चितता के तहत निर्णय लेना. The MIT Press.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

@@ Line 1: / Line 1: @@
 {{short description|Generalization of a Markov decision process}}
-आंशिक रूप से देखने योग्य [[मार्कोव निर्णय प्रक्रिया]] (पीओएमडीपी) मार्कोव निर्णय प्रक्रिया (एमडीपी) का सामान्यीकरण है। एक पीओएमडीपी एक एजेंट निर्णय प्रक्रिया को मॉडल करता है, जिसमें यह माना जाता है कि प्रणाली की गतिशीलता एक एमडीपी द्वारा निर्धारित की जाती है, लेकिन एजेंट सीधे अंतर्निहित स्थिति का निरीक्षण नहीं कर सकता है। इसके अतिरिक्त, इसे एक सेंसर मॉडल (अंतर्निहित स्थिति को देखते हुए विभिन्न अवलोकनों की प्रायिकता वितरण) और अंतर्निहित एमडीपी को बनाए रखना चाहिए। एमडीपी में पॉलिसी फलन के विपरीत, जो अंतर्निहित अवस्थाओं को क्रियाओं के लिए मैप करता है, पीओएमडीपी की नीति टिप्पणियों के इतिहास (या विश्वास अवस्थाओं) से फलनों के लिए एक मानचित्रण है।
+आंशिक रूप से देखने योग्य [[मार्कोव निर्णय प्रक्रिया]] (पीओएमडीपी), मार्कोव निर्णय प्रक्रिया (एमडीपी) का सामान्यीकरण है। पीओएमडीपी एजेंट निर्णय प्रक्रिया को मॉडल करता है, जिसमें यह माना जाता है कि प्रणाली की गतिशीलता एमडीपी द्वारा निर्धारित की जाती है, लेकिन एजेंट सीधे अंतर्निहित अवस्था का निरीक्षण नहीं कर सकता है। इसके अतिरिक्त, इसे सेंसर मॉडल (अंतर्निहित अवस्था को देखते हुए विभिन्न अवलोकनों की प्रायिकता वितरण) और अंतर्निहित एमडीपी को बनाए रखना चाहिए। एमडीपी में नीति फलन के विपरीत, जो अंतर्निहित अवस्थाओं को क्रियाओं के लिए मैप करता है, पीओएमडीपी की नीति टिप्पणियों के इतिहास (या धारणा अवस्थाओं) से फलनों के लिए मानचित्रण है।
-पीओएमडीपी ढांचा सामान्य रूप से वास्तविक विश्व की विभिन्न अनुक्रमिक निर्णय प्रक्रियाओं को मॉडल करने के लिए पर्याप्त है। अनुप्रयोगों में रोबोट नेविगेशन समस्याएं, मशीन रखरखाव और सामान्य रूप से अनिश्चितता के अनुसार योजना सम्मिलित है। 1965 में कार्ल जोहान एस्ट्रोम द्वारा [[अपूर्ण जानकारी]] के साथ मार्कोव निर्णय प्रक्रियाओं के सामान्य ढांचे का वर्णन किया गया था।<ref>{{cite journal  |author=Åström, K.J.  |title=अधूरी राज्य सूचना के साथ मार्कोव प्रक्रियाओं का इष्टतम नियंत्रण|journal=Journal of Mathematical Analysis and Applications |volume=10 |pages=174–205 |year=1965|doi=10.1016/0022-247X(65)90154-X |url=https://lup.lub.lu.se/record/8867084 }}</ref> असतत अवस्था स्थान के मामले में, और इसका संचालन अनुसंधान समुदाय में आगे अध्ययन किया गया था जहां संक्षिप्त नाम पीओएमडीपी गढ़ा गया था। इसे बाद में लेस्ली पी. केलब्लिंग और माइकल एल. लिटमैन द्वारा कृत्रिम बुद्धिमत्ता और [[स्वचालित योजना]] में समस्याओं के लिए अनुकूलित किया गया था।<ref name="Kaelbling98">{{cite journal |doi=10.1016/S0004-3702(98)00023-X |author=Kaelbling, L.P., Littman, M.L., Cassandra, A.R. |title=आंशिक रूप से देखने योग्य स्टोकास्टिक डोमेन में योजना और अभिनय|journal=Artificial Intelligence |volume=101 |issue=1–2 |pages=99–134 |year=1998 }}</ref>
+पीओएमडीपी ढांचा सामान्य रूप से वास्तविक विश्व की विभिन्न अनुक्रमिक निर्णय प्रक्रियाओं को मॉडल करने के लिए पर्याप्त है। अनुप्रयोगों में रोबोट संकेतन समस्याएं, मशीन देखरेख और सामान्य रूप से अनिश्चितता के अनुसार योजनायें सम्मिलित हैं। 1965 में कार्ल जोहान एस्ट्रोम द्वारा [[अपूर्ण जानकारी]] के साथ मार्कोव निर्णय प्रक्रियाओं के सामान्य ढांचे का वर्णन किया गया था।<ref>{{cite journal  |author=Åström, K.J.  |title=अधूरी राज्य सूचना के साथ मार्कोव प्रक्रियाओं का इष्टतम नियंत्रण|journal=Journal of Mathematical Analysis and Applications |volume=10 |pages=174–205 |year=1965|doi=10.1016/0022-247X(65)90154-X |url=https://lup.lub.lu.se/record/8867084 }}</ref> असतत अवस्था स्थान की अवस्था में, और इसका संचालन अनुसंधान समुदाय में आगे अध्ययन किया गया था, जहां संक्षिप्त नाम पीओएमडीपी दिया गया था। इसे बाद में लेस्ली पी. केलब्लिंग और माइकल एल. लिटमैन द्वारा कृत्रिम बुद्धिमत्ता और [[स्वचालित योजना]] में समस्याओं के लिए अनुकूलित किया गया था।<ref name="Kaelbling98">{{cite journal |doi=10.1016/S0004-3702(98)00023-X |author=Kaelbling, L.P., Littman, M.L., Cassandra, A.R. |title=आंशिक रूप से देखने योग्य स्टोकास्टिक डोमेन में योजना और अभिनय|journal=Artificial Intelligence |volume=101 |issue=1–2 |pages=99–134 |year=1998 }}</ref>
-पीओएमडीपी का एक स्पष्ट समाधान विश्व अवस्थाओं पर प्रत्येक संभावित विश्वास के लिए इष्टतम कार्रवाई करता है। इष्टतम कार्रवाई संभवतः अनंत क्षितिज पर एजेंट के अपेक्षित पुरस्कार (या व्यय को कम करती है) को अधिकतम करती है। इष्टतम क्रियाओं के अनुक्रम को एजेंट के पर्यावरण के साथ वार्तालाप के लिए इष्टतम नीति के रूप में जाना जाता है।
+पीओएमडीपी का स्पष्ट समाधान विश्व अवस्थाओं पर प्रत्येक संभावित धारणा के लिए इष्टतम कार्रवाई करता है। इष्टतम कार्रवाई संभवतः अनंत क्षितिज पर एजेंट के अपेक्षित रिवार्ड (या व्यय को कम करती है) को अधिकतम करती है। इष्टतम क्रियाओं के अनुक्रम को एजेंट के पर्यावरण के साथ वार्तालाप के लिए इष्टतम नीति के रूप में जाना जाता है।
 == परिभाषा ==
 === औपचारिक परिभाषा ===
-एक असतत-समय पीओएमडीपी एक एजेंट और उसके वातावरण के बीच संबंध को मॉडल करता है। औपचारिक रूप से, एक पीओएमडीपी 7-ट्यूपल <math>(S,A,T,R,\Omega,O,\gamma)</math> है, जहाँ
+असतत-समय पीओएमडीपी एजेंट और उसके वातावरण के बीच संबंध को मॉडल करता है। औपचारिक रूप से, पीओएमडीपी 7-ट्यूपल <math>(S,A,T,R,\Omega,O,\gamma)</math> है, जहाँ
-* <math>S</math> अवस्थाओं का एक समूह है,
+* अवस्थाओं का समूह <math>S</math> है,
-* <math>A</math> क्रियाओं का एक समूह है,
+* क्रियाओं का समूह <math>A</math> है,
-* <math>T</math> अवस्थाओं के बीच सशर्त संक्रमण प्रायिकताओं का एक समुच्चय है,
+* अवस्थाओं के बीच सशर्त संक्रमण प्रायिकताओं का समुच्चय <math>T</math> है,
-* <math>R: S \times A \to \mathbb{R}</math> पुरस्कार फलन है।
+* रिवार्ड फलन <math>R: S \times A \to \mathbb{R}</math> है।
-* <math>\Omega</math> टिप्पणियों का एक समुच्चय है,
+* टिप्पणियों का समुच्चय <math>\Omega</math> है,
-* <math>O</math> सशर्त अवलोकन प्रायिकताओं का एक समुच्चय है, और
+* सशर्त अवलोकन प्रायिकताओं का समुच्चय <math>O</math> है, और
-* <math>\gamma \in [0, 1)</math> छूट कारक है।
+* छूट कारक <math>\gamma \in [0, 1)</math> है।
-प्रत्येक समय अवधि में, पर्यावरण किसी न किसी अवस्था में होता है <math>s \in S</math>. एजेंट कार्रवाई करता है <math>a \in A</math>, जो पर्यावरण को अवस्था में संक्रमण का कारण बनता है <math>s'</math> प्रायिकता के साथ <math>T(s'\mid s,a)</math>. उसी समय, एजेंट एक अवलोकन <math>o \in \Omega</math> प्राप्त करता है, जो पर्यावरण की नई स्थिति <math>s'</math> पर निर्भर करती है, और अभी-अभी की गई कार्रवाई पर, <math>a</math>, <math>O(o \mid s',a)</math> प्रायिकता के साथ (या कभी-कभी <math>O(o \mid s')</math> सेंसर मॉडल पर निर्भर करता है) है। अंत में, एजेंट को <math>r</math> के बराबर <math>R(s, a)</math> पुरस्कार मिलता है। फिर प्रक्रिया दोहरायी जाती है। एजेंट के लिए लक्ष्य प्रत्येक समय कदम पर ऐसी कार्रवाइयों का चयन करना है जो उसके अपेक्षित भविष्य के छूट वाले पुरस्कार को अधिकतम करें: <math>E \left[ \sum_{t=0}^\infty \gamma^t r_t \right]</math>, जहाँ <math>r_t</math> समय पर अर्जित पुरस्कार है <math>t</math>. छूट का कारक <math>\gamma</math> यह निर्धारित करता है कि अधिक दूर के पुरस्कारों पर कितने तात्कालिक पुरस्कार पसंद किए जाते हैं। जब <math>\gamma=0</math> एजेंट केवल इस बात की चिंता करता है कि किस कार्रवाई से सबसे बड़ा अपेक्षित तत्काल पुरस्कार मिलेगा; जब <math>\gamma \rightarrow 1</math> एजेंट भविष्य के पुरस्कारों की अपेक्षित राशि को अधिकतम करने की चिंता करता है।
+प्रत्येक समय अवधि में, पर्यावरण किसी न किसी अवस्था <math>s \in S</math> में होता है। एजेंट <math>a \in A</math> कार्रवाई करता है, जो पर्यावरण को <math>s'</math> अवस्था में प्रायिकता <math>T(s'\mid s,a)</math> के साथ संक्रमण का कारण बनता है। उसी समय, एजेंट अवलोकन <math>o \in \Omega</math> प्राप्त करता है, जो पर्यावरण की नई अवस्था <math>s'</math> पर निर्भर करती है, और अभी-अभी की गई कार्रवाई पर, <math>a</math>, <math>O(o \mid s',a)</math> प्रायिकता के साथ (या कभी-कभी <math>O(o \mid s')</math> सेंसर मॉडल पर) निर्भर करता है। अंत में, एजेंट को <math>r</math> के बराबर <math>R(s, a)</math> रिवार्ड मिलता है। फिर प्रक्रिया दोहरायी जाती है। एजेंट के लिए लक्ष्य प्रत्येक समय चरण पर ऐसी कार्रवाइयों का चयन करना है, जो उसके अपेक्षित भविष्य के छूट वाले रिवार्ड को अधिकतम करें: <math>E \left[ \sum_{t=0}^\infty \gamma^t r_t \right]</math>, जहाँ <math>r_t</math> समय पर अर्जित रिवार्ड <math>t</math> है। छूट का कारक <math>\gamma</math> यह निर्धारित करता है कि अधिक दूर के रिवार्डों पर कितने तात्कालिक रिवार्ड पसंद किए जाते हैं। जब <math>\gamma=0</math> एजेंट केवल इस बात की चिंता करता है कि किस कार्रवाई से सबसे बड़ा अपेक्षित तत्काल रिवार्ड मिलेगा; जब <math>\gamma \rightarrow 1</math> एजेंट भविष्य के रिवार्डों की अपेक्षित राशि को अधिकतम करने की चिंता करता है।
 === चर्चा ===
-क्योंकि एजेंट सीधे पर्यावरण की स्थिति का निरीक्षण नहीं करता है, एजेंट को सही पर्यावरण स्थिति की अनिश्चितता के अनुसार निर्णय लेना चाहिए। चूँकि, पर्यावरण के साथ वार्तालाप करके और अवलोकन प्राप्त करके, एजेंट वर्तमान स्थिति की संभाव्यता वितरण को अद्यतन करके वास्तविक स्थिति में अपने विश्वास को अद्यतन कर सकता है। इस संपत्ति का एक परिणाम यह है कि इष्टतम व्यवहार में अधिकांशतः (सूचना एकत्र करना) क्रियाएं सम्मिलित हो सकती हैं, जो विशुद्ध रूप से इसलिए की जाती हैं क्योंकि वे वर्तमान स्थिति के एजेंट के अनुमान में संशोधन करते हैं, जिससे भविष्य में उत्तम निर्णय लेने की अनुमति मिलती है।
+क्योंकि एजेंट सीधे पर्यावरण की अवस्था का निरीक्षण नहीं करता है, एजेंट को सही पर्यावरण अवस्था की अनिश्चितता के अनुसार निर्णय लेना चाहिए। चूँकि, पर्यावरण के साथ वार्तालाप करके और अवलोकन प्राप्त करके, एजेंट वर्तमान अवस्था की संभाव्यता वितरण को अद्यतन करके वास्तविक अवस्था में अपने धारणा को अद्यतन कर सकता है। इस संपत्ति का परिणाम यह है कि इष्टतम व्यवहार में अधिकांशतः (सूचना एकत्र करना) क्रियाएं सम्मिलित हो सकती हैं, जो विशुद्ध रूप से इसलिए की जाती हैं क्योंकि वे वर्तमान अवस्था के एजेंट के अनुमान में संशोधन करते हैं, जिससे भविष्य में उत्तम निर्णय लेने की अनुमति मिलती है।
-मार्कोव निर्णय प्रक्रिया की परिभाषा के साथ उपरोक्त परिभाषा की तुलना करना शिक्षाप्रद है। एक एमडीपी में अवलोकन समुच्चय सम्मिलित नहीं होता है, क्योंकि एजेंट सदैव पर्यावरण की वर्तमान स्थिति को निश्चित रूप से जानता है। वैकल्पिक रूप से, एक एमडीपी को पीओएमडीपी के रूप में अवस्थाओं के समुच्चय के बराबर होने के लिए अवलोकन समुच्चय करके और अवलोकन सशर्त प्रायिकताओं को निश्चित रूप से सही स्थिति से मेल खाने वाले अवलोकन का चयन करके परिभाषित किया जा सकता है।
+मार्कोव निर्णय प्रक्रिया की परिभाषा के साथ उपरोक्त परिभाषा की तुलना करना शिक्षाप्रद है। एमडीपी में अवलोकन समुच्चय सम्मिलित नहीं होता है, क्योंकि एजेंट सदैव पर्यावरण की वर्तमान अवस्था को निश्चित रूप से जानता है। वैकल्पिक रूप से, एमडीपी को पीओएमडीपी के रूप में अवस्थाओं के समुच्चय के बराबर होने के लिए अवलोकन समुच्चय करके और अवलोकन सशर्त प्रायिकताओं को निश्चित रूप से सही अवस्था से मेल खाने वाले अवलोकन का चयन करके परिभाषित किया जा सकता है।
-== विश्वास अद्यतन ==
+== अद्यतन धारणा ==
-कार्रवाई करने के बाद <math>a</math> और <math>o</math> दिख रहा है, एक एजेंट को अवस्था में अपने विश्वास को अद्यतन करने की आवश्यकता है (या नहीं) पर्यावरण में हो सकता है (या नहीं)। चूंकि अवस्था मार्कोवियन है (धारणा के अनुसार), अवस्थाओं पर विश्वास बनाए रखने के लिए केवल पिछले विश्वास अवस्था के ज्ञान की, की गई कार्रवाई, और वर्तमान अवलोकन की आवश्यकता होती है। ऑपरेशन <math>b' = \tau(b,a,o)</math> दर्शाया गया है। नीचे हम वर्णन करते हैं कि इस विश्वास अद्यतन की गणना कैसे की जाती है।
+<math>a</math> कार्रवाई करने के बाद और <math>o</math> अवलोकन करने के बाद, एजेंट को अवस्था में अपनी धारणा को अद्यतन करने की आवश्यकता होती है, जिसमें पर्यावरण हो सकता है (या नहीं)। चूंकि अवस्था मार्कोवियन है (धारणा के अनुसार), अवस्थाओं पर धारणा बनाए रखने के लिए केवल पिछले धारणा अवस्था के ज्ञान की, की गई कार्रवाई, और वर्तमान अवलोकन की आवश्यकता होती है। ऑपरेशन <math>b' = \tau(b,a,o)</math> द्वारा दर्शाया गया है। नीचे हम वर्णन करते हैं कि इस धारणा अद्यतन की गणना कैसे की जाती है।
-पहुंचने के बाद <math>s'</math>, एजेंट <math>o \in \Omega</math> देखता है, <math>O(o\mid s',a)</math> प्रायिकता के साथ। माना <math>b</math> अवस्था स्थान पर संभाव्यता वितरण <math>S</math> हो। <math>b(s)</math> इस प्रायिकता को दर्शाता है कि पर्यावरण स्थिति में <math>s</math> है। दिया गया <math>b(s)</math>, फिर कार्रवाई करने के बाद <math>a</math> और <math>o</math> दिख रहा है,
+<math>s'</math> तक पहुंचने के बाद, एजेंट प्रायिकता <math>O(o\mid s',a)</math> के साथ <math>o \in \Omega</math> देखता है। माना <math>b</math> अवस्था स्थान <math>S</math> पर संभाव्यता वितरण है। <math>b(s)</math> इस प्रायिकता को दर्शाता है कि पर्यावरण अवस्था <math>s</math> में है। दिया गया <math>b(s)</math>, फिर <math>a</math> कार्रवाई करने और <math>o</math> देखने के बाद,
 :<math>
 b'(s') = \eta O(o\mid s',a) \sum_{s\in S} T(s'\mid s,a)b(s)
 </math>
-जहाँ <math>\eta=1/\Pr(o\mid b,a)</math> के साथ एक सामान्यीकरण स्थिरांक <math>\Pr(o\mid b,a) = \sum_{s'\in S}O(o\mid s',a)\sum_{s\in S}T(s'\mid s,a)b(s)</math> है।
+जहाँ <math>\eta=1/\Pr(o\mid b,a)</math> के साथ सामान्यीकरण स्थिरांक <math>\Pr(o\mid b,a) = \sum_{s'\in S}O(o\mid s',a)\sum_{s\in S}T(s'\mid s,a)b(s)</math> है।
-== विश्वास एमडीपी ==
+== एमडीपी धारणा ==
-एक मार्कोवियन विश्वास अवस्था एक पीओएमडीपी को मार्कोव निर्णय प्रक्रिया के रूप में तैयार करने की अनुमति देता है, जहां हर विश्वास एक अवस्था है। परिणामी विश्वास एमडीपी इस प्रकार एक निरंतर अवस्था स्थान पर परिभाषित किया जाएगा (तथापि मूल पीओएमडीपी में अवस्थाओं की सीमित संख्या हो: अनंत विश्वास अवस्था हैं (<math>B</math> में) क्योंकि अवस्थाओं में असीमित संभाव्यता वितरण  (<math>S</math>के) हैं।<ref name="Kaelbling98" />
+मार्कोवियन धारणा अवस्था पीओएमडीपी को मार्कोव निर्णय प्रक्रिया के रूप में तैयार करने की अनुमति देता है, जहां हर धारणा अवस्था है। परिणामी धारणा एमडीपी इस प्रकार निरंतर अवस्था स्थान पर परिभाषित किया जाएगा (तथापि मूल पीओएमडीपी में अवस्थाओं की सीमित संख्या हो: अनंत धारणा अवस्था (<math>B</math> में) हैं क्योंकि अवस्थाओं में असीमित संभाव्यता वितरण (<math>S</math> के) हैं।<ref name="Kaelbling98" />
-औपचारिक रूप से, विश्वास एमडीपी को टपल के रूप में परिभाषित किया गया है <math>(B,A,\tau,r,\gamma)</math> जहाँ
+औपचारिक रूप से, धारणा एमडीपी को टपल <math>(B,A,\tau,r,\gamma)</math> के रूप में परिभाषित किया गया है, जहाँ
-* <math>B</math> पीओएमडीपी अवस्थाओं पर विश्वास अवस्थाओं का समूह है,
+* पीओएमडीपी अवस्थाओं पर धारणा अवस्थाओं का समूह <math>B</math> है,
-* <math>A</math> मूल पीओएमडीपी के समान कार्रवाई का एक ही सीमित समुच्चय है,
+* मूल पीओएमडीपी के समान कार्रवाई का एक ही सीमित समुच्चय <math>A</math> है,
-* <math>\tau</math> विश्वास अवस्था संक्रमण फलन है,
+* धारणा अवस्था संक्रमण फलन <math>\tau</math> है,
-* <math>r:B \times A \to \mathbb{R}</math> विश्वास अवस्थाओं पर पुरस्कार फलन है,
+* धारणा अवस्थाओं पर रिवार्ड फलन <math>r:B \times A \to \mathbb{R}</math> है,
-* <math>\gamma</math> के बराबर छूट कारक है <math>\gamma</math> मूल पीओएमडीपी में।
+* <math>\gamma</math> मूल पीओएमडीपी में <math>\gamma</math> के बराबर छूट कारक है।
-यहाँ इन, <math>\tau</math> और <math>r</math> मूल पीओएमडीपी से प्राप्त करने की आवश्यकता है। <math>\tau</math> है
+इनमें से <math>\tau</math> और <math>r</math> को मूल पीओएमडीपी से प्राप्त करने की आवश्यकता है। <math>\tau</math> है
 <math>\tau(b,a,b') = \sum_{o\in \Omega} \Pr(b'|b,a,o) \Pr(o | a, b),</math>
 जहाँ <math>\Pr(o | a,b)</math> पिछले खंड में प्राप्त वैल्यू है और
@@ Line 55: / Line 56: @@
 &\text{otherwise }  \end{cases}</math>
-विश्वास एमडीपी पुरस्कार फलन (<math>r</math>) विश्वास अवस्था वितरण पर पीओएमडीपी पुरस्कार फलन से अपेक्षित पुरस्कार है:
+धारणा एमडीपी रिवार्ड फलन (<math>r</math>) धारणा अवस्था वितरण पर पीओएमडीपी रिवार्ड फलन से अपेक्षित रिवार्ड है:
 <math>r(b,a) = \sum_{s\in S} b(s) R(s,a)</math>.
-विश्वास एमडीपी अब आंशिक रूप से देखने योग्य नहीं है, क्योंकि किसी भी समय एजेंट अपने विश्वास को जानता है, और विस्तार से विश्वास एमडीपी की स्थिति।
+धारणा एमडीपी अब आंशिक रूप से देखने योग्य नहीं है, क्योंकि किसी भी समय एजेंट अपने धारणा को जानता है, और विस्तार से धारणा एमडीपी की अवस्था।
 === नीति और वैल्यू फलन ===
-प्रारंभिक पीओएमडीपी के विपरीत (जहां प्रत्येक क्रिया केवल एक अवस्था से उपलब्ध है), संबंधित विश्वास एमडीपी में सभी विश्वास अवस्था सभी फलनों की अनुमति देते हैं, क्योंकि आप (लगभग) सदैव विश्वास करने की कुछ प्रायिकता रखते हैं कि आप किसी भी (मूल) अवस्था में हैं। जैसे की, <math>\pi</math> एक क्रिया निर्दिष्ट <math>a=\pi(b)</math> करता है, किसी ट्रस्ट <math>b</math> के लिए।
+प्रारंभिक पीओएमडीपी के विपरीत (जहां प्रत्येक क्रिया केवल एक अवस्था से उपलब्ध है), संबंधित धारणा एमडीपी में सभी धारणा अवस्था सभी फलनों की अनुमति देते हैं, क्योंकि आप (लगभग) सदैव धारणा करने की कुछ प्रायिकता रखते हैं कि आप किसी भी (मूल) अवस्था में हैं। जैसे की,  किसी ट्रस्ट <math>b</math> के लिए, <math>\pi</math> क्रिया निर्दिष्ट <math>a=\pi(b)</math> करता है।
-यहां यह माना जाता है कि उद्देश्य अनंत क्षितिज पर अपेक्षित कुल रियायती पुरस्कार को अधिकतम करना है। जब <math>R</math> एक व्यय को परिभाषित करता है, उद्देश्य अपेक्षित व्यय का न्यूनीकरण हो जाता है।
+यहां यह माना जाता है कि उद्देश्य अनंत क्षितिज पर अपेक्षित कुल रियायती रिवार्ड को अधिकतम करना है। जब <math>R</math> व्यय को परिभाषित करता है, उद्देश्य अपेक्षित व्यय का न्यूनीकरण हो जाता है।
-नीति के लिए अपेक्षित पुरस्कार <math>\pi</math> विश्वास से प्रारंभ <math>b_0</math> परिभाषित किया जाता है
+नीति के लिए अपेक्षित रिवार्ड <math>\pi</math> धारणा से प्रारंभ <math>b_0</math> परिभाषित किया जाता है
 :<math>
 V^\pi(b_0) = \sum_{t=0}^\infty  \gamma^t r(b_t, a_t) = \sum_{t=0}^\infty \gamma^t E\Bigl[ R(s_t,a_t) \mid b_0, \pi \Bigr]
 </math>
-जहाँ <math>\gamma<1</math> छूट कारक है। इष्टतम नीति <math>\pi^*</math> लंबी अवधि के पुरस्कार का अनुकूलन करके प्राप्त किया जाता है।
+जहाँ <math>\gamma<1</math> छूट कारक है। इष्टतम नीति <math>\pi^*</math> लंबी अवधि के रिवार्ड का अनुकूलन करके प्राप्त किया जाता है।
 :<math>
 \pi^* = \underset{\pi}{\mbox{argmax}}\ V^\pi(b_0)
 </math>
-जहाँ <math>b_0</math> प्रारंभिक विश्वास है।
+जहाँ <math>b_0</math> प्रारंभिक धारणा है।
-इष्टतम नीति, <math>\pi^*</math> द्वारा निरूपित, प्रत्येक विश्वास अवस्था के लिए उच्चतम अपेक्षित पुरस्कार वैल्यू प्राप्त करता है, जो कि इष्टतम वैल्यू फलन <math>V^*</math> द्वारा कॉम्पैक्ट रूप से दर्शाया गया है। यह मान फलन [[बेलमैन समीकरण]] का हल है:
+इष्टतम नीति, <math>\pi^*</math> द्वारा निरूपित, प्रत्येक धारणा अवस्था के लिए उच्चतम अपेक्षित रिवार्ड वैल्यू प्राप्त करता है, जो कि इष्टतम वैल्यू फलन <math>V^*</math> द्वारा कॉम्पैक्ट रूप से दर्शाया गया है। यह मान फलन [[बेलमैन समीकरण]] का हल है:
 :<math>
 V^*(b) = \max_{a\in A}\Bigl[ r(b,a) + \gamma\sum_{o\in \Omega} \Pr(o\mid b,a) V^*(\tau(b,a,o)) \Bigr]
 </math>
-परिमित-क्षितिज पीओएमडीपी के लिए, इष्टतम मान फलन टुकड़ावार-रैखिक और उत्तल है।<ref>{{Cite thesis |degree=PhD |title=आंशिक रूप से देखने योग्य मार्कोव प्रक्रियाओं का इष्टतम नियंत्रण|last=Sondik |first=E.J. |year=1971 |publisher=Stanford University |url=https://apps.dtic.mil/docs/citations/AD0730503|archive-url=https://web.archive.org/web/20191017142947/https://apps.dtic.mil/docs/citations/AD0730503|url-status=dead|archive-date=October 17, 2019}}</ref> इसे सदिशों के परिमित समुच्चय के रूप में प्रदर्शित किया जा सकता है। अनंत-क्षितिज सूत्रीकरण में, एक परिमित वेक्टर समुच्चय <math>V^*</math> अनुमानित हो सकता है, इच्छानुसार ढंग से निकटता से, जिसका आकार उत्तल रहता है। वैल्यू इटरेशन डायनामिक प्रोग्रामिंग अपडेट को प्रयुक्त करता है जिससे वैल्यू में धीरे-धीरे संशोधन हो सके जब तक कि अभिसरण नहीं हो जाता <math>\epsilon</math>-ऑप्टिमल वैल्यू फलन, और इसकी टुकड़े-टुकड़े रैखिकता और उत्तलता को बनाये रखता है।<ref>{{cite journal |doi=10.1287/opre.21.5.1071 |author=Smallwood, R.D., Sondik, E.J. |title=एक परिमित क्षितिज पर आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं का इष्टतम नियंत्रण|journal=Operations Research |volume=21 |issue=5 |pages=1071–88 |year=1973 }}</ref> वैल्यू में संशोधन करके, नीति में निहित रूप से संशोधन किया जाता है। नीति पुनरावृत्ति नामक एक अन्य गतिशील प्रोग्रामिंग तकनीक स्पष्ट रूप से नीति का प्रतिनिधित्व करती है और इसके अतिरिक्त संशोधन करती है।<ref>{{cite journal |doi=10.1287/opre.26.2.282 |author=Sondik, E.J. |title=The optimal control of partially observable Markov processes over the infinite horizon: discounted cost |journal=Operations Research |volume=26 |issue=2 |pages=282–304 |year=1978 }}</ref><ref>{{cite conference |book-title=Proceedings of the Fourteenth International Conference on Uncertainty In Artificial Intelligence (UAI-98) |title=पॉलिसी स्पेस में खोज कर पीओएमडीपी को हल करना|first=E. |last=Hansen |year=1998 |arxiv=1301.7380 }}</ref>
+परिमित-क्षितिज पीओएमडीपी के लिए, इष्टतम मान फलन टुकड़ावार-रैखिक और उत्तल है।<ref>{{Cite thesis |degree=PhD |title=आंशिक रूप से देखने योग्य मार्कोव प्रक्रियाओं का इष्टतम नियंत्रण|last=Sondik |first=E.J. |year=1971 |publisher=Stanford University |url=https://apps.dtic.mil/docs/citations/AD0730503|archive-url=https://web.archive.org/web/20191017142947/https://apps.dtic.mil/docs/citations/AD0730503|url-status=dead|archive-date=October 17, 2019}}</ref> इसे सदिशों के परिमित समुच्चय के रूप में प्रदर्शित किया जा सकता है। अनंत-क्षितिज सूत्रीकरण में, परिमित वेक्टर समुच्चय <math>V^*</math> अनुमानित हो सकता है, इच्छानुसार ढंग से निकटता से, जिसका आकार उत्तल रहता है। वैल्यू इटरेशन डायनामिक प्रोग्रामिंग अपडेट को प्रयुक्त करता है, जिससे वैल्यू में धीरे-धीरे संशोधन हो सके जब तक कि अभिसरण नहीं हो जाता <math>\epsilon</math>-ऑप्टिमल वैल्यू फलन, और इसकी टुकड़े-टुकड़े रैखिकता और उत्तलता को बनाये रखता है।<ref>{{cite journal |doi=10.1287/opre.21.5.1071 |author=Smallwood, R.D., Sondik, E.J. |title=एक परिमित क्षितिज पर आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं का इष्टतम नियंत्रण|journal=Operations Research |volume=21 |issue=5 |pages=1071–88 |year=1973 }}</ref> वैल्यू में संशोधन करके, नीति में निहित रूप से संशोधन किया जाता है। नीति पुनरावृत्ति नामक अन्य गतिशील प्रोग्रामिंग तकनीक स्पष्ट रूप से नीति का प्रतिनिधित्व करती है और इसके अतिरिक्त संशोधन करती है।<ref>{{cite journal |doi=10.1287/opre.26.2.282 |author=Sondik, E.J. |title=The optimal control of partially observable Markov processes over the infinite horizon: discounted cost |journal=Operations Research |volume=26 |issue=2 |pages=282–304 |year=1978 }}</ref><ref>{{cite conference |book-title=Proceedings of the Fourteenth International Conference on Uncertainty In Artificial Intelligence (UAI-98) |title=पॉलिसी स्पेस में खोज कर पीओएमडीपी को हल करना|first=E. |last=Hansen |year=1998 |arxiv=1301.7380 }}</ref>
 ==अनुमानित पीओएमडीपी समाधान==
-व्यवहार में, पीओएमडीपी अधिकांशतः कम्प्यूटेशनल रूप से कम्प्यूटेशनल जटिलता सिद्धांत वास्तव में हल करने के लिए इंट्रेक्टेबिलिटी होते हैं, इसलिए कंप्यूटर वैज्ञानिकों ने ऐसी विधियाँ विकसित की हैं, जो पीओएमडीपी के लिए अनुमानित समाधान हैं।<ref>{{cite journal |doi=10.1613/jair.678 |author=Hauskrecht, M. |title=आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं के लिए मूल्य समारोह सन्निकटन|journal=Journal of Artificial Intelligence Research|volume=13|pages=33–94|year=2000|doi-access=free}}</ref> ग्रिड-आधारित एल्गोरिदम<ref>{{cite journal |doi=10.1287/opre.39.1.162 |author=Lovejoy, W. |title=आंशिक रूप से देखे गए मार्कोव निर्णय प्रक्रियाओं के लिए कम्प्यूटेशनल रूप से व्यवहार्य सीमाएं|journal=Operations Research |volume=39 |pages=162–175 |year=1991 }}</ref> एक अनुमानित समाधान तकनीक सम्मिलित करें। इस दृष्टिकोण में, वैल्यू फलन की गणना विश्वास स्थान में बिंदुओं के एक समुच्चय के लिए की जाती है, और इंटरपोलेशन का उपयोग उन अन्य विश्वास अवस्थाओं के लिए इष्टतम कार्रवाई निर्धारित करने के लिए किया जाता है जो ग्रिड बिंदुओं के समुच्चय में नहीं हैं। अधिक हाल के कार्य नमूनाकरण तकनीकों, सामान्यीकरण तकनीकों और समस्या संरचना के शोषण का उपयोग करते हैं, और लाखों अवस्थाओं के साथ बड़े डोमेन में पीओएमडीपी समाधान को विस्तारित किया है।<ref name=hoey>{{cite conference |title=आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रिया का उपयोग करके हैंडवाशिंग के दौरान डिमेंशिया वाले व्यक्तियों की सहायता करना|author1=Jesse Hoey |author2=Axel von Bertoldi |author3=Pascal Poupart |author4=Alex Mihailidis |book-title=Proc. International Conference on Computer Vision Systems (ICVS) |date=2007 |doi=10.2390/biecoll-icvs2007-89}}</ref><ref name=hoeyCVIU>{{cite journal |doi=10.1016/j.cviu.2009.06.008 | title=डिमेंशिया से पीड़ित व्यक्तियों के लिए वीडियो और आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रिया का उपयोग करने के लिए स्वचालित हैंडवाशिंग सहायता|author1=Jesse Hoey |author2=Pascal Poupart |author3=Axel von Bertoldi |author4=Tammy Craig |author5=Craig Boutilier |author6=Alex Mihailidis. |journal=Computer Vision and Image Understanding (CVIU) |volume=114 | issue=5 | pages=503–519 | year=2010| citeseerx=10.1.1.160.8351 }}</ref> उदाहरण के लिए, अनुकूली ग्रिड और बिंदु-आधारित विधियाँ यादृच्छिक पहुंच योग्य विश्वास बिंदुओं का नमूना लेती हैं, जो विश्वास स्थान में प्रासंगिक क्षेत्रों की योजना को विवश करती हैं।<ref>{{cite conference |title=Point-based value iteration: An anytime algorithm for POMDPs |author=Pineau, J., Gordon, G., Thrun, S. |book-title=International Joint Conference on Artificial Intelligence (IJCAI). Acapulco, Mexico |date=August 2003 |pages=1025–32 |url=http://www.fore.robot.cc/papers/Pineau03a.pdf}}</ref><ref>{{cite conference |title=आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं में सीमा की गणना के लिए वृद्धिशील तरीके|author=Hauskrecht, M.|book-title=Proceedings of the 14th National Conference on Artificial Intelligence (AAAI). Providence, RI |date=1997 |pages=734–739 |citeseerx=10.1.1.85.8303}}</ref>
+व्यवहार में, पीओएमडीपी अधिकांशतः कम्प्यूटेशनल रूप से कम्प्यूटेशनल जटिलता सिद्धांत वास्तव में हल करने के लिए इंट्रेक्टेबिलिटी होते हैं, इसलिए कंप्यूटर वैज्ञानिकों ने ऐसी विधियाँ विकसित की हैं, जो पीओएमडीपी के लिए अनुमानित समाधान हैं।<ref>{{cite journal |doi=10.1613/jair.678 |author=Hauskrecht, M. |title=आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं के लिए मूल्य समारोह सन्निकटन|journal=Journal of Artificial Intelligence Research|volume=13|pages=33–94|year=2000|doi-access=free}}</ref> ग्रिड-आधारित एल्गोरिदम<ref>{{cite journal |doi=10.1287/opre.39.1.162 |author=Lovejoy, W. |title=आंशिक रूप से देखे गए मार्कोव निर्णय प्रक्रियाओं के लिए कम्प्यूटेशनल रूप से व्यवहार्य सीमाएं|journal=Operations Research |volume=39 |pages=162–175 |year=1991 }}</ref> अनुमानित समाधान तकनीक सम्मिलित करें। इस दृष्टिकोण में, वैल्यू फलन की गणना धारणा स्थान में बिंदुओं के समुच्चय के लिए की जाती है, और इंटरपोलेशन का उपयोग उन अन्य धारणा अवस्थाओं के लिए इष्टतम कार्रवाई निर्धारित करने के लिए किया जाता है जो ग्रिड बिंदुओं के समुच्चय में नहीं हैं। अधिक हाल के कार्य नमूनाकरण तकनीकों, सामान्यीकरण तकनीकों और समस्या संरचना के शोषण का उपयोग करते हैं, और लाखों अवस्थाओं के साथ बड़े डोमेन में पीओएमडीपी समाधान को विस्तारित किया है।<ref name=hoey>{{cite conference |title=आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रिया का उपयोग करके हैंडवाशिंग के दौरान डिमेंशिया वाले व्यक्तियों की सहायता करना|author1=Jesse Hoey |author2=Axel von Bertoldi |author3=Pascal Poupart |author4=Alex Mihailidis |book-title=Proc. International Conference on Computer Vision Systems (ICVS) |date=2007 |doi=10.2390/biecoll-icvs2007-89}}</ref><ref name=hoeyCVIU>{{cite journal |doi=10.1016/j.cviu.2009.06.008 | title=डिमेंशिया से पीड़ित व्यक्तियों के लिए वीडियो और आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रिया का उपयोग करने के लिए स्वचालित हैंडवाशिंग सहायता|author1=Jesse Hoey |author2=Pascal Poupart |author3=Axel von Bertoldi |author4=Tammy Craig |author5=Craig Boutilier |author6=Alex Mihailidis. |journal=Computer Vision and Image Understanding (CVIU) |volume=114 | issue=5 | pages=503–519 | year=2010| citeseerx=10.1.1.160.8351 }}</ref> उदाहरण के लिए, अनुकूली ग्रिड और बिंदु-आधारित विधियाँ यादृच्छिक पहुंच योग्य धारणा बिंदुओं का नमूना लेती हैं, जो धारणा स्थान में प्रासंगिक क्षेत्रों की योजना को विवश करती हैं।<ref>{{cite conference |title=Point-based value iteration: An anytime algorithm for POMDPs |author=Pineau, J., Gordon, G., Thrun, S. |book-title=International Joint Conference on Artificial Intelligence (IJCAI). Acapulco, Mexico |date=August 2003 |pages=1025–32 |url=http://www.fore.robot.cc/papers/Pineau03a.pdf}}</ref><ref>{{cite conference |title=आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रियाओं में सीमा की गणना के लिए वृद्धिशील तरीके|author=Hauskrecht, M.|book-title=Proceedings of the 14th National Conference on Artificial Intelligence (AAAI). Providence, RI |date=1997 |pages=734–739 |citeseerx=10.1.1.85.8303}}</ref>
-सिद्धांत घटक विश्लेषण का उपयोग करते हुए आयाम में कमी का भी पता लगाया गया है।<ref>{{cite book |author1=Roy, Nicholas |author1-link=Nicholas Roy|author2=Gordon, Geoffrey |chapter=Exponential Family PCA for Belief Compression in POMDPs |title=न्यूरल इन्फर्मेशन प्रोसेसिंग सिस्टम्स में प्रगति|year=2003 |chapter-url=http://papers.nips.cc/paper/2319-exponential-family-pca-for-belief-compression-in-pomdps.pdf}}</ref> पीओएमडीपी को हल करने के लिए अनुमानित समाधान तकनीकों की एक और पंक्ति पिछली टिप्पणियों, फलनों और पुरस्कारों के इतिहास को एक छद्म अवस्था के रूप में उपयोग करने (एक सबसमुच्चय) पर निर्भर करती है। इन छद्म अवस्थाओं के आधार पर एमडीपी को हल करने के लिए सामान्य तकनीकों का उपयोग किया जा सकता है (जैसे [[क्यू-लर्निंग]])। आदर्श रूप से छद्म अवस्थाओं में यथासंभव संकुचित होने के दौरान पूरे इतिहास (पूर्वाग्रह को कम करने के लिए) से सबसे महत्वपूर्ण जानकारी होनी चाहिए (ओवरफिटिंग को कम करने के लिए)।<ref>{{cite conference |title=आंशिक प्रेक्षणीयता के साथ बैच रीइन्फोर्समेंट लर्निंग में ओवरफिटिंग और एसिम्प्टोटिक बायस पर| author=Francois-Lavet, V., Rabusseau, G., Pineau, J., Ernst, D., Fonteneau, R.| journal=Journal of Artificial Intelligence Research (JAIR)| date=2019| volume=65| pages=1–30 | url=https://www.jair.org/index.php/jair/article/view/11478| arxiv=1709.07796}}</ref>
+सिद्धांत घटक विश्लेषण का उपयोग करते हुए आयाम में कमी का भी पता लगाया गया है।<ref>{{cite book |author1=Roy, Nicholas |author1-link=Nicholas Roy|author2=Gordon, Geoffrey |chapter=Exponential Family PCA for Belief Compression in POMDPs |title=न्यूरल इन्फर्मेशन प्रोसेसिंग सिस्टम्स में प्रगति|year=2003 |chapter-url=http://papers.nips.cc/paper/2319-exponential-family-pca-for-belief-compression-in-pomdps.pdf}}</ref> पीओएमडीपी को हल करने के लिए अनुमानित समाधान तकनीकों की एक और पंक्ति पिछली टिप्पणियों, फलनों और रिवार्डों के इतिहास को छद्म अवस्था के रूप में उपयोग करने (सबसमुच्चय) पर निर्भर करती है। इन छद्म अवस्थाओं के आधार पर एमडीपी को हल करने के लिए सामान्य तकनीकों का उपयोग किया जा सकता है (जैसे [[क्यू-लर्निंग]])। आदर्श रूप से छद्म अवस्थाओं में यथासंभव संकुचित होने के दौरान पूरे इतिहास (पूर्वाग्रह को कम करने के लिए) से सबसे महत्वपूर्ण जानकारी होनी चाहिए (ओवरफिटिंग को कम करने के लिए)।<ref>{{cite conference |title=आंशिक प्रेक्षणीयता के साथ बैच रीइन्फोर्समेंट लर्निंग में ओवरफिटिंग और एसिम्प्टोटिक बायस पर| author=Francois-Lavet, V., Rabusseau, G., Pineau, J., Ernst, D., Fonteneau, R.| journal=Journal of Artificial Intelligence Research (JAIR)| date=2019| volume=65| pages=1–30 | url=https://www.jair.org/index.php/jair/article/view/11478| arxiv=1709.07796}}</ref>
 == पीओएमडीपी सिद्धांत ==
-पीओएमडीपी में नियोजन सामान्य रूप से [[अनिर्णीत समस्या]] है। चूँकि, कुछ समुच्चयिंग्स को निर्णायक होने के लिए पहचाना गया है (देखें तालिका 2 में,<ref name=":0">{{Cite journal|last1=Chatterjee|first1=Krishnendu|last2=Chmelík|first2=Martin|last3=Tracol|first3=Mathieu|date=2016-08-01|title=What is decidable about partially observable Markov decision processes with ω-regular objectives|journal=Journal of Computer and System Sciences|volume=82|issue=5|pages=878–911|doi=10.1016/j.jcss.2016.02.009|issn=0022-0000|doi-access=free}}</ref> नीचे पुनरुत्पादित)। विभिन्न उद्देश्यों पर विचार किया गया है। बुच्ची उद्देश्यों को बुच्ची ऑटोमेटा द्वारा परिभाषित किया गया है। रीचैबिलिटी एक बुच्ची स्थिति का एक उदाहरण है (उदाहरण के लिए, एक अच्छी स्थिति तक पहुँचना जिसमें सभी रोबोट घर हैं)। कोबुच्ची उद्देश्य उन निशानों के अनुरूप हैं जो किसी दी गई बुच्ची स्थिति को संतुष्ट नहीं करते हैं (उदाहरण के लिए, खराब स्थिति में नहीं पहुँचना जिसमें कुछ रोबोट की मृत्यु हो गई)। समता उद्देश्यों को समता खेल के माध्यम से परिभाषित किया जाता है; वे जटिल उद्देश्यों को परिभाषित करने में सक्षम होते हैं जैसे कि हर 10 बार एक अच्छी स्थिति तक पहुँचना। उद्देश्य को पूरा किया जा सकता है:
+पीओएमडीपी में नियोजन सामान्य रूप से [[अनिर्णीत समस्या]] है। चूँकि, कुछ समुच्चयिंग्स को निर्णायक होने के लिए पहचाना गया है (देखें तालिका 2 में,<ref name=":0">{{Cite journal|last1=Chatterjee|first1=Krishnendu|last2=Chmelík|first2=Martin|last3=Tracol|first3=Mathieu|date=2016-08-01|title=What is decidable about partially observable Markov decision processes with ω-regular objectives|journal=Journal of Computer and System Sciences|volume=82|issue=5|pages=878–911|doi=10.1016/j.jcss.2016.02.009|issn=0022-0000|doi-access=free}}</ref> नीचे पुनरुत्पादित)। विभिन्न उद्देश्यों पर विचार किया गया है। बुच्ची उद्देश्यों को बुच्ची ऑटोमेटा द्वारा परिभाषित किया गया है। रीचैबिलिटी बुच्ची अवस्था का उदाहरण है (उदाहरण के लिए, अच्छी अवस्था तक पहुँचना जिसमें सभी रोबोट घर हैं)। coBüchi उद्देश्य उन निशानों के अनुरूप हैं जो किसी दी गई बुच्ची अवस्था को संतुष्ट नहीं करते हैं (उदाहरण के लिए, खराब अवस्था में नहीं पहुँचना जिसमें कुछ रोबोट की मृत्यु हो गई)। समता उद्देश्यों को समता खेल के माध्यम से परिभाषित किया जाता है; वे जटिल उद्देश्यों को परिभाषित करने में सक्षम होते हैं जैसे कि हर 10 बार अच्छी अवस्था तक पहुँचना। उद्देश्य को पूरा किया जा सकता है:
 * लगभग-निश्चित रूप से, अर्थात् उद्देश्य को पूरा करने की प्रायिकता 1 है;
@@ Line 97: / Line 98: @@
 *मात्रात्मक, अर्थात उद्देश्य को पूरा करने की प्रायिकता दी गई सीमा से अधिक है।
-हम परिमित स्मृति स्थिति पर भी विचार करते हैं जिसमें एजेंट एक परिमित-अवस्था मशीन है, और सामान्य स्थिति जिसमें एजेंट की अनंत स्मृति होती है।
+हम परिमित मेमोरी अवस्था पर भी विचार करते हैं जिसमें एजेंट परिमित-अवस्था मशीन है, और सामान्य अवस्था जिसमें एजेंट की अनंत मेमोरी होती है।
 {| class="wikitable"
 |+
 !उद्देश्य
-!लगभग सुनिश्चित (अनंत स्मृति)
+!लगभग सुनिश्चित (अनंत मेमोरी)
-!लगभग सुनिश्चित (परिमित स्मृति)
+!लगभग सुनिश्चित (परिमित मेमोरी)
-!सकारात्मक (अनंत mem.)
+!सकारात्मक (अनंत मेमोरी)
-!सकारात्मक (परिमित mem.)
+!सकारात्मक (परिमित मेमोरी)
 !मात्रात्मक (अनंत mem)
-!मात्रात्मक (परिमित mem.)
+!मात्रात्मक (परिमित मेमोरी)
 |-
-|[[Büchi automaton|बुच्ची]]
+|
+{| class="wikitable"
+|[[Büchi automaton|Büchi]]
+|}
 |एक्सपटाइम-पूर्ण
 |एक्सपटाइम-पूर्ण
@@ Line 116: / Line 120: @@
 |अनिर्णनीय
 |-
-|कोबुच्ची
+|
+{| class="wikitable"
+|coBüchi
+|}
 |अनिर्णनीय
 |एक्सपटाइम-पूर्ण<ref name=":0" />
@@ Line 135: / Line 142: @@
 == अनुप्रयोग ==
-पीओएमडीपी का उपयोग कई तरह की वास्तविक विश्व की समस्याओं के मॉडल के लिए किया जा सकता है। उल्लेखनीय अनुप्रयोगों में इस्कीमिक हृदय रोग के रोगियों के प्रबंधन में पीओएमडीपी का उपयोग सम्मिलित है,<ref>{{cite journal |doi=10.1016/S0933-3657(99)00042-1| pmid=10675716| title=आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रियाओं के साथ इस्कीमिक हृदय रोग के उपचार की योजना बनाना|author=Hauskrecht, M. , Fraser, H. | journal=Artificial Intelligence in Medicine|volume=18|issue=3|pages=221–244|year=2000}}</ref> डिमेंशिया वाले व्यक्तियों के लिए सहायक तकनीक,<ref name=hoey/><ref name=hoeyCVIU/> गंभीर रूप से लुप्तप्राय और सुमात्रन बाघों का पता लगाना मुश्किल है<ref name="chades">{{cite journal |author=Chadès, I., McDonald-Madden, E., McCarthy, M.A., Wintle, B., Linkie, M., Possingham, H.P. |title=गुप्त खतरे वाली प्रजातियों का प्रबंधन या सर्वेक्षण कब बंद करें|journal=Proc. Natl. Acad. Sci. U.S.A. |volume=105 |issue=37 |pages=13936–40 |date=16 September 2008 |pmid=18779594 |pmc=2544557 |doi=10.1073/pnas.0805265105 |bibcode=2008PNAS..10513936C|doi-access=free }}</ref> और विमान टक्कर परिहार।<ref>{{cite book |author=Kochenderfer, Mykel J. |chapter=Optimized Airborne Collision Avoidance |title=अनिश्चितता के तहत निर्णय लेना|publisher=The MIT Press |year=2015 |chapter-url=https://ieeexplore.ieee.org/document/7288641}}</ref>
+पीओएमडीपी का उपयोग कई तरह की वास्तविक विश्व की समस्याओं के मॉडल के लिए किया जा सकता है। उल्लेखनीय अनुप्रयोगों में इस्कीमिक हृदय रोग के रोगियों के प्रबंधन में पीओएमडीपी का उपयोग सम्मिलित है,<ref>{{cite journal |doi=10.1016/S0933-3657(99)00042-1| pmid=10675716| title=आंशिक रूप से अवलोकन योग्य मार्कोव निर्णय प्रक्रियाओं के साथ इस्कीमिक हृदय रोग के उपचार की योजना बनाना|author=Hauskrecht, M. , Fraser, H. | journal=Artificial Intelligence in Medicine|volume=18|issue=3|pages=221–244|year=2000}}</ref> डिमेंशिया वाले व्यक्तियों के लिए सहायक तकनीक,<ref name=hoey/><ref name=hoeyCVIU/> गंभीर रूप से लुप्तप्राय और सुमात्रन बाघों और विमान टक्कर परिहार का पता लगाना जटिल है।<ref name="chades">{{cite journal |author=Chadès, I., McDonald-Madden, E., McCarthy, M.A., Wintle, B., Linkie, M., Possingham, H.P. |title=गुप्त खतरे वाली प्रजातियों का प्रबंधन या सर्वेक्षण कब बंद करें|journal=Proc. Natl. Acad. Sci. U.S.A. |volume=105 |issue=37 |pages=13936–40 |date=16 September 2008 |pmid=18779594 |pmc=2544557 |doi=10.1073/pnas.0805265105 |bibcode=2008PNAS..10513936C|doi-access=free }}</ref><ref>{{cite book |author=Kochenderfer, Mykel J. |chapter=Optimized Airborne Collision Avoidance |title=अनिश्चितता के तहत निर्णय लेना|publisher=The MIT Press |year=2015 |chapter-url=https://ieeexplore.ieee.org/document/7288641}}</ref>
@@ Line 150: / Line 157: @@
 * [http://bitbucket.org/bami/pypomdp pyPOMDP], a (PO)MDP toolbox (simulator, solver, learner, file reader) for Python by Oliver Stollmann and Bastian Migge
 * [https://longhorizon.org/trey/zmdp/ zmdp], a POMDP solver by Trey Smith
-[[Category: गतिशील प्रोग्रामिंग]] [[Category: मार्कोव प्रक्रियाएं]] [[Category: स्टोकेस्टिक नियंत्रण]]
-[[Category: Machine Translated Page]]
+[[Category:CS1 maint]]
 [[Category:Created On 29/05/2023]]
+[[Category:Lua-based templates]]
+[[Category:Machine Translated Page]]
+[[Category:Pages with script errors]]
+[[Category:Templates Vigyan Ready]]
+[[Category:Templates that add a tracking category]]
+[[Category:Templates that generate short descriptions]]
+[[Category:Templates using TemplateData]]
+[[Category:गतिशील प्रोग्रामिंग]]
+[[Category:मार्कोव प्रक्रियाएं]]
+[[Category:स्टोकेस्टिक नियंत्रण]]

Anonymous

Search

आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया: Difference between revisions

Namespaces

More

Page actions

Latest revision as of 18:08, 12 June 2023

Contents

परिभाषा

औपचारिक परिभाषा

चर्चा

अद्यतन धारणा

एमडीपी धारणा

नीति और वैल्यू फलन

अनुमानित पीओएमडीपी समाधान

पीओएमडीपी सिद्धांत

अनुप्रयोग

संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

आंशिक रूप से देखने योग्य मार्कोव निर्णय प्रक्रिया: Difference between revisions

Latest revision as of 18:08, 12 June 2023

परिभाषा

औपचारिक परिभाषा

चर्चा

अद्यतन धारणा

एमडीपी धारणा

नीति और वैल्यू फलन

अनुमानित पीओएमडीपी समाधान

पीओएमडीपी सिद्धांत

अनुप्रयोग

संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories