एआईएक्सआई
एआईएक्सआई ['ai̯k͡siː] कृत्रिम सामान्य बुद्धि के लिए गणितीय तर्क गणित के भीतर औपचारिक तर्क का अध्ययन है। यह सोलोमनॉफ का आगमनात्मक अनुमान के सिद्धांत को अनुक्रमिक निर्णय सिद्धांत के साथ जोड़ता है। एआईएक्सआई को पहली बार 2000 में मार्कस हटर द्वारा प्रस्तावित किया गया था[1] और एआईएक्सआई के संबंध में कई परिणाम हटर की 2005 की पुस्तक यूनिवर्सल आर्टिफिशियल इंटेलिजेंस (एजीआई) में सिद्ध हुए हैं।[2]
एआईएक्सआई एक सुदृढीकरण शिक्षण (आरएल) एजेंट है। यह पर्यावरण से प्राप्त अपेक्षित कुल पारितोषक को अधिकतम करता है। सहज रूप से, यह एक साथ प्रत्येक गणना योग्य परिकल्पना (या पर्यावरण) पर विचार करता है। प्रत्येक समय चरण में, यह हर संभावित कार्यक्रम को देखता है और मूल्यांकन करता है कि अगली कार्रवाई के आधार पर वह कार्यक्रम कितने पारितोषक को उत्पन्न करता है। अभिवचन किए गए पारितोषकों को तब व्यक्तिपरक तर्क (संभाव्य तर्क) के आधार पर महत्व दिया जाता है कि जब यह कार्यक्रम वास्तविक वातावरण का गठन करता है। इस विश्वास की गणना कार्यक्रम की लंबाई से की जाती है: ओकाम के रेजर के अनुरूप, लंबे कार्यक्रमों को कम संभावना वाला माना जाता है। एआईएक्सआई तब उस कार्रवाई का चयन करता है जिसमें इन सभी कार्यक्रमों के भारित योग में सबसे अधिक अपेक्षित कुल पारितोषक होता है।
परिभाषा
एआईएक्सआई एक सुदृढीकरण शिक्षण एजेंट है जो कुछ स्टोकेस्टिक और अज्ञात लेकिन गणना योग्य वातावरण के साथ परस्पर क्रिया करता है . परस्पर क्रिया समय के चरणों में आगे बढ़ती है, से को , जहां एआईएक्सआई एजेंट का जीवनकाल है। समय चरण t पर, एजेंट एक क्रिया चुनता है (उदाहरण के लिए एक अंग संचालन) और इसे पर्यावरण में क्रियान्वित करता है, और पर्यावरण एक धारणा के साथ प्रतिक्रिया करता है , जिसमें एक अवलोकन सम्मलित है (उदाहरण के लिए, एक कैमरा छवि) और एक पारितोषक , सशर्त संभाव्यता के अनुसार वितरित , जहां क्रियाओं, अवलोकनों का "इतिहास" और पारितोषक है। पर्यावरण इस प्रकार को गणितीय रूप से "अवधारणाओं" (अवलोकन और पारितोषक) पर संभाव्यता वितरण के रूप में दर्शाया जाता है जो पूर्ण इतिहास पर निर्भर करता है, इसलिए कोई मार्कोव धारणा नहीं है (अन्य आरएल एल्गोरिदम के विपरीत)। फिर से ध्यान दें कि यह संभाव्यता वितरण एआईएक्सआई एजेंट के लिए अज्ञात है। इसके अतिरिक्त, उस पर फिर से ध्यान दें गणना योग्य है, अर्थात, एजेंट द्वारा पर्यावरण से प्राप्त अवलोकन और पारितोषक एआईएक्सआई एजेंट के पिछले कार्यों को देखते हुए, की गणना कुछ प्रोग्राम (जो ट्यूरिंग मशीन पर चलती है) द्वारा की जा सकती है।[3]
एआईएक्सआई एजेंट का एकमात्र लक्ष्य अधिकतम करना है , अर्थात्, समय चरण 1 से m तक पारितोषकों का योग।
एआईएक्सआई एजेंट स्टोकेस्टिक नीति से जुड़ा है , यह वह फलन है जिसका उपयोग यह प्रत्येक कार्य को चुनने के लिए करता है समय स्टेप, जहां उन सभी संभावित कार्रवाइयों का स्थान है जो एआईएक्सआई र सकता है और सभी संभावित "अवधारणाओं" का स्थान है जो पर्यावरण द्वारा उत्पादित किया जा सकता है। पर्यावरण (या संभाव्यता वितरण) को एक स्टोकेस्टिक नीति के रूप में भी सोचा जा सकता है (जो एक कार्य है): , जहां क्लेन स्टार संचालन है।
सामान्यतः, समय पर स्टेप (जो 1 से मी तक है), एआईएक्सआई, पहले निष्पादित क्रियाएं (जिसे अधिकांशतः साहित्य में संक्षिप्त रूप में कहा जाता है ) और धारणाओं के इतिहास का अवलोकन किया (जिसे संक्षिप्त रूप में कहा जा सकता है ), वातावरण में क्रिया को चुनता है और क्रियान्वित करता है, , निम्नानुसार परिभाषित किया गया है [4]
या, प्राथमिकता को स्पष्ट करने के लिए कोष्ठकों का उपयोग करें
सहज रूप से, उपरोक्त परिभाषा में, एआईएक्सआई सभी संभावित "प्रण" पर कुल पारितोषक के योग पर विचार करता है समय आगे बढ़ता है (अर्थात, से।) को ), कार्यक्रमों की जटिलता के आधार पर उनमें से प्रत्येक की तुलना करना करता है (अर्थात, द्वारा ) एजेंट के अतीत के अनुरूप (अर्थात, पहले निष्पादित क्रियाएं, , और प्राप्त धारणाएँ, ) जो उस भविष्य को उत्पन्न कर सकता है, और फिर उस कार्रवाई को चुनता है जो अपेक्षित भविष्य के पारितोषकों को अधिकतम करती है।[3]
आइए इसे पूरी तरह से समझने का प्रयास करने के लिए इस परिभाषा को तोड़ें।
धारणा है (जिसमें अवलोकन सम्मलित है)। और पारितोषक ) समय स्टेप पर एआईएक्सआई एजेंट द्वारा प्राप्त किया गया पर्यावरण से (जो अज्ञात और स्टोकेस्टिक है)। इसी प्रकार, समय स्टेप पर एआईएक्सआई द्वारा प्राप्त अवधारणा है (अंतिम समय चरण जहां एआईएक्सआई सक्रिय है)।
समय स्टेप से पारितोषकों का योग है समय स्टेप के लिए , इसलिए एआईएक्सआई को समय पर अपनी कार्रवाई चुनने के लिए भविष्य पर ध्यान देने की आवश्यकता है .
एक मोनोटोन वर्ग प्रमेय सार्वभौमिक ट्यूरिंग मशीन को दर्शाता है, और सार्वभौमिक मशीन पर सभी (नियतात्मक) कार्यक्रमों पर आधारित है , जो प्रोग्राम को इनपुट के रूप में प्राप्त करता है और क्रियाओं का क्रम (अर्थात, सभी क्रियाएँ), और धारणाओं का क्रम उत्पन्न करता है . यूनिवर्सल ट्यूरिंग मशीन इस प्रकार यू का उपयोग प्रोग्राम को देखते हुए पर्यावरण प्रतिक्रियाओं या धारणाओं को "अनुकरण" या गणना करने के लिए किया जाता है (जो पर्यावरण को मॉडल करता है) और एआईएक्सआई एजेंट की सभी क्रियाएं: इस अर्थ में, पर्यावरण "गणना योग्य" है (जैसा कि ऊपर बताया गया है)। ध्यान दें कि, सामान्यतः, वह प्रोग्राम जो वर्तमान और वास्तविक वातावरण (जहां एआईएक्सआई को कार्य करने की आवश्यकता है) को "मॉडल" करता है, अज्ञात है क्योंकि वर्तमान वातावरण भी अज्ञात है।
कार्यक्रम की लंबाई है (जो बिट्स की एक स्ट्रिंग के रूप में एन्कोड किया गया है)। ध्यान दें कि . इसलिए, उपरोक्त परिभाषा में, सभी गणना योग्य वातावरणों (जो एजेंट के अतीत के अनुरूप हैं) पर मिश्रण (संभावना) (इस मामले में, एक योग) के रूप में व्याख्या की जानी चाहिए, प्रत्येक को इसकी जटिलता के आधार पर भारित किया जाना चाहिए . ध्यान दें कि के रूप में भी लिखा जा सकता है , और एआईएक्सआई एजेंट द्वारा पर्यावरण में पहले से निष्पादित क्रियाओं का क्रम है। इसी प्रकार, , और यह अब तक पर्यावरण द्वारा निर्मित धारणाओं का क्रम है।
आइए अब इस समीकरण या परिभाषा को समझने के लिए इन सभी घटकों को एक साथ रखें।
समय चरण t पर, एआईएक्सआई क्रिया चुनता है जहां फलन है अपनी अधिकतम सीमा तक पहुँच जाता है।
पैरामीटर्स
एआईएक्सआई के पैरामीटर यूनिवर्सल ट्यूरिंग मशीन U और एजेंट का जीवनकाल m हैं, जिन्हें चुनने की आवश्यकता है। पश्चात वाले पैरामीटर को छूट के उपयोग से हटाया जा सकता है।
एआईएक्सआई शब्द का अर्थ
हटर के अनुसार, "एआईएक्सआई" शब्द की कई व्याख्याएँ हो सकती हैं। एआईएक्सआई सोलोमन ऑफ़ के वितरण के आधार पर एआई (AI) के लिए स्थिर हो सकता है, जिसे द्वारा दर्शाया गया है (जो ग्रीक अक्षर xi है), या उदा. यह इंडक्शन (I) के साथ AI "क्रॉस्ड" (X) के लिए स्थिर हो सकता है।
इष्टतमता
एआईएक्सआई का प्रदर्शन उसे मिलने वाले पारितोषकों की अपेक्षित कुल संख्या से मापा जाता है। एआईएक्सआई निम्नलिखित विधियो से इष्टतम सिद्ध करना है।[2]
- पेरेटो इष्टतमता: कोई अन्य एजेंट नहीं है जो कम से कम एक वातावरण में सख्ती से उत्तम प्रदर्शन करते हुए सभी वातावरणों में एआईएक्सआई के बराबर प्रदर्शन करता है।[citation needed]
- संतुलित पेरेटो इष्टतमता: पेरेटो इष्टतमता की तरह, लेकिन वातावरण के भारित योग पर विचार करते हुए।
- स्व-अनुकूलन: एक नीति पी को पर्यावरण के लिए स्व-अनुकूलन कहा जाता है यदि पी का प्रदर्शन सैद्धांतिक अधिकतम के समीप पहुंचता है जब एजेंट के जीवनकाल की लंबाई (समय नहीं) अनंत हो जाती है।पर्यावरण कक्षाओं के लिए जहां स्व-अनुकूलन नीतियां उपस्थित हैं, एआईएक्सआई स्व-अनुकूलन है।
इसे पश्चात में हटर और जान लेइक द्वारा दिखाया गया कि संतुलित पेरेटो इष्टतमता व्यक्तिपरक है और किसी भी नीति को पेरेटो इष्टतम माना जा सकता है, जिसे वे एआईएक्सआई के लिए पिछले सभी इष्टतमता अधिकार को कमजोर करने के रूप में वर्णित करते हैं।[5]
चूंकि, एआईएक्सआई की सीमाएँ हैं। यह बाहरी स्थितियों के विपरीत धारणाओं के आधार पर पारितोषकों को अधिकतम करने तक सीमित है। यह भी मानता है कि यह पर्यावरण के साथ केवल कार्रवाई और अवधारणा चैनलों के माध्यम से परस्पर क्रिया करता है, जिससे इसे क्षतिग्रस्त या संशोधित होने की संभावना पर विचार करने से रोका जा सकता है। बोलचाल की भाषा में, इसका अर्थ यह है कि यह स्वयं को उस वातावरण में समाहित नहीं मानता जिसके साथ यह अंतःक्रिया करता है। यह भी मानता है कि पर्यावरण गणना योग्य है।[6]
कम्प्यूटेशनल पहलू
सोलोमनॉफ़ का आगमनात्मक अनुमान के सिद्धांत की तरह, एआईएक्सआई अनिर्णीत समस्या है। चूंकि, इसके गणना योग्य अनुमान उपस्थित हैं। ऐसा ही एक सन्निकटन एआईएक्सआई है, जो कम से कम और साथ ही सर्वोत्तम समय t और स्थान l सीमित एजेंट का प्रदर्शन करता है।[2]प्रतिबंधित पर्यावरण वर्ग के साथ एआईएक्सआई का एक और अनुमान एमसी-एआईएक्सआई (एफएसी-सीटीडब्ल्यू) है (मोंटे कार्लो विधि पद्धति एआईएक्सआई कॉन्टेक्स्ट ट्री वेटिंग मेथड), जिसे आंशिक रूप से अवलोकन योग्य पीएसी मैन जैसे सरल गेम खेलने में कुछ सफलता मिली है।[3][7]
यह भी देखें
- गोडेल मशीन (काल्पनिक स्व-सुधार करने वाला कंप्यूटर प्रोग्राम है)
संदर्भ
- ↑ Marcus Hutter (2000). एल्गोरिथम जटिलता पर आधारित यूनिवर्सल आर्टिफिशियल इंटेलिजेंस का एक सिद्धांत. arXiv:cs.AI/0004001. Bibcode:2000cs........4001H.
- ↑ 2.0 2.1 2.2 — (2005). Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability. Texts in Theoretical Computer Science an EATCS Series. Springer. doi:10.1007/b138233. ISBN 978-3-540-22139-5. S2CID 33352850.
- ↑ 3.0 3.1 3.2 Veness, Joel; Kee Siong Ng; Hutter, Marcus; Uther, William; Silver, David (2009). "मोंटे कार्लो में AIXI सन्निकटन". arXiv:0909.0801 [cs.AI].
- ↑ Universal Artificial Intelligence
- ↑ Leike, Jan; Hutter, Marcus (2015). ख़राब सार्वभौमिक प्राथमिकताएँ और इष्टतमता की धारणाएँ (PDF). Proceedings of the 28th Conference on Learning Theory.
- ↑ Soares, Nate. "यथार्थवादी विश्व-मॉडल की दो समस्याओं को औपचारिक बनाना" (PDF). Intelligence.org. Retrieved 2015-07-19.
- ↑ Playing Pacman using AIXI Approximation – YouTube
- "यूनिवर्सल एल्गोरिथम इंटेलिजेंस: एक गणितीय शीर्ष->नीचे दृष्टिकोण", मार्कस हटर, arXiv:cs/0701125; आर्टिफिशियल जनरल इंटेलिजेंस में भी, संस्करण। बी. गोएर्टज़ेल और सी. पेनाचिन, स्प्रिंगर, 2007, ISBN 9783540237334, pp. 227–290, doi:10.1007/978-3-540-68677-4_8.