एआईएक्सआई

From Vigyanwiki
Revision as of 12:11, 26 July 2023 by alpha>Indicwiki (Created page with "{{Short description|Mathematical formalism for artificial general intelligence}} इस कदर {{IPA-all|'ai̯k͡siː|}} कृत्रिम सामान्य ब...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

इस कदर ['ai̯k͡siː] कृत्रिम सामान्य बुद्धि के लिए एक सैद्धांतिक गणितीय तर्क#औपचारिक तार्किक प्रणाली है। यह सोलोमनॉफ़ प्रेरण को निर्णय सिद्धांत के साथ जोड़ता है। AIXI को पहली बार 2000 में मार्कस हटर द्वारा प्रस्तावित किया गया था[1] और AIXI के संबंध में कई परिणाम हटर की 2005 की पुस्तक यूनिवर्सल आर्टिफिशियल इंटेलिजेंस में सिद्ध हुए हैं।[2] AIXI एक सुदृढीकरण शिक्षण|सुदृढीकरण शिक्षण (आरएल) एजेंट है। यह पर्यावरण से प्राप्त अपेक्षित कुल पुरस्कारों को अधिकतम करता है। सहज रूप से, यह एक साथ प्रत्येक गणना योग्य परिकल्पना (या पर्यावरण) पर विचार करता है। प्रत्येक समय चरण में, यह हर संभावित कार्यक्रम को देखता है और मूल्यांकन करता है कि अगली कार्रवाई के आधार पर वह कार्यक्रम कितने पुरस्कार उत्पन्न करता है। वादा किए गए पुरस्कारों को तब व्यक्तिपरक तर्क द्वारा महत्व दिया जाता है कि यह कार्यक्रम वास्तविक वातावरण का गठन करता है। इस विश्वास की गणना कार्यक्रम की लंबाई से की जाती है: ओकाम के रेजर के अनुरूप, लंबे कार्यक्रमों को कम संभावना वाला माना जाता है। AIXI तब उस कार्रवाई का चयन करता है जिसमें इन सभी कार्यक्रमों के भारित योग में सबसे अधिक अपेक्षित कुल इनाम होता है।

परिभाषा

AIXI एक सुदृढीकरण शिक्षण एजेंट है जो कुछ स्टोकेस्टिक और अज्ञात लेकिन गणना योग्य वातावरण के साथ बातचीत करता है . बातचीत समय के चरणों में आगे बढ़ती है, से को , कहाँ AIXI एजेंट का जीवनकाल है। समय चरण t पर, एजेंट एक क्रिया चुनता है (उदाहरण के लिए एक अंग संचालन) और इसे पर्यावरण में क्रियान्वित करता है, और पर्यावरण एक धारणा के साथ प्रतिक्रिया करता है , जिसमें एक अवलोकन शामिल है (उदाहरण के लिए, एक कैमरा छवि) और एक इनाम , सशर्त संभाव्यता के अनुसार वितरित , कहाँ कार्यों, अवलोकनों और पुरस्कारों का इतिहास है। पर्यावरण इस प्रकार गणितीय रूप से अवधारणाओं (अवलोकनों और पुरस्कारों) पर संभाव्यता वितरण के रूप में दर्शाया जाता है जो पूर्ण इतिहास पर निर्भर करता है, इसलिए कोई मार्कोव संपत्ति नहीं है (अन्य आरएल एल्गोरिदम के विपरीत)। फिर से ध्यान दें कि यह संभाव्यता वितरण AIXI एजेंट के लिए अज्ञात है। इसके अलावा, उस पर फिर से ध्यान दें गणना योग्य है, अर्थात एजेंट द्वारा पर्यावरण से प्राप्त अवलोकन और पुरस्कार AIXI एजेंट की पिछली कार्रवाइयों को देखते हुए, कुछ प्रोग्राम (जो ट्यूरिंग मशीन पर चलता है) द्वारा गणना की जा सकती है।[3] AIXI एजेंट का एकमात्र लक्ष्य अधिकतम करना है , अर्थात्, समय चरण 1 से मी तक पुरस्कारों का योग।

AIXI एजेंट स्टोकेस्टिक नीति से जुड़ा है , यह वह फ़ंक्शन है जिसका उपयोग यह हर समय कदम पर कार्रवाई चुनने के लिए करता है, जहां सभी संभावित कार्रवाइयों का स्थान है जो AIXI कर सकता है और पर्यावरण द्वारा उत्पन्न की जा सकने वाली सभी संभावित धारणाओं का स्थान है। पर्यावरण (या संभाव्यता वितरण) इसे स्टोकेस्टिक नीति के रूप में भी सोचा जा सकता है (जो एक कार्य है): , जहां क्लेन स्टार ऑपरेशन है।

सामान्य तौर पर, समय पर कदम (जो 1 से मी तक है), AIXI, पहले निष्पादित क्रियाएं (जिसे अक्सर साहित्य में संक्षिप्त रूप में कहा जाता है ) और धारणाओं के इतिहास का अवलोकन किया (जिसे संक्षिप्त रूप में कहा जा सकता है ), वातावरण में क्रिया को चुनता है और क्रियान्वित करता है, , निम्नानुसार परिभाषित किया गया है [4]

या, प्राथमिकता को स्पष्ट करने के लिए कोष्ठकों का उपयोग करें

सहज रूप से, उपरोक्त परिभाषा में, AIXI सभी संभावित वायदा पर कुल इनाम के योग पर विचार करता है समय आगे बढ़ता है (अर्थात, से।) को ), उनमें से प्रत्येक को कार्यक्रमों की जटिलता के आधार पर तौलता है (अर्थात, द्वारा ) एजेंट के अतीत के अनुरूप (अर्थात, पहले निष्पादित क्रियाएं, , और प्राप्त धारणाएँ, ) जो उस भविष्य को उत्पन्न कर सकता है, और फिर उस कार्रवाई को चुनता है जो अपेक्षित भविष्य के पुरस्कारों को अधिकतम करती है।[3]

आइए इसे पूरी तरह से समझने का प्रयास करने के लिए इस परिभाषा को तोड़ें।

धारणा है (जिसमें अवलोकन शामिल है)। और इनाम ) समय कदम पर AIXI एजेंट द्वारा प्राप्त किया गया पर्यावरण से (जो अज्ञात और स्टोकेस्टिक है)। इसी प्रकार, समय कदम पर AIXI द्वारा प्राप्त अवधारणा है (अंतिम समय चरण जहां AIXI सक्रिय है)।

समय कदम से पुरस्कारों का योग है समय कदम के लिए , इसलिए AIXI को समय पर अपनी कार्रवाई चुनने के लिए भविष्य पर ध्यान देने की आवश्यकता है .

एक मोनोटोन वर्ग प्रमेय सार्वभौमिक ट्यूरिंग मशीन को दर्शाता है, और यूनिवर्सल मशीन पर सभी (नियतात्मक) प्रोग्रामों पर रेंज होती है , जो प्रोग्राम को इनपुट के रूप में प्राप्त होता है और क्रियाओं का क्रम (अर्थात, सभी क्रियाएँ), और धारणाओं का क्रम उत्पन्न करता है . यूनिवर्सल ट्यूरिंग मशीन इस प्रकार प्रोग्राम को देखते हुए, पर्यावरण की प्रतिक्रियाओं या धारणाओं का अनुकरण या गणना करने के लिए उपयोग किया जाता है (जो पर्यावरण को मॉडल करता है) और AIXI एजेंट की सभी क्रियाएं: इस अर्थ में, पर्यावरण गणना योग्य है (जैसा कि ऊपर बताया गया है)। ध्यान दें कि, सामान्य तौर पर, वह प्रोग्राम जो वर्तमान और वास्तविक वातावरण (जहां AIXI को कार्य करने की आवश्यकता है) को मॉडल करता है, अज्ञात है क्योंकि वर्तमान वातावरण भी अज्ञात है।

 कार्यक्रम की लंबाई है  (जो बिट्स की एक स्ट्रिंग के रूप में एन्कोड किया गया है)। ध्यान दें कि . इसलिए, उपरोक्त परिभाषा में,  सभी गणना योग्य वातावरणों (जो एजेंट के अतीत के अनुरूप हैं) पर मिश्रण (संभावना) (इस मामले में, एक योग) के रूप में व्याख्या की जानी चाहिए, प्रत्येक को इसकी जटिलता के आधार पर भारित किया जाना चाहिए . ध्यान दें कि  के रूप में भी लिखा जा सकता है , और  AIXI एजेंट द्वारा पर्यावरण में पहले से निष्पादित क्रियाओं का क्रम है। इसी प्रकार, , और  यह अब तक पर्यावरण द्वारा निर्मित धारणाओं का क्रम है।

आइए अब इस समीकरण या परिभाषा को समझने के लिए इन सभी घटकों को एक साथ रखें।

समय चरण t पर, AIXI क्रिया चुनता है जहां समारोह अपने चरम को प्राप्त करता है।

पैरामीटर्स

AIXI के पैरामीटर यूनिवर्सल ट्यूरिंग मशीन U और एजेंट का जीवनकाल m हैं, जिन्हें चुनने की आवश्यकता है। बाद वाले पैरामीटर को छूट के उपयोग से हटाया जा सकता है।

AIXI शब्द का अर्थ

हटर के अनुसार, AIXI शब्द की कई व्याख्याएँ हो सकती हैं। AIXI सोलोमनऑफ़ के वितरण के आधार पर AI के लिए खड़ा हो सकता है, जिसे द्वारा दर्शाया गया है (जो ग्रीक अक्षर xi है), या उदा. यह इंडक्शन (I) के साथ AI क्रॉस्ड (X) के लिए खड़ा हो सकता है। अन्य व्याख्याएँ भी हैं।

इष्टतमता

AIXI का प्रदर्शन उसे मिलने वाले पुरस्कारों की अपेक्षित कुल संख्या से मापा जाता है। AIXI निम्नलिखित तरीकों से इष्टतम साबित हुआ है।[2]

  • पेरेटो इष्टतमता: कोई अन्य एजेंट नहीं है जो कम से कम एक वातावरण में सख्ती से बेहतर प्रदर्शन करते हुए सभी वातावरणों में AIXI के बराबर प्रदर्शन करता है।[citation needed]
  • संतुलित पेरेटो इष्टतमता: पेरेटो इष्टतमता की तरह, लेकिन वातावरण के भारित योग पर विचार करते हुए।
  • स्व-अनुकूलन: एक नीति पी को पर्यावरण के लिए स्व-अनुकूलन कहा जाता है यदि पी का प्रदर्शन सैद्धांतिक अधिकतम तक पहुंचता है जब एजेंट के जीवनकाल की अवधि (समय नहीं) अनंत हो जाती है। पर्यावरण कक्षाओं के लिए जहां स्व-अनुकूलन नीतियां मौजूद हैं, AIXI स्व-अनुकूलन है।

इसे बाद में हटर और जान लेइक द्वारा दिखाया गया कि संतुलित पेरेटो इष्टतमता व्यक्तिपरक है और किसी भी नीति को पेरेटो इष्टतम माना जा सकता है, जिसे वे AIXI के लिए पिछले सभी इष्टतमता दावों को कमजोर करने के रूप में वर्णित करते हैं।[5] हालाँकि, AIXI की सीमाएँ हैं। यह बाहरी राज्यों के विपरीत धारणाओं के आधार पर पुरस्कारों को अधिकतम करने तक सीमित है। यह भी मानता है कि यह पर्यावरण के साथ केवल कार्रवाई और अवधारणा चैनलों के माध्यम से बातचीत करता है, जिससे इसे क्षतिग्रस्त या संशोधित होने की संभावना पर विचार करने से रोका जा सकता है। बोलचाल की भाषा में, इसका अर्थ यह है कि यह स्वयं को उस वातावरण में समाहित नहीं मानता जिसके साथ यह अंतःक्रिया करता है। यह यह भी मानता है कि पर्यावरण गणना योग्य है।[6]


कम्प्यूटेशनल पहलू

सोलोमनॉफ इंडक्शन की तरह, AIXI अनिर्णीत समस्या है। हालाँकि, इसके गणना योग्य अनुमान मौजूद हैं। ऐसा ही एक सन्निकटन AIXItl है, जो कम से कम और साथ ही सर्वोत्तम समय t और स्थान l सीमित एजेंट का प्रदर्शन करता है।[2]प्रतिबंधित पर्यावरण वर्ग के साथ AIXI का एक और अनुमान MC-AIXI (FAC-CTW) है (मोंटे कार्लो विधि पद्धति AIXI प्रसंग वृक्ष भार | कॉन्टेक्स्ट-ट्री वेटिंग के लिए है), जिसे आंशिक रूप से देखने योग्य जैसे सरल गेम खेलने में कुछ सफलता मिली है सिस्टम पीएसी मैन[3][7]


यह भी देखें

  • गोडेल मशीन

संदर्भ

  1. Marcus Hutter (2000). एल्गोरिथम जटिलता पर आधारित यूनिवर्सल आर्टिफिशियल इंटेलिजेंस का एक सिद्धांत. arXiv:cs.AI/0004001. Bibcode:2000cs........4001H.
  2. 2.0 2.1 2.2 — (2005). Universal Artificial Intelligence: Sequential Decisions Based on Algorithmic Probability. Texts in Theoretical Computer Science an EATCS Series. Springer. doi:10.1007/b138233. ISBN 978-3-540-22139-5. S2CID 33352850.
  3. 3.0 3.1 3.2 Veness, Joel; Kee Siong Ng; Hutter, Marcus; Uther, William; Silver, David (2009). "मोंटे कार्लो में AIXI सन्निकटन". arXiv:0909.0801 [cs.AI].
  4. Universal Artificial Intelligence
  5. Leike, Jan; Hutter, Marcus (2015). ख़राब सार्वभौमिक प्राथमिकताएँ और इष्टतमता की धारणाएँ (PDF). Proceedings of the 28th Conference on Learning Theory.
  6. Soares, Nate. "यथार्थवादी विश्व-मॉडल की दो समस्याओं को औपचारिक बनाना" (PDF). Intelligence.org. Retrieved 2015-07-19.
  7. Playing Pacman using AIXI Approximation – YouTube