सर्वोत्तम प्रतिक्रिया: Difference between revisions
(text) |
(text) |
||
Line 6: | Line 6: | ||
[[Image:Reaction-correspondence-playerx.jpg|150px|thumbnail|चित्रा 2. स्टैग हंट फलन में खिलाड़ी एक्स के लिए प्रतिक्रिया पत्राचार।]]सभी 2x2 प्रसामान्य रूप खेल के लिए प्रतिक्रिया पत्राचार एक [[इकाई वर्ग]] योजना स्थल में प्रत्येक खिलाड़ी के लिए एक रेखा (गणित) के साथ तैयार किया जा सकता है। आंकड़े 1 से 3 लेखाचित्र [[हरिण का शिकार|स्टैग हंट]] खेल के लिए सर्वोत्तम प्रतिक्रिया पत्राचार है। चित्र 1 में बिंदीदार रेखा [[अनुकूलन (गणित)]] के प्रतिनिधित्व और संभाव्यता मूल्यों की व्याख्या दिखाती है कि खिलाड़ी वाई 'स्टैग' खेलता है, संभावना के एक फलन के रूप में खिलाड़ी X स्टैग खेलता है (दिखाया गया है)। चित्र 2 में बिंदीदार रेखा इष्टतम संभावना दिखाती है कि खिलाड़ी X 'स्टैग' (x-अक्ष में दिखाया गया है) खेलता है, संभावना के एक फलन के रूप में कि खिलाड़ी Y स्टैग खेलता है (y-अक्ष में दिखाया गया है)। ध्यान दें कि चित्र 2 सामान्य रूप से उपयोग किए जाने वाले अक्षों के विपरीत अक्षों में स्वतंत्र और प्रतिक्रिया चरों को आलेख करता है, ताकि इसे पिछले लेखाचित्र पर आरोपित किया जा सके, जहां दो खिलाड़ियों की सर्वश्रेष्ठ प्रतिक्रियाएं चित्रा 3 में सहमत हों नैश संतुलन को उन बिंदुओं पर दिखाने के लिए आलेख करता है। | [[Image:Reaction-correspondence-playerx.jpg|150px|thumbnail|चित्रा 2. स्टैग हंट फलन में खिलाड़ी एक्स के लिए प्रतिक्रिया पत्राचार।]]सभी 2x2 प्रसामान्य रूप खेल के लिए प्रतिक्रिया पत्राचार एक [[इकाई वर्ग]] योजना स्थल में प्रत्येक खिलाड़ी के लिए एक रेखा (गणित) के साथ तैयार किया जा सकता है। आंकड़े 1 से 3 लेखाचित्र [[हरिण का शिकार|स्टैग हंट]] खेल के लिए सर्वोत्तम प्रतिक्रिया पत्राचार है। चित्र 1 में बिंदीदार रेखा [[अनुकूलन (गणित)]] के प्रतिनिधित्व और संभाव्यता मूल्यों की व्याख्या दिखाती है कि खिलाड़ी वाई 'स्टैग' खेलता है, संभावना के एक फलन के रूप में खिलाड़ी X स्टैग खेलता है (दिखाया गया है)। चित्र 2 में बिंदीदार रेखा इष्टतम संभावना दिखाती है कि खिलाड़ी X 'स्टैग' (x-अक्ष में दिखाया गया है) खेलता है, संभावना के एक फलन के रूप में कि खिलाड़ी Y स्टैग खेलता है (y-अक्ष में दिखाया गया है)। ध्यान दें कि चित्र 2 सामान्य रूप से उपयोग किए जाने वाले अक्षों के विपरीत अक्षों में स्वतंत्र और प्रतिक्रिया चरों को आलेख करता है, ताकि इसे पिछले लेखाचित्र पर आरोपित किया जा सके, जहां दो खिलाड़ियों की सर्वश्रेष्ठ प्रतिक्रियाएं चित्रा 3 में सहमत हों नैश संतुलन को उन बिंदुओं पर दिखाने के लिए आलेख करता है। | ||
तीन विशिष्ट प्रतिक्रिया पत्राचार आकार हैं, तीन प्रकार के सममित फलन 2x2 फलन में से प्रत्येक के लिए एक: समन्वय फलन, डिसऑर्डिनेशन फलन और | तीन विशिष्ट प्रतिक्रिया पत्राचार आकार हैं, तीन प्रकार के सममित फलन 2x2 फलन में से प्रत्येक के लिए एक: समन्वय फलन, डिसऑर्डिनेशन फलन और वर्चस्व वाली रणनीतियों वाले फलन (छोटा चौथा स्तिथि जिसमें प्रतिदान हमेशा दोनों चालों के बराबर होती है, वास्तव में एक खेल सैद्धांतिक समस्या नहीं है)। कोई भी प्रतिदान सममित 2x2 खेल इन तीन रूपों में से एक लेगा। | ||
=== [[समन्वय खेल]] === | === [[समन्वय खेल]] === | ||
जिन खेलों में खिलाड़ी उच्चतम स्कोर करते हैं, जब दोनों खिलाड़ी एक ही रणनीति चुनते हैं, जैसे कि स्टैग हंट और बैटल ऑफ द | जिन खेलों में खिलाड़ी उच्चतम स्कोर करते हैं, जब दोनों खिलाड़ी एक ही रणनीति चुनते हैं, जैसे कि स्टैग हंट और बैटल ऑफ द सक्सेस (खेल सिद्धांत), समन्वय खेल कहलाते हैं। इन खेलों में चित्रा 3 के समान आकार के प्रतिक्रिया पत्राचार होते हैं, जहां नीचे बाएं कोने में एक नैश संतुलन होता है, दूसरा शीर्ष दाएं कोने में होता है, और अन्य दो के बीच विकर्ण के साथ कहीं मिश्रण नैश होता है। | ||
=== विरोधी समन्वय खेल === | === विरोधी समन्वय खेल === | ||
[[Image:Reaction-correspondence-stag-hunt.jpg|150px|thumbnail|चित्रा 3. स्टैग हंट फलन में दोनों खिलाड़ियों के लिए प्रतिक्रिया पत्राचार। नैश संतुलन बिंदुओं के साथ दिखाया गया है, जहां दो खिलाड़ी के पत्राचार सहमत हैं, यानी क्रॉस]]चिकन और | [[Image:Reaction-correspondence-stag-hunt.jpg|150px|thumbnail|चित्रा 3. स्टैग हंट फलन में दोनों खिलाड़ियों के लिए प्रतिक्रिया पत्राचार। नैश संतुलन बिंदुओं के साथ दिखाया गया है, जहां दो खिलाड़ी के पत्राचार सहमत हैं, यानी क्रॉस]]गेम ऑफ़ चिकन और हॉक-धोव खेल जैसे खेल जिसमें खिलाड़ी विपरीत रणनीतियों का चयन करते समय उच्चतम अंक प्राप्त करते हैं, यानी, असंतोष, समन्वय-विरोधी खेल कहलाते हैं। उनके पास प्रतिक्रिया पत्राचार (चित्र 4) है जो समन्वय खेलों के विपरीत दिशा में पार करते हैं, तीन नैश संतुलन के साथ, शीर्ष बाएं और निचले दाएं कोनों में से प्रत्येक में, जहां एक खिलाड़ी एक रणनीति चुनता है, दूसरा खिलाड़ी विपरीत रणनीति चुनता है। तीसरा नैश संतुलन एक मिश्रित रणनीति है जो नीचे बाएँ से ऊपरी दाएँ कोने तक विकर्ण के साथ स्थित है। यदि खिलाड़ियों को नहीं पता है कि उनमें से कौन सा है, तो मिश्रित नैश एक क्रमिक रूप से स्थिर रणनीति (ईएसएस) है, क्योंकि खेल नीचे बाईं ओर ऊपर दाईं ओर तिरछी रेखा तक ही सीमित है। अन्यथा कहा जाता है कि एक असंबद्ध विषमता अस्तित्व में है, और कोना नैश संतुलन ईएसएस हैं। | ||
[[Image:Reaction-correspondence-hawk-dove.jpg|500px|thumbnail|center|चित्र 4. | [[Image:Reaction-correspondence-hawk-dove.jpg|500px|thumbnail|center|चित्र 4. हॉक-धोव खेल में दोनों खिलाड़ियों के लिए प्रतिक्रिया पत्राचार। नैश संतुलन बिंदुओं के साथ दिखाया गया है, जहां दो खिलाड़ी के पत्राचार सहमत हैं, यानी तिर्यक्]] | ||
=== | === प्रभुत्व वाली रणनीतियों वाले खेल === | ||
[[Image:Reaction-correspondence-dominated.jpg|150px|thumbnail|चित्रा 5. एक वर्चस्व वाली रणनीति के साथ खेल के लिए प्रतिक्रिया पत्राचार।]]प्रभुत्व वाले फलन (खेल सिद्धांत) रणनीतियों में प्रतिक्रिया पत्राचार होते हैं जो केवल एक बिंदु पर पार करते हैं, जो भुगतान सममित 2x2 फलन में या तो नीचे बाएं या शीर्ष दाएं कोने में होगा। उदाहरण के लिए, एकल-खेल | [[Image:Reaction-correspondence-dominated.jpg|150px|thumbnail|चित्रा 5. एक वर्चस्व वाली रणनीति के साथ खेल के लिए प्रतिक्रिया पत्राचार।]]प्रभुत्व वाले फलन (खेल सिद्धांत) रणनीतियों में प्रतिक्रिया पत्राचार होते हैं जो केवल एक बिंदु पर पार करते हैं, जो भुगतान सममित 2x2 फलन में या तो नीचे बाएं या शीर्ष दाएं कोने में होगा। उदाहरण के लिए, एकल-खेल प्रिजनर डाइलेमा में, सहयोगी चाल प्रतिद्वंद्वी सहयोग की किसी भी संभावना के लिए इष्टतम नहीं है। चित्रा 5 ऐसे खेल के लिए प्रतिक्रिया पत्राचार दिखाता है, जहां आयाम संभावना खेल सहयोग करते हैं, नैश संतुलन निचले बाएं कोने में है जहां कोई भी खिलाड़ी सहयोग नहीं करता है। यदि आयामों को संभाव्यता खेल दोष के रूप में परिभाषित किया गया था, तो दोनों खिलाड़ियों का सर्वश्रेष्ठ प्रतिक्रिया वक्र सभी प्रतिद्वंद्वी रणनीति संभावनाओं के लिए 1 होगा और प्रतिक्रिया पत्राचार शीर्ष दाएं कोने पर तिर्यक् (और एक नैश संतुलन बनाएगा) होगा। | ||
=== अन्य (अदायगी असममित) खेल === | === अन्य (अदायगी असममित) खेल === | ||
भुगतान विषमता के साथ 2x2 फलन में प्रतिक्रिया पत्राचार आकृतियों की एक विस्तृत श्रृंखला संभव है। प्रत्येक खिलाड़ी के लिए चित्र 6 में दिखाए गए पांच संभावित सर्वश्रेष्ठ प्रतिक्रिया आकार हैं। बाएं से दाएं ये हैं: वर्चस्व वाली रणनीति (हमेशा 2 खेलें), हावी रणनीति (हमेशा 1 खेलें), बढ़ती (रणनीति 2 खेलें यदि संभावना है कि अन्य खिलाड़ी | भुगतान विषमता के साथ 2x2 फलन में प्रतिक्रिया पत्राचार आकृतियों की एक विस्तृत श्रृंखला संभव है। प्रत्येक खिलाड़ी के लिए चित्र 6 में दिखाए गए पांच संभावित सर्वश्रेष्ठ प्रतिक्रिया आकार हैं। बाएं से दाएं ये हैं: वर्चस्व वाली रणनीति (हमेशा 2 खेलें), हावी रणनीति (हमेशा 1 खेलें), बढ़ती (रणनीति 2 खेलें यदि संभावना है कि अन्य खिलाड़ी खेल 2 प्रभावसीमा से ऊपर है), गिरना (खेल योजना 1 यदि संभावना है कि अन्य खिलाड़ी 2 खेलता है तो प्रभावसीमा से ऊपर है), और उदासीन (दोनों रणनीतियाँ सभी परिस्थितियों में समान रूप से अच्छी तरह से खेलती हैं)। | ||
[[Image:Five-Reaction-Correspondences.jpg|700px|thumbnail|center|चित्र 6 - 2x2 फलन में एक खिलाड़ी के लिए पांच संभावित प्रतिक्रिया पत्राचार।, | [[Image:Five-Reaction-Correspondences.jpg|700px|thumbnail|center|चित्र 6 - 2x2 फलन में एक खिलाड़ी के लिए पांच संभावित प्रतिक्रिया पत्राचार।, अक्ष को संभावना दिखाने के लिए माना जाता है कि खिलाड़ी अपनी रणनीति 1 खेलता है। बाएं से दाएं: ए) हमेशा 2 खेलें, रणनीति 1 हावी है, बी ) हमेशा 1 खेल, रणनीति 2 हावी है) रणनीति 1 सर्वश्रेष्ठ जब प्रतिद्वंद्वी अपनी रणनीति 1 और 2 सर्वश्रेष्ठ खेलता है जब प्रतिद्वंद्वी अपनी 2 खेलता है) रणनीति 1 सर्वश्रेष्ठ जब प्रतिद्वंद्वी अपनी रणनीति 2 और 2 सर्वश्रेष्ठ खेलता है जब प्रतिद्वंद्वी अपना 1, e खेलता है) दोनों रणनीतियाँ समान रूप से अच्छी तरह से खेलती हैं चाहे विरोधी कुछ भी खेलता हो।]]जबकि अदायगी सममित 2x2 खेल के केवल चार संभावित प्रकार हैं (जिनमें से एक तुच्छ है), प्रति खिलाड़ी पांच अलग-अलग सर्वश्रेष्ठ प्रतिक्रिया वक्र बड़ी संख्या में अदायगी असममित खेल प्रकारों की अनुमति देते हैं। इनमें से कई वास्तव में एक दूसरे से भिन्न नहीं हैं। सममित खेलों का निर्माण करने के लिए आयामों को फिर से परिभाषित किया जा सकता है (रणनीति 1 और 2 के विनिमय नाम)। | ||
=== | === मैचिंग पेनी === | ||
अदायगी विषमता के साथ एक प्रसिद्ध फलन मैचिंग | अदायगी विषमता के साथ एक प्रसिद्ध फलन मैचिंग पेनी फलन है। इस खेल में एक खिलाड़ी, पंक्ति खिलाड़ी - y आयाम पर रेखांकन - जीतता है यदि खिलाड़ी समन्वय करते हैं (दोनों सिर चुनते हैं या दोनों पूंछ चुनते हैं) जबकि अन्य खिलाड़ी, स्तंभ खिलाड़ी - एक्स-अक्ष में दिखाया गया है - जीतता है अगर खिलाड़ी असमंजस। खेलयर वाई की प्रतिक्रिया पत्राचार एक समन्वय खेल का है, जबकि खिलाड़ी एक्स का एक डिसऑर्डिनेशन फलन है। एकमात्र नैश संतुलन मिश्रित रणनीतियों का संयोजन है जहां दोनों खिलाड़ी स्वतंत्र रूप से 0.5 प्रत्येक की प्रायिकता के साथ हेड और टेल चुनते हैं। | ||
[[Image:Reaction-correspondence-matching-pennies.jpg|500px|thumbnail|center|चित्र 7. [[ मिलान पैसे ]] फलन में खिलाड़ियों के लिए प्रतिक्रिया पत्राचार। सबसे बाईं ओर की | [[Image:Reaction-correspondence-matching-pennies.jpg|500px|thumbnail|center|चित्र 7. [[ मिलान पैसे | मैचिंग पेनी]] फलन में खिलाड़ियों के लिए प्रतिक्रिया पत्राचार। सबसे बाईं ओर की प्रतिचित्रण समन्वयक खिलाड़ी के लिए है, बीच की प्रतिचित्रण डिसऑर्डिनेटिंग खिलाड़ी के लिए है। एकमात्र नैश संतुलन दाहिने हाथ के लेखाचित्र में दिखाया गया है।]] | ||
== | == गतिविज्ञान == | ||
[[विकासवादी खेल सिद्धांत]] में, सर्वोत्तम प्रतिक्रिया गतिशीलता नियमों को अद्यतन करने वाली रणनीति के एक वर्ग का प्रतिनिधित्व करती है, जहां अगले | [[विकासवादी खेल सिद्धांत]] में, सर्वोत्तम प्रतिक्रिया गतिशीलता नियमों को अद्यतन करने वाली रणनीति के एक वर्ग का प्रतिनिधित्व करती है, जहां अगले पड़ाव में खिलाड़ियों की रणनीति जनसंख्या के कुछ उपसमुच्चय के लिए उनकी सर्वोत्तम प्रतिक्रियाओं द्वारा निर्धारित की जाती है। कुछ उदाहरणों में निम्न सम्मिलित हैं: | ||
*एक बड़े जनसंख्या | *एक बड़े जनसंख्या प्रतिरूप में, खिलाड़ी संभावित रूप से अपनी अगली कार्रवाई का चयन करते हैं, जिसके आधार पर रणनीति समग्र रूप से जनसंख्या के लिए सर्वोत्तम प्रतिक्रिया होती है। | ||
* एक स्थानिक | * एक स्थानिक प्रतिरूप में, खिलाड़ी (अगले पड़ाव में) उस क्रिया को चुनते हैं जो उनके सभी प्रतिवैस {{harv|एलिसन|1993}} के लिए सबसे अच्छी प्रतिक्रिया है। | ||
महत्वपूर्ण रूप से, इन | महत्वपूर्ण रूप से, इन प्रतिरूपों में खिलाड़ी केवल अगले पड़ाव में सर्वश्रेष्ठ प्रतिक्रिया का चयन करते हैं जो उन्हें अगले पड़ाव में उच्चतम भुगतान देगा। खिलाड़ी इस प्रभाव पर विचार नहीं करते हैं कि अगले पड़ाव में रणनीति चुनने से खेल में भविष्य के खेल पर प्रभाव पड़ेगा। इस बाधा के परिणामस्वरूप गतिशील नियम को प्रायः अदूरदर्शी सर्वश्रेष्ठ प्रतिक्रिया कहा जाता है। | ||
[[संभावित खेल]]ों के सिद्धांत में, 'सर्वश्रेष्ठ प्रतिक्रिया गतिकी' प्रत्येक खिलाड़ी के लिए सर्वश्रेष्ठ प्रतिक्रिया की गणना करके नैश संतुलन खोजने का एक तरीका है: | [[संभावित खेल]]ों के सिद्धांत में, 'सर्वश्रेष्ठ प्रतिक्रिया गतिकी' प्रत्येक खिलाड़ी के लिए सर्वश्रेष्ठ प्रतिक्रिया की गणना करके नैश संतुलन खोजने का एक तरीका है: | ||
'प्रमेय:' किसी भी परिमित संभावित खेल में, सर्वोत्तम प्रतिक्रिया गतिकी हमेशा नैश संतुलन में परिवर्तित होती है। | 'प्रमेय:' किसी भी परिमित संभावित खेल में, सर्वोत्तम प्रतिक्रिया गतिकी हमेशा नैश संतुलन में परिवर्तित होती है। | ||
({{harvnb|निसान|रफगार्डन|टार्डोस|वजीरानी|2007}}, खंड 19.3.2) | |||
ऐसे कई कार्य हैं जो | == समकृत == | ||
[[Image:SmoothBRColor.png|thumb|150px|right|चित्रा 8. एक बीआर पत्राचार (काला) और समकृत बीआर फलन (रंग)]]सर्वोत्तम प्रतिक्रिया पत्राचारों के स्थान पर, कुछ प्रतिरूप समकृत सर्वोत्तम प्रतिक्रिया कार्यों का उपयोग करते हैं। ये कार्य सर्वोत्तम प्रतिक्रिया पत्राचार के समान हैं, सिवाय इसके कि फलन एक शुद्ध रणनीति से दूसरे में नहीं जाता है। अंतर को चित्र 8 में दिखाया गया है, जहां काला सर्वोत्तम प्रतिक्रिया पत्राचार का प्रतिनिधित्व करता है और अन्य रंग प्रत्येक अलग-अलग चिकने सर्वोत्तम प्रतिक्रिया कार्यों का प्रतिनिधित्व करते हैं। मानक सर्वोत्तम प्रतिक्रिया पत्राचारों में, एक कार्रवाई के लिए सामान्य लाभ के परिणामस्वरूप व्यक्ति उस कार्रवाई को संभाव्यता 1 के साथ खेलता है। समकृत सर्वोत्तम प्रतिक्रिया में दो क्रियाओं के बीच का अंतर घटता है, व्यक्ति का खेल 50:50 तक पहुंचता है। | |||
ऐसे कई कार्य हैं जो समकृत सर्वोत्तम प्रतिक्रिया कार्यों का प्रतिनिधित्व करते हैं। यहां दिखाए गए फलन निम्न फलन पर कई भिन्नताएं हैं: | |||
:<math>\frac{e^{E(1)/\gamma}}{e^{E(1)/\gamma} + e^{E(2)/\gamma}}</math> | :<math>\frac{e^{E(1)/\gamma}}{e^{E(1)/\gamma} + e^{E(2)/\gamma}}</math> | ||
जहाँ <math>E(x)</math> प्रक्रिया <math>x</math> के अपेक्षित भुगतान का प्रतिनिधित्व करता है, और <math>\gamma</math> एक मापदण्ड है जो उस घात को निर्धारित करता है जिस पर फलन सही सर्वोत्तम प्रतिक्रिया से विचलित होता है (एक बड़ा <math>\gamma</math> तात्पर्य यह है कि खिलाड़ी के 'गलतियाँ' करने की अधिक संभावना है)। | |||
समकृत सर्वोत्तम प्रतिक्रिया का उपयोग करने के कई सैद्धांतिक और अनुभवजन्य दोनों लाभ हैं। सबसे पहले, यह मनोवैज्ञानिक प्रयोगों के अनुरूप है; जब व्यक्ति स्थूलतः दो कार्यों के बीच उदासीन होते हैं तो ऐसा प्रतीत होता है कि वे यादृच्छिक रूप से अधिक या कम चुनते हैं। दूसरा, व्यक्तियों का खेल सभी स्तिथियों में विशिष्ट रूप से निर्धारित होता है, क्योंकि यह 1:1 पत्राचार है जो एक कार्य (गणित) भी है। अंत में, कुछ सीखने के नियमों के साथ सहज सर्वोत्तम प्रतिक्रिया का उपयोग करने से (जैसा कि काल्पनिक नाटक में होता है) परिणामस्वरूप खिलाड़ी मिश्रित रणनीति [[नैश संतुलन]] {{harv|फुडेनबर्ग|लेविन|1998}} खेलना सीख सकते हैं . | |||
== यह भी देखें == | == यह भी देखें == |
Revision as of 13:57, 12 June 2023
खेल सिद्धांत में, सबसे अच्छी प्रतिक्रिया रणनीति (खेल सिद्धांत) (या रणनीति) है जो एक खिलाड़ी के लिए सबसे अनुकूल परिणाम (खेल सिद्धांत) उत्पन्न करती है, अन्य खिलाड़ियों की रणनीतियों को दिए गए अनुसार (फुडेनबर्ग & तिरोल 1991, p. 29 ; गिबन्स 1992, pp. 33–49 )। जॉन फोर्ब्स नैश के लिए एक सर्वोत्तम प्रतिक्रिया की अवधारणा केंद्रीय है। जॉन नैश का सबसे प्रसिद्ध योगदान, नैश संतुलन, वह बिंदु जिस पर खेल में प्रत्येक खिलाड़ी की रणनीतियाँ (नैश 1950) ने अन्य खिलाड़ियों के लिए सर्वश्रेष्ठ प्रतिक्रिया (या सर्वश्रेष्ठ प्रतिक्रियाओं में से एक) का चयन किया है।
पत्राचार
प्रतिक्रिया 1: 1 पत्राचार, जिसे सर्वश्रेष्ठ प्रतिक्रिया पत्राचार के रूप में भी जाना जाता है, का उपयोग मिश्रित रणनीति नैश संतुलन (फुडेनबर्ग & तिरोल 1991 , खंड 1.3.बी; ओसबोर्न & रुबिनस्टीन 1994 , खंड 2.2) के अस्तित्व के प्रमाण में किया जाता है। प्रतिक्रिया पत्राचार प्रतिक्रिया कार्य नहीं हैं क्योंकि फलन (गणित) में प्रति तर्क केवल एक मान होना चाहिए, और कई प्रतिक्रिया पत्राचार अपरिभाषित होंगे, अर्थात, कुछ प्रतिद्वंद्वी रणनीति पसंद के लिए एक लंबवत रेखा है। एक पत्राचार खिलाड़ी की रणनीतियों के सम्मुच्चय में प्रतिद्वंद्वी रणनीति वर्णन के सम्मुच्चय से प्रत्येक खिलाड़ी के लिए बनाता है। तो, प्रतिद्वंद्वी की रणनीतियों के किसी दिए गए सम्मुच्चय के लिए , खिलाड़ी की सर्वश्रेष्ठ प्रतिक्रियाओं का प्रतिनिधित्व करता है।
सभी 2x2 प्रसामान्य रूप खेल के लिए प्रतिक्रिया पत्राचार एक इकाई वर्ग योजना स्थल में प्रत्येक खिलाड़ी के लिए एक रेखा (गणित) के साथ तैयार किया जा सकता है। आंकड़े 1 से 3 लेखाचित्र स्टैग हंट खेल के लिए सर्वोत्तम प्रतिक्रिया पत्राचार है। चित्र 1 में बिंदीदार रेखा अनुकूलन (गणित) के प्रतिनिधित्व और संभाव्यता मूल्यों की व्याख्या दिखाती है कि खिलाड़ी वाई 'स्टैग' खेलता है, संभावना के एक फलन के रूप में खिलाड़ी X स्टैग खेलता है (दिखाया गया है)। चित्र 2 में बिंदीदार रेखा इष्टतम संभावना दिखाती है कि खिलाड़ी X 'स्टैग' (x-अक्ष में दिखाया गया है) खेलता है, संभावना के एक फलन के रूप में कि खिलाड़ी Y स्टैग खेलता है (y-अक्ष में दिखाया गया है)। ध्यान दें कि चित्र 2 सामान्य रूप से उपयोग किए जाने वाले अक्षों के विपरीत अक्षों में स्वतंत्र और प्रतिक्रिया चरों को आलेख करता है, ताकि इसे पिछले लेखाचित्र पर आरोपित किया जा सके, जहां दो खिलाड़ियों की सर्वश्रेष्ठ प्रतिक्रियाएं चित्रा 3 में सहमत हों नैश संतुलन को उन बिंदुओं पर दिखाने के लिए आलेख करता है।
तीन विशिष्ट प्रतिक्रिया पत्राचार आकार हैं, तीन प्रकार के सममित फलन 2x2 फलन में से प्रत्येक के लिए एक: समन्वय फलन, डिसऑर्डिनेशन फलन और वर्चस्व वाली रणनीतियों वाले फलन (छोटा चौथा स्तिथि जिसमें प्रतिदान हमेशा दोनों चालों के बराबर होती है, वास्तव में एक खेल सैद्धांतिक समस्या नहीं है)। कोई भी प्रतिदान सममित 2x2 खेल इन तीन रूपों में से एक लेगा।
समन्वय खेल
जिन खेलों में खिलाड़ी उच्चतम स्कोर करते हैं, जब दोनों खिलाड़ी एक ही रणनीति चुनते हैं, जैसे कि स्टैग हंट और बैटल ऑफ द सक्सेस (खेल सिद्धांत), समन्वय खेल कहलाते हैं। इन खेलों में चित्रा 3 के समान आकार के प्रतिक्रिया पत्राचार होते हैं, जहां नीचे बाएं कोने में एक नैश संतुलन होता है, दूसरा शीर्ष दाएं कोने में होता है, और अन्य दो के बीच विकर्ण के साथ कहीं मिश्रण नैश होता है।
विरोधी समन्वय खेल
गेम ऑफ़ चिकन और हॉक-धोव खेल जैसे खेल जिसमें खिलाड़ी विपरीत रणनीतियों का चयन करते समय उच्चतम अंक प्राप्त करते हैं, यानी, असंतोष, समन्वय-विरोधी खेल कहलाते हैं। उनके पास प्रतिक्रिया पत्राचार (चित्र 4) है जो समन्वय खेलों के विपरीत दिशा में पार करते हैं, तीन नैश संतुलन के साथ, शीर्ष बाएं और निचले दाएं कोनों में से प्रत्येक में, जहां एक खिलाड़ी एक रणनीति चुनता है, दूसरा खिलाड़ी विपरीत रणनीति चुनता है। तीसरा नैश संतुलन एक मिश्रित रणनीति है जो नीचे बाएँ से ऊपरी दाएँ कोने तक विकर्ण के साथ स्थित है। यदि खिलाड़ियों को नहीं पता है कि उनमें से कौन सा है, तो मिश्रित नैश एक क्रमिक रूप से स्थिर रणनीति (ईएसएस) है, क्योंकि खेल नीचे बाईं ओर ऊपर दाईं ओर तिरछी रेखा तक ही सीमित है। अन्यथा कहा जाता है कि एक असंबद्ध विषमता अस्तित्व में है, और कोना नैश संतुलन ईएसएस हैं।
प्रभुत्व वाली रणनीतियों वाले खेल
प्रभुत्व वाले फलन (खेल सिद्धांत) रणनीतियों में प्रतिक्रिया पत्राचार होते हैं जो केवल एक बिंदु पर पार करते हैं, जो भुगतान सममित 2x2 फलन में या तो नीचे बाएं या शीर्ष दाएं कोने में होगा। उदाहरण के लिए, एकल-खेल प्रिजनर डाइलेमा में, सहयोगी चाल प्रतिद्वंद्वी सहयोग की किसी भी संभावना के लिए इष्टतम नहीं है। चित्रा 5 ऐसे खेल के लिए प्रतिक्रिया पत्राचार दिखाता है, जहां आयाम संभावना खेल सहयोग करते हैं, नैश संतुलन निचले बाएं कोने में है जहां कोई भी खिलाड़ी सहयोग नहीं करता है। यदि आयामों को संभाव्यता खेल दोष के रूप में परिभाषित किया गया था, तो दोनों खिलाड़ियों का सर्वश्रेष्ठ प्रतिक्रिया वक्र सभी प्रतिद्वंद्वी रणनीति संभावनाओं के लिए 1 होगा और प्रतिक्रिया पत्राचार शीर्ष दाएं कोने पर तिर्यक् (और एक नैश संतुलन बनाएगा) होगा।
अन्य (अदायगी असममित) खेल
भुगतान विषमता के साथ 2x2 फलन में प्रतिक्रिया पत्राचार आकृतियों की एक विस्तृत श्रृंखला संभव है। प्रत्येक खिलाड़ी के लिए चित्र 6 में दिखाए गए पांच संभावित सर्वश्रेष्ठ प्रतिक्रिया आकार हैं। बाएं से दाएं ये हैं: वर्चस्व वाली रणनीति (हमेशा 2 खेलें), हावी रणनीति (हमेशा 1 खेलें), बढ़ती (रणनीति 2 खेलें यदि संभावना है कि अन्य खिलाड़ी खेल 2 प्रभावसीमा से ऊपर है), गिरना (खेल योजना 1 यदि संभावना है कि अन्य खिलाड़ी 2 खेलता है तो प्रभावसीमा से ऊपर है), और उदासीन (दोनों रणनीतियाँ सभी परिस्थितियों में समान रूप से अच्छी तरह से खेलती हैं)।
जबकि अदायगी सममित 2x2 खेल के केवल चार संभावित प्रकार हैं (जिनमें से एक तुच्छ है), प्रति खिलाड़ी पांच अलग-अलग सर्वश्रेष्ठ प्रतिक्रिया वक्र बड़ी संख्या में अदायगी असममित खेल प्रकारों की अनुमति देते हैं। इनमें से कई वास्तव में एक दूसरे से भिन्न नहीं हैं। सममित खेलों का निर्माण करने के लिए आयामों को फिर से परिभाषित किया जा सकता है (रणनीति 1 और 2 के विनिमय नाम)।
मैचिंग पेनी
अदायगी विषमता के साथ एक प्रसिद्ध फलन मैचिंग पेनी फलन है। इस खेल में एक खिलाड़ी, पंक्ति खिलाड़ी - y आयाम पर रेखांकन - जीतता है यदि खिलाड़ी समन्वय करते हैं (दोनों सिर चुनते हैं या दोनों पूंछ चुनते हैं) जबकि अन्य खिलाड़ी, स्तंभ खिलाड़ी - एक्स-अक्ष में दिखाया गया है - जीतता है अगर खिलाड़ी असमंजस। खेलयर वाई की प्रतिक्रिया पत्राचार एक समन्वय खेल का है, जबकि खिलाड़ी एक्स का एक डिसऑर्डिनेशन फलन है। एकमात्र नैश संतुलन मिश्रित रणनीतियों का संयोजन है जहां दोनों खिलाड़ी स्वतंत्र रूप से 0.5 प्रत्येक की प्रायिकता के साथ हेड और टेल चुनते हैं।
गतिविज्ञान
विकासवादी खेल सिद्धांत में, सर्वोत्तम प्रतिक्रिया गतिशीलता नियमों को अद्यतन करने वाली रणनीति के एक वर्ग का प्रतिनिधित्व करती है, जहां अगले पड़ाव में खिलाड़ियों की रणनीति जनसंख्या के कुछ उपसमुच्चय के लिए उनकी सर्वोत्तम प्रतिक्रियाओं द्वारा निर्धारित की जाती है। कुछ उदाहरणों में निम्न सम्मिलित हैं:
- एक बड़े जनसंख्या प्रतिरूप में, खिलाड़ी संभावित रूप से अपनी अगली कार्रवाई का चयन करते हैं, जिसके आधार पर रणनीति समग्र रूप से जनसंख्या के लिए सर्वोत्तम प्रतिक्रिया होती है।
- एक स्थानिक प्रतिरूप में, खिलाड़ी (अगले पड़ाव में) उस क्रिया को चुनते हैं जो उनके सभी प्रतिवैस (एलिसन 1993) के लिए सबसे अच्छी प्रतिक्रिया है।
महत्वपूर्ण रूप से, इन प्रतिरूपों में खिलाड़ी केवल अगले पड़ाव में सर्वश्रेष्ठ प्रतिक्रिया का चयन करते हैं जो उन्हें अगले पड़ाव में उच्चतम भुगतान देगा। खिलाड़ी इस प्रभाव पर विचार नहीं करते हैं कि अगले पड़ाव में रणनीति चुनने से खेल में भविष्य के खेल पर प्रभाव पड़ेगा। इस बाधा के परिणामस्वरूप गतिशील नियम को प्रायः अदूरदर्शी सर्वश्रेष्ठ प्रतिक्रिया कहा जाता है।
संभावित खेलों के सिद्धांत में, 'सर्वश्रेष्ठ प्रतिक्रिया गतिकी' प्रत्येक खिलाड़ी के लिए सर्वश्रेष्ठ प्रतिक्रिया की गणना करके नैश संतुलन खोजने का एक तरीका है:
'प्रमेय:' किसी भी परिमित संभावित खेल में, सर्वोत्तम प्रतिक्रिया गतिकी हमेशा नैश संतुलन में परिवर्तित होती है।
(निसान et al. 2007 , खंड 19.3.2)
समकृत
सर्वोत्तम प्रतिक्रिया पत्राचारों के स्थान पर, कुछ प्रतिरूप समकृत सर्वोत्तम प्रतिक्रिया कार्यों का उपयोग करते हैं। ये कार्य सर्वोत्तम प्रतिक्रिया पत्राचार के समान हैं, सिवाय इसके कि फलन एक शुद्ध रणनीति से दूसरे में नहीं जाता है। अंतर को चित्र 8 में दिखाया गया है, जहां काला सर्वोत्तम प्रतिक्रिया पत्राचार का प्रतिनिधित्व करता है और अन्य रंग प्रत्येक अलग-अलग चिकने सर्वोत्तम प्रतिक्रिया कार्यों का प्रतिनिधित्व करते हैं। मानक सर्वोत्तम प्रतिक्रिया पत्राचारों में, एक कार्रवाई के लिए सामान्य लाभ के परिणामस्वरूप व्यक्ति उस कार्रवाई को संभाव्यता 1 के साथ खेलता है। समकृत सर्वोत्तम प्रतिक्रिया में दो क्रियाओं के बीच का अंतर घटता है, व्यक्ति का खेल 50:50 तक पहुंचता है।
ऐसे कई कार्य हैं जो समकृत सर्वोत्तम प्रतिक्रिया कार्यों का प्रतिनिधित्व करते हैं। यहां दिखाए गए फलन निम्न फलन पर कई भिन्नताएं हैं:
जहाँ प्रक्रिया के अपेक्षित भुगतान का प्रतिनिधित्व करता है, और एक मापदण्ड है जो उस घात को निर्धारित करता है जिस पर फलन सही सर्वोत्तम प्रतिक्रिया से विचलित होता है (एक बड़ा तात्पर्य यह है कि खिलाड़ी के 'गलतियाँ' करने की अधिक संभावना है)।
समकृत सर्वोत्तम प्रतिक्रिया का उपयोग करने के कई सैद्धांतिक और अनुभवजन्य दोनों लाभ हैं। सबसे पहले, यह मनोवैज्ञानिक प्रयोगों के अनुरूप है; जब व्यक्ति स्थूलतः दो कार्यों के बीच उदासीन होते हैं तो ऐसा प्रतीत होता है कि वे यादृच्छिक रूप से अधिक या कम चुनते हैं। दूसरा, व्यक्तियों का खेल सभी स्तिथियों में विशिष्ट रूप से निर्धारित होता है, क्योंकि यह 1:1 पत्राचार है जो एक कार्य (गणित) भी है। अंत में, कुछ सीखने के नियमों के साथ सहज सर्वोत्तम प्रतिक्रिया का उपयोग करने से (जैसा कि काल्पनिक नाटक में होता है) परिणामस्वरूप खिलाड़ी मिश्रित रणनीति नैश संतुलन (फुडेनबर्ग & लेविन 1998) खेलना सीख सकते हैं .
यह भी देखें
संदर्भ
- Ellison, G. (1993), "Learning, Local Interaction, and Coordination" (PDF), Econometrica, 61 (5): 1047–1071, doi:10.2307/2951493, JSTOR 2951493
- Fudenberg, D.; Levine, David K. (1998), The Theory of Learning in Games, Cambridge MA: MIT Press
- Fudenberg, Drew; Tirole, Jean (1991). Game theory. Cambridge, Massachusetts: MIT Press. ISBN 9780262061414. Book preview.
- Gibbons, R. (1992), A primer in game theory, Harvester-Wheatsheaf, S2CID 10248389
- Nash, John F. (1950), "Equilibrium points in n-person games", Proceedings of the National Academy of Sciences of the United States of America, 36 (1): 48–49, Bibcode:1950PNAS...36...48N, doi:10.1073/pnas.36.1.48, PMC 1063129, PMID 16588946
- Osborne, M.J.; Rubinstein, Ariel (1994), A course in game theory, Cambridge MA: MIT Press
- Young, H.P. (2005), Strategic Learning and Its Limits, Oxford University Press
- Nisan, N.; Roughgarden, T.; Tardos, É.; Vazirani, V.V. (2007), Algorithmic Game Theory (PDF), New York: Cambridge University Press