सर्वोत्तम प्रतिक्रिया: Difference between revisions

From Vigyanwiki
(text)
(text)
Line 6: Line 6:
[[Image:Reaction-correspondence-playerx.jpg|150px|thumbnail|चित्रा 2. स्टैग हंट फलन में खिलाड़ी एक्स के लिए प्रतिक्रिया पत्राचार।]]सभी 2x2 प्रसामान्य रूप खेल के लिए प्रतिक्रिया पत्राचार एक [[इकाई वर्ग]] योजना स्थल में प्रत्येक खिलाड़ी के लिए एक रेखा (गणित) के साथ तैयार किया जा सकता है। आंकड़े 1 से 3 लेखाचित्र [[हरिण का शिकार|स्टैग हंट]] खेल के लिए सर्वोत्तम प्रतिक्रिया पत्राचार है। चित्र 1 में बिंदीदार रेखा [[अनुकूलन (गणित)]] के प्रतिनिधित्व और संभाव्यता मूल्यों की व्याख्या दिखाती है कि खिलाड़ी वाई 'स्टैग'  खेलता है, संभावना के एक फलन के रूप में खिलाड़ी X स्टैग खेलता है (दिखाया गया है)। चित्र 2 में बिंदीदार रेखा इष्टतम संभावना दिखाती है कि खिलाड़ी X 'स्टैग' (x-अक्ष में दिखाया गया है) खेलता है, संभावना के एक फलन के रूप में कि खिलाड़ी Y स्टैग खेलता है (y-अक्ष में दिखाया गया है)। ध्यान दें कि चित्र 2 सामान्य रूप से उपयोग किए जाने वाले अक्षों के विपरीत अक्षों में स्वतंत्र और प्रतिक्रिया चरों को आलेख करता है, ताकि इसे पिछले लेखाचित्र पर आरोपित किया जा सके, जहां दो खिलाड़ियों की सर्वश्रेष्ठ प्रतिक्रियाएं चित्रा 3 में सहमत हों नैश संतुलन को उन बिंदुओं पर दिखाने के लिए आलेख करता है।
[[Image:Reaction-correspondence-playerx.jpg|150px|thumbnail|चित्रा 2. स्टैग हंट फलन में खिलाड़ी एक्स के लिए प्रतिक्रिया पत्राचार।]]सभी 2x2 प्रसामान्य रूप खेल के लिए प्रतिक्रिया पत्राचार एक [[इकाई वर्ग]] योजना स्थल में प्रत्येक खिलाड़ी के लिए एक रेखा (गणित) के साथ तैयार किया जा सकता है। आंकड़े 1 से 3 लेखाचित्र [[हरिण का शिकार|स्टैग हंट]] खेल के लिए सर्वोत्तम प्रतिक्रिया पत्राचार है। चित्र 1 में बिंदीदार रेखा [[अनुकूलन (गणित)]] के प्रतिनिधित्व और संभाव्यता मूल्यों की व्याख्या दिखाती है कि खिलाड़ी वाई 'स्टैग'  खेलता है, संभावना के एक फलन के रूप में खिलाड़ी X स्टैग खेलता है (दिखाया गया है)। चित्र 2 में बिंदीदार रेखा इष्टतम संभावना दिखाती है कि खिलाड़ी X 'स्टैग' (x-अक्ष में दिखाया गया है) खेलता है, संभावना के एक फलन के रूप में कि खिलाड़ी Y स्टैग खेलता है (y-अक्ष में दिखाया गया है)। ध्यान दें कि चित्र 2 सामान्य रूप से उपयोग किए जाने वाले अक्षों के विपरीत अक्षों में स्वतंत्र और प्रतिक्रिया चरों को आलेख करता है, ताकि इसे पिछले लेखाचित्र पर आरोपित किया जा सके, जहां दो खिलाड़ियों की सर्वश्रेष्ठ प्रतिक्रियाएं चित्रा 3 में सहमत हों नैश संतुलन को उन बिंदुओं पर दिखाने के लिए आलेख करता है।


तीन विशिष्ट प्रतिक्रिया पत्राचार आकार हैं, तीन प्रकार के सममित फलन 2x2 फलन में से प्रत्येक के लिए एक: समन्वय फलन, डिसऑर्डिनेशन फलन और '''वर्चस्व वाली रणनीतियों''' वाले फलन (छोटा चौथा स्तिथि जिसमें अदायगी हमेशा दोनों चालों के बराबर होती है, वास्तव में एक खेल सैद्धांतिक समस्या नहीं है)। कोई भी प्रतिदान सममित 2x2 खेल इन तीन रूपों में से एक लेगा।
तीन विशिष्ट प्रतिक्रिया पत्राचार आकार हैं, तीन प्रकार के सममित फलन 2x2 फलन में से प्रत्येक के लिए एक: समन्वय फलन, डिसऑर्डिनेशन फलन और वर्चस्व वाली रणनीतियों वाले फलन (छोटा चौथा स्तिथि जिसमें प्रतिदान हमेशा दोनों चालों के बराबर होती है, वास्तव में एक खेल सैद्धांतिक समस्या नहीं है)। कोई भी प्रतिदान सममित 2x2 खेल इन तीन रूपों में से एक लेगा।


=== [[समन्वय खेल]] ===
=== [[समन्वय खेल]] ===
जिन खेलों में खिलाड़ी उच्चतम स्कोर करते हैं, जब दोनों खिलाड़ी एक ही रणनीति चुनते हैं, जैसे कि स्टैग हंट और बैटल ऑफ द सेक्स (खेल सिद्धांत), समन्वय खेल कहलाते हैं। इन खेलों में चित्रा 3 के समान आकार के प्रतिक्रिया पत्राचार होते हैं, जहां नीचे बाएं कोने में एक नैश संतुलन होता है, दूसरा शीर्ष दाएं कोने में होता है, और अन्य दो के बीच विकर्ण के साथ कहीं मिश्रण नैश होता है।
जिन खेलों में खिलाड़ी उच्चतम स्कोर करते हैं, जब दोनों खिलाड़ी एक ही रणनीति चुनते हैं, जैसे कि स्टैग हंट और बैटल ऑफ द सक्सेस (खेल सिद्धांत), समन्वय खेल कहलाते हैं। इन खेलों में चित्रा 3 के समान आकार के प्रतिक्रिया पत्राचार होते हैं, जहां नीचे बाएं कोने में एक नैश संतुलन होता है, दूसरा शीर्ष दाएं कोने में होता है, और अन्य दो के बीच विकर्ण के साथ कहीं मिश्रण नैश होता है।


=== विरोधी समन्वय खेल ===
=== विरोधी समन्वय खेल ===
[[Image:Reaction-correspondence-stag-hunt.jpg|150px|thumbnail|चित्रा 3. स्टैग हंट फलन में दोनों खिलाड़ियों के लिए प्रतिक्रिया पत्राचार। नैश संतुलन बिंदुओं के साथ दिखाया गया है, जहां दो खिलाड़ी के पत्राचार सहमत हैं, यानी क्रॉस]]चिकन और बाज़-कबूतर खेल जैसे खेल जिसमें खिलाड़ी विपरीत रणनीतियों का चयन करते समय उच्चतम स्कोर करते हैं, यानी, असंतोष, समन्वय-विरोधी खेल कहलाते हैं। उनके पास प्रतिक्रिया पत्राचार (चित्र 4) है जो समन्वय खेलों के विपरीत दिशा में पार करते हैं, तीन नैश संतुलन के साथ, शीर्ष बाएं और निचले दाएं कोनों में से प्रत्येक में, जहां एक खिलाड़ी एक रणनीति चुनता है, दूसरा खिलाड़ी विपरीत रणनीति चुनता है। तीसरा नैश संतुलन एक मिश्रित रणनीति है जो नीचे बाएँ से ऊपरी दाएँ कोने तक विकर्ण के साथ स्थित है। यदि खिलाड़ियों को नहीं पता है कि उनमें से कौन सा है, तो मिश्रित नैश एक क्रमिक रूप से स्थिर रणनीति (ईएसएस) है, क्योंकि खेल नीचे बाईं ओर ऊपर दाईं ओर तिरछी रेखा तक ही सीमित है। अन्यथा कहा जाता है कि एक असंबद्ध विषमता अस्तित्व में है, और कोना नैश संतुलन ईएसएस हैं।
[[Image:Reaction-correspondence-stag-hunt.jpg|150px|thumbnail|चित्रा 3. स्टैग हंट फलन में दोनों खिलाड़ियों के लिए प्रतिक्रिया पत्राचार। नैश संतुलन बिंदुओं के साथ दिखाया गया है, जहां दो खिलाड़ी के पत्राचार सहमत हैं, यानी क्रॉस]]गेम ऑफ़ चिकन और हॉक-धोव खेल जैसे खेल जिसमें खिलाड़ी विपरीत रणनीतियों का चयन करते समय उच्चतम अंक प्राप्त करते हैं, यानी, असंतोष, समन्वय-विरोधी खेल कहलाते हैं। उनके पास प्रतिक्रिया पत्राचार (चित्र 4) है जो समन्वय खेलों के विपरीत दिशा में पार करते हैं, तीन नैश संतुलन के साथ, शीर्ष बाएं और निचले दाएं कोनों में से प्रत्येक में, जहां एक खिलाड़ी एक रणनीति चुनता है, दूसरा खिलाड़ी विपरीत रणनीति चुनता है। तीसरा नैश संतुलन एक मिश्रित रणनीति है जो नीचे बाएँ से ऊपरी दाएँ कोने तक विकर्ण के साथ स्थित है। यदि खिलाड़ियों को नहीं पता है कि उनमें से कौन सा है, तो मिश्रित नैश एक क्रमिक रूप से स्थिर रणनीति (ईएसएस) है, क्योंकि खेल नीचे बाईं ओर ऊपर दाईं ओर तिरछी रेखा तक ही सीमित है। अन्यथा कहा जाता है कि एक असंबद्ध विषमता अस्तित्व में है, और कोना नैश संतुलन ईएसएस हैं।
[[Image:Reaction-correspondence-hawk-dove.jpg|500px|thumbnail|center|चित्र 4. बाज़-कबूतर खेल में दोनों खिलाड़ियों के लिए प्रतिक्रिया पत्राचार। नैश संतुलन बिंदुओं के साथ दिखाया गया है, जहां दो खिलाड़ी के पत्राचार सहमत हैं, यानी क्रॉस]]
[[Image:Reaction-correspondence-hawk-dove.jpg|500px|thumbnail|center|चित्र 4. हॉक-धोव खेल में दोनों खिलाड़ियों के लिए प्रतिक्रिया पत्राचार। नैश संतुलन बिंदुओं के साथ दिखाया गया है, जहां दो खिलाड़ी के पत्राचार सहमत हैं, यानी तिर्यक्]]


=== वर्चस्व वाली रणनीतियों के साथ खेल ===
=== प्रभुत्व वाली रणनीतियों वाले खेल ===
[[Image:Reaction-correspondence-dominated.jpg|150px|thumbnail|चित्रा 5. एक वर्चस्व वाली रणनीति के साथ खेल के लिए प्रतिक्रिया पत्राचार।]]प्रभुत्व वाले फलन (खेल सिद्धांत) रणनीतियों में प्रतिक्रिया पत्राचार होते हैं जो केवल एक बिंदु पर पार करते हैं, जो भुगतान सममित 2x2 फलन में या तो नीचे बाएं या शीर्ष दाएं कोने में होगा। उदाहरण के लिए, एकल-खेल कैदी की दुविधा में, सहयोगी चाल प्रतिद्वंद्वी सहयोग की किसी भी संभावना के लिए इष्टतम नहीं है। चित्रा 5 ऐसे खेल के लिए प्रतिक्रिया पत्राचार दिखाता है, जहां आयाम संभावना खेल सहयोग करते हैं, नैश संतुलन निचले बाएं कोने में है जहां कोई भी खिलाड़ी सहयोग नहीं करता है। यदि आयामों को संभाव्यता खेल दोष के रूप में परिभाषित किया गया था, तो दोनों खिलाड़ियों का सर्वश्रेष्ठ प्रतिक्रिया वक्र सभी प्रतिद्वंद्वी रणनीति संभावनाओं के लिए 1 होगा और प्रतिक्रिया पत्राचार शीर्ष दाएं कोने पर क्रॉस (और एक नैश संतुलन बनाएगा) होगा।
[[Image:Reaction-correspondence-dominated.jpg|150px|thumbnail|चित्रा 5. एक वर्चस्व वाली रणनीति के साथ खेल के लिए प्रतिक्रिया पत्राचार।]]प्रभुत्व वाले फलन (खेल सिद्धांत) रणनीतियों में प्रतिक्रिया पत्राचार होते हैं जो केवल एक बिंदु पर पार करते हैं, जो भुगतान सममित 2x2 फलन में या तो नीचे बाएं या शीर्ष दाएं कोने में होगा। उदाहरण के लिए, एकल-खेल प्रिजनर डाइलेमा में, सहयोगी चाल प्रतिद्वंद्वी सहयोग की किसी भी संभावना के लिए इष्टतम नहीं है। चित्रा 5 ऐसे खेल के लिए प्रतिक्रिया पत्राचार दिखाता है, जहां आयाम संभावना खेल सहयोग करते हैं, नैश संतुलन निचले बाएं कोने में है जहां कोई भी खिलाड़ी सहयोग नहीं करता है। यदि आयामों को संभाव्यता खेल दोष के रूप में परिभाषित किया गया था, तो दोनों खिलाड़ियों का सर्वश्रेष्ठ प्रतिक्रिया वक्र सभी प्रतिद्वंद्वी रणनीति संभावनाओं के लिए 1 होगा और प्रतिक्रिया पत्राचार शीर्ष दाएं कोने पर तिर्यक् (और एक नैश संतुलन बनाएगा) होगा।


=== अन्य (अदायगी असममित) खेल ===
=== अन्य (अदायगी असममित) खेल ===
भुगतान विषमता के साथ 2x2 फलन में प्रतिक्रिया पत्राचार आकृतियों की एक विस्तृत श्रृंखला संभव है। प्रत्येक खिलाड़ी के लिए चित्र 6 में दिखाए गए पांच संभावित सर्वश्रेष्ठ प्रतिक्रिया आकार हैं। बाएं से दाएं ये हैं: वर्चस्व वाली रणनीति (हमेशा 2 खेलें), हावी रणनीति (हमेशा 1 खेलें), बढ़ती (रणनीति 2 खेलें यदि संभावना है कि अन्य खिलाड़ी प्ले 2 थ्रेसहोल्ड से ऊपर है), गिरना (प्ले स्ट्रैटेजी 1 यदि संभावना है कि अन्य खिलाड़ी 2 खेलता है तो थ्रेशोल्ड से ऊपर है), और उदासीन (दोनों रणनीतियाँ सभी परिस्थितियों में समान रूप से अच्छी तरह से खेलती हैं)।
भुगतान विषमता के साथ 2x2 फलन में प्रतिक्रिया पत्राचार आकृतियों की एक विस्तृत श्रृंखला संभव है। प्रत्येक खिलाड़ी के लिए चित्र 6 में दिखाए गए पांच संभावित सर्वश्रेष्ठ प्रतिक्रिया आकार हैं। बाएं से दाएं ये हैं: वर्चस्व वाली रणनीति (हमेशा 2 खेलें), हावी रणनीति (हमेशा 1 खेलें), बढ़ती (रणनीति 2 खेलें यदि संभावना है कि अन्य खिलाड़ी खेल 2 प्रभावसीमा से ऊपर है), गिरना (खेल योजना 1 यदि संभावना है कि अन्य खिलाड़ी 2 खेलता है तो प्रभावसीमा से ऊपर है), और उदासीन (दोनों रणनीतियाँ सभी परिस्थितियों में समान रूप से अच्छी तरह से खेलती हैं)।


[[Image:Five-Reaction-Correspondences.jpg|700px|thumbnail|center|चित्र 6 - 2x2 फलन में एक खिलाड़ी के लिए पांच संभावित प्रतिक्रिया पत्राचार।, कुल्हाड़ियों को संभावना दिखाने के लिए माना जाता है कि खिलाड़ी अपनी रणनीति 1 खेलता है। बाएं से दाएं: ए) हमेशा 2 खेलें, रणनीति 1 हावी है, बी ) हमेशा 1 खेलें, रणनीति 2 हावी है, सी) रणनीति 1 सर्वश्रेष्ठ जब प्रतिद्वंद्वी अपनी रणनीति 1 और 2 सर्वश्रेष्ठ खेलता है जब प्रतिद्वंद्वी अपनी 2 खेलता है, डी) रणनीति 1 सर्वश्रेष्ठ जब प्रतिद्वंद्वी अपनी रणनीति 2 और 2 सर्वश्रेष्ठ खेलता है जब प्रतिद्वंद्वी अपना 1 खेलता है, ई) दोनों रणनीतियाँ समान रूप से अच्छी तरह से खेलती हैं चाहे विरोधी कुछ भी खेलता हो।]]जबकि अदायगी सममित 2x2 खेल के केवल चार संभावित प्रकार हैं (जिनमें से एक तुच्छ है), प्रति खिलाड़ी पांच अलग-अलग सर्वश्रेष्ठ प्रतिक्रिया वक्र बड़ी संख्या में अदायगी असममित खेल प्रकारों की अनुमति देते हैं। इनमें से कई वास्तव में एक दूसरे से भिन्न नहीं हैं। सममित खेलों का निर्माण करने के लिए आयामों को फिर से परिभाषित किया जा सकता है (रणनीतियों 1 और 2 के विनिमय नाम)।
[[Image:Five-Reaction-Correspondences.jpg|700px|thumbnail|center|चित्र 6 - 2x2 फलन में एक खिलाड़ी के लिए पांच संभावित प्रतिक्रिया पत्राचार।, अक्ष को संभावना दिखाने के लिए माना जाता है कि खिलाड़ी अपनी रणनीति 1 खेलता है। बाएं से दाएं: ए) हमेशा 2 खेलें, रणनीति 1 हावी है, बी ) हमेशा 1 खेल, रणनीति 2 हावी है) रणनीति 1 सर्वश्रेष्ठ जब प्रतिद्वंद्वी अपनी रणनीति 1 और 2 सर्वश्रेष्ठ खेलता है जब प्रतिद्वंद्वी अपनी 2 खेलता है) रणनीति 1 सर्वश्रेष्ठ जब प्रतिद्वंद्वी अपनी रणनीति 2 और 2 सर्वश्रेष्ठ खेलता है जब प्रतिद्वंद्वी अपना 1, e खेलता है) दोनों रणनीतियाँ समान रूप से अच्छी तरह से खेलती हैं चाहे विरोधी कुछ भी खेलता हो।]]जबकि अदायगी सममित 2x2 खेल के केवल चार संभावित प्रकार हैं (जिनमें से एक तुच्छ है), प्रति खिलाड़ी पांच अलग-अलग सर्वश्रेष्ठ प्रतिक्रिया वक्र बड़ी संख्या में अदायगी असममित खेल प्रकारों की अनुमति देते हैं। इनमें से कई वास्तव में एक दूसरे से भिन्न नहीं हैं। सममित खेलों का निर्माण करने के लिए आयामों को फिर से परिभाषित किया जा सकता है (रणनीति 1 और 2 के विनिमय नाम)।


=== मिलान पैसा ===
=== मैचिंग पेनी ===
अदायगी विषमता के साथ एक प्रसिद्ध फलन मैचिंग पेनीज़ फलन है। इस खेल में एक खिलाड़ी, पंक्ति खिलाड़ी - y आयाम पर रेखांकन - जीतता है यदि खिलाड़ी समन्वय करते हैं (दोनों सिर चुनते हैं या दोनों पूंछ चुनते हैं) जबकि अन्य खिलाड़ी, स्तंभ खिलाड़ी - एक्स-अक्ष में दिखाया गया है - जीतता है अगर खिलाड़ी असमंजस। प्लेयर वाई की प्रतिक्रिया पत्राचार एक समन्वय खेल का है, जबकि खिलाड़ी एक्स का एक डिसऑर्डिनेशन फलन है। एकमात्र नैश संतुलन मिश्रित रणनीतियों का संयोजन है जहां दोनों खिलाड़ी स्वतंत्र रूप से 0.5 प्रत्येक की प्रायिकता के साथ हेड और टेल चुनते हैं।
अदायगी विषमता के साथ एक प्रसिद्ध फलन मैचिंग पेनी फलन है। इस खेल में एक खिलाड़ी, पंक्ति खिलाड़ी - y आयाम पर रेखांकन - जीतता है यदि खिलाड़ी समन्वय करते हैं (दोनों सिर चुनते हैं या दोनों पूंछ चुनते हैं) जबकि अन्य खिलाड़ी, स्तंभ खिलाड़ी - एक्स-अक्ष में दिखाया गया है - जीतता है अगर खिलाड़ी असमंजस। खेलयर वाई की प्रतिक्रिया पत्राचार एक समन्वय खेल का है, जबकि खिलाड़ी एक्स का एक डिसऑर्डिनेशन फलन है। एकमात्र नैश संतुलन मिश्रित रणनीतियों का संयोजन है जहां दोनों खिलाड़ी स्वतंत्र रूप से 0.5 प्रत्येक की प्रायिकता के साथ हेड और टेल चुनते हैं।


[[Image:Reaction-correspondence-matching-pennies.jpg|500px|thumbnail|center|चित्र 7. [[ मिलान पैसे ]] फलन में खिलाड़ियों के लिए प्रतिक्रिया पत्राचार। सबसे बाईं ओर की मैपिंग समन्वयक खिलाड़ी के लिए है, बीच की मैपिंग डिसऑर्डिनेटिंग प्लेयर के लिए है। एकमात्र नैश संतुलन दाहिने हाथ के लेखाचित्र में दिखाया गया है।]]
[[Image:Reaction-correspondence-matching-pennies.jpg|500px|thumbnail|center|चित्र 7. [[ मिलान पैसे | मैचिंग पेनी]] फलन में खिलाड़ियों के लिए प्रतिक्रिया पत्राचार। सबसे बाईं ओर की प्रतिचित्रण समन्वयक खिलाड़ी के लिए है, बीच की प्रतिचित्रण डिसऑर्डिनेटिंग खिलाड़ी के लिए है। एकमात्र नैश संतुलन दाहिने हाथ के लेखाचित्र में दिखाया गया है।]]


== डायनेमिक्स ==
== गतिविज्ञान ==
[[विकासवादी खेल सिद्धांत]] में, सर्वोत्तम प्रतिक्रिया गतिशीलता नियमों को अद्यतन करने वाली रणनीति के एक वर्ग का प्रतिनिधित्व करती है, जहां अगले दौर में खिलाड़ियों की रणनीति जनसंख्या के कुछ सबसम्मुच्चय के लिए उनकी सर्वोत्तम प्रतिक्रियाओं द्वारा निर्धारित की जाती है। कुछ उदाहरणों में शामिल हैं:
[[विकासवादी खेल सिद्धांत]] में, सर्वोत्तम प्रतिक्रिया गतिशीलता नियमों को अद्यतन करने वाली रणनीति के एक वर्ग का प्रतिनिधित्व करती है, जहां अगले पड़ाव में खिलाड़ियों की रणनीति जनसंख्या के कुछ उपसमुच्चय के लिए उनकी सर्वोत्तम प्रतिक्रियाओं द्वारा निर्धारित की जाती है। कुछ उदाहरणों में निम्न सम्मिलित हैं:
*एक बड़े जनसंख्या मॉडल में, खिलाड़ी संभावित रूप से अपनी अगली कार्रवाई का चयन करते हैं, जिसके आधार पर रणनीति समग्र रूप से जनसंख्या के लिए सर्वोत्तम प्रतिक्रिया होती है।
*एक बड़े जनसंख्या प्रतिरूप में, खिलाड़ी संभावित रूप से अपनी अगली कार्रवाई का चयन करते हैं, जिसके आधार पर रणनीति समग्र रूप से जनसंख्या के लिए सर्वोत्तम प्रतिक्रिया होती है।
* एक स्थानिक मॉडल में, खिलाड़ी (अगले दौर में) उस क्रिया को चुनते हैं जो उनके सभी पड़ोसियों के लिए सबसे अच्छी प्रतिक्रिया है {{harv|Ellison|1993}}.
* एक स्थानिक प्रतिरूप में, खिलाड़ी (अगले पड़ाव में) उस क्रिया को चुनते हैं जो उनके सभी प्रतिवैस {{harv|एलिसन|1993}} के लिए सबसे अच्छी प्रतिक्रिया है।
महत्वपूर्ण रूप से, इन मॉडलों में खिलाड़ी केवल अगले दौर में सर्वश्रेष्ठ प्रतिक्रिया का चयन करते हैं जो उन्हें अगले दौर में उच्चतम भुगतान देगा। खिलाड़ी इस प्रभाव पर विचार नहीं करते हैं कि अगले दौर में रणनीति चुनने से खेल में भविष्य के खेल पर असर पड़ेगा। इस बाधा के परिणामस्वरूप गतिशील नियम को अक्सर 'मायोपिक सर्वश्रेष्ठ प्रतिक्रिया' कहा जाता है।
महत्वपूर्ण रूप से, इन प्रतिरूपों में खिलाड़ी केवल अगले पड़ाव में सर्वश्रेष्ठ प्रतिक्रिया का चयन करते हैं जो उन्हें अगले पड़ाव में उच्चतम भुगतान देगा। खिलाड़ी इस प्रभाव पर विचार नहीं करते हैं कि अगले पड़ाव में रणनीति चुनने से खेल में भविष्य के खेल पर प्रभाव पड़ेगा। इस बाधा के परिणामस्वरूप गतिशील नियम को प्रायः अदूरदर्शी सर्वश्रेष्ठ प्रतिक्रिया कहा जाता है।


[[संभावित खेल]]ों के सिद्धांत में, 'सर्वश्रेष्ठ प्रतिक्रिया गतिकी' प्रत्येक खिलाड़ी के लिए सर्वश्रेष्ठ प्रतिक्रिया की गणना करके नैश संतुलन खोजने का एक तरीका है:
[[संभावित खेल]]ों के सिद्धांत में, 'सर्वश्रेष्ठ प्रतिक्रिया गतिकी' प्रत्येक खिलाड़ी के लिए सर्वश्रेष्ठ प्रतिक्रिया की गणना करके नैश संतुलन खोजने का एक तरीका है:


'प्रमेय:' किसी भी परिमित संभावित खेल में, सर्वोत्तम प्रतिक्रिया गतिकी हमेशा नैश संतुलन में परिवर्तित होती है।
'प्रमेय:' किसी भी परिमित संभावित खेल में, सर्वोत्तम प्रतिक्रिया गतिकी हमेशा नैश संतुलन में परिवर्तित होती है।
({{harvnb|Nisan|Roughgarden|Tardos|Vazirani|2007}}, खंड 19.3.2)


== चिकना ==
({{harvnb|निसान|रफगार्डन|टार्डोस|वजीरानी|2007}}, खंड 19.3.2)
[[Image:SmoothBRColor.png|thumb|150px|right|चित्रा 8. एक बीआर पत्राचार (काला) और चिकना बीआर फलन (रंग)]]सर्वोत्तम प्रतिक्रिया पत्राचारों के बजाय, कुछ मॉडल चिकनी सर्वोत्तम प्रतिक्रिया कार्यों का उपयोग करते हैं। ये कार्य सर्वोत्तम प्रतिक्रिया पत्राचार के समान हैं, सिवाय इसके कि फलन एक शुद्ध रणनीति से दूसरे में नहीं जाता है। अंतर को चित्र 8 में दिखाया गया है, जहां काला सर्वोत्तम प्रतिक्रिया पत्राचार का प्रतिनिधित्व करता है और अन्य रंग प्रत्येक अलग-अलग चिकने सर्वोत्तम प्रतिक्रिया कार्यों का प्रतिनिधित्व करते हैं। मानक सर्वोत्तम प्रतिक्रिया पत्राचारों में, एक कार्रवाई के लिए मामूली लाभ के परिणामस्वरूप व्यक्ति उस कार्रवाई को संभाव्यता 1 के साथ खेलता है। चिकनी सर्वोत्तम प्रतिक्रिया में दो क्रियाओं के बीच का अंतर घटता है, व्यक्ति का खेल 50:50 तक पहुंचता है।


ऐसे कई कार्य हैं जो चिकनी सर्वोत्तम प्रतिक्रिया कार्यों का प्रतिनिधित्व करते हैं। यहां दिखाए गए फलन निम्न फलन पर कई भिन्नताएं हैं:
== समकृत ==
[[Image:SmoothBRColor.png|thumb|150px|right|चित्रा 8. एक बीआर पत्राचार (काला) और समकृत बीआर फलन (रंग)]]सर्वोत्तम प्रतिक्रिया पत्राचारों के स्थान पर, कुछ प्रतिरूप समकृत सर्वोत्तम प्रतिक्रिया कार्यों का उपयोग करते हैं। ये कार्य सर्वोत्तम प्रतिक्रिया पत्राचार के समान हैं, सिवाय इसके कि फलन एक शुद्ध रणनीति से दूसरे में नहीं जाता है। अंतर को चित्र 8 में दिखाया गया है, जहां काला सर्वोत्तम प्रतिक्रिया पत्राचार का प्रतिनिधित्व करता है और अन्य रंग प्रत्येक अलग-अलग चिकने सर्वोत्तम प्रतिक्रिया कार्यों का प्रतिनिधित्व करते हैं। मानक सर्वोत्तम प्रतिक्रिया पत्राचारों में, एक कार्रवाई के लिए सामान्य लाभ के परिणामस्वरूप व्यक्ति उस कार्रवाई को संभाव्यता 1 के साथ खेलता है। समकृत सर्वोत्तम प्रतिक्रिया में दो क्रियाओं के बीच का अंतर घटता है, व्यक्ति का खेल 50:50 तक पहुंचता है।
 
ऐसे कई कार्य हैं जो समकृत सर्वोत्तम प्रतिक्रिया कार्यों का प्रतिनिधित्व करते हैं। यहां दिखाए गए फलन निम्न फलन पर कई भिन्नताएं हैं:


:<math>\frac{e^{E(1)/\gamma}}{e^{E(1)/\gamma} + e^{E(2)/\gamma}}</math>
:<math>\frac{e^{E(1)/\gamma}}{e^{E(1)/\gamma} + e^{E(2)/\gamma}}</math>
कहाँ <math>E(x)</math> कार्रवाई के अपेक्षित भुगतान का प्रतिनिधित्व करता है <math>x</math>, और <math>\gamma</math> एक पैरामीटर है जो उस डिग्री को निर्धारित करता है जिस पर फलन सही सर्वोत्तम प्रतिक्रिया से विचलित होता है (एक बड़ा <math>\gamma</math> तात्पर्य यह है कि खिलाड़ी के 'गलतियाँ' करने की अधिक संभावना है)।
जहाँ <math>E(x)</math> प्रक्रिया <math>x</math> के अपेक्षित भुगतान का प्रतिनिधित्व करता है, और <math>\gamma</math> एक मापदण्ड है जो उस घात को निर्धारित करता है जिस पर फलन सही सर्वोत्तम प्रतिक्रिया से विचलित होता है (एक बड़ा <math>\gamma</math> तात्पर्य यह है कि खिलाड़ी के 'गलतियाँ' करने की अधिक संभावना है)।


चिकनी सर्वोत्तम प्रतिक्रिया का उपयोग करने के कई फायदे हैं, सैद्धांतिक और अनुभवजन्य दोनों। सबसे पहले, यह मनोवैज्ञानिक प्रयोगों के अनुरूप है; जब व्यक्ति मोटे तौर पर दो कार्यों के बीच उदासीन होते हैं तो ऐसा प्रतीत होता है कि वे यादृच्छिक रूप से अधिक या कम चुनते हैं। दूसरा, व्यक्तियों का खेल सभी मामलों में विशिष्ट रूप से निर्धारित होता है, क्योंकि यह 1:1 पत्राचार है जो एक कार्य (गणित) भी है। अंत में, कुछ सीखने के नियमों के साथ सहज सर्वोत्तम प्रतिक्रिया का उपयोग करने से (जैसा कि काल्पनिक नाटक में होता है) परिणामस्वरूप खिलाड़ी मिश्रित रणनीति खेलना सीख सकते हैं [[नैश संतुलन]] {{harv|Fudenberg|Levine|1998}}.
समकृत सर्वोत्तम प्रतिक्रिया का उपयोग करने के कई सैद्धांतिक और अनुभवजन्य दोनों लाभ हैं। सबसे पहले, यह मनोवैज्ञानिक प्रयोगों के अनुरूप है; जब व्यक्ति स्थूलतः दो कार्यों के बीच उदासीन होते हैं तो ऐसा प्रतीत होता है कि वे यादृच्छिक रूप से अधिक या कम चुनते हैं। दूसरा, व्यक्तियों का खेल सभी स्तिथियों में विशिष्ट रूप से निर्धारित होता है, क्योंकि यह 1:1 पत्राचार है जो एक कार्य (गणित) भी है। अंत में, कुछ सीखने के नियमों के साथ सहज सर्वोत्तम प्रतिक्रिया का उपयोग करने से (जैसा कि काल्पनिक नाटक में होता है) परिणामस्वरूप खिलाड़ी मिश्रित रणनीति [[नैश संतुलन]] {{harv|फुडेनबर्ग|लेविन|1998}} खेलना सीख सकते हैं .


== यह भी देखें ==
== यह भी देखें ==

Revision as of 13:57, 12 June 2023

खेल सिद्धांत में, सबसे अच्छी प्रतिक्रिया रणनीति (खेल सिद्धांत) (या रणनीति) है जो एक खिलाड़ी के लिए सबसे अनुकूल परिणाम (खेल सिद्धांत) उत्पन्न करती है, अन्य खिलाड़ियों की रणनीतियों को दिए गए अनुसार (फुडेनबर्ग & तिरोल 1991, p. 29; गिबन्स 1992, pp. 33–49)। जॉन फोर्ब्स नैश के लिए एक सर्वोत्तम प्रतिक्रिया की अवधारणा केंद्रीय है। जॉन नैश का सबसे प्रसिद्ध योगदान, नैश संतुलन, वह बिंदु जिस पर खेल में प्रत्येक खिलाड़ी की रणनीतियाँ (नैश 1950) ने अन्य खिलाड़ियों के लिए सर्वश्रेष्ठ प्रतिक्रिया (या सर्वश्रेष्ठ प्रतिक्रियाओं में से एक) का चयन किया है।

पत्राचार

चित्रा 1. स्टैग हंट फलन में खिलाड़ी वाई के लिए प्रतिक्रिया पत्राचार।

प्रतिक्रिया 1: 1 पत्राचार, जिसे सर्वश्रेष्ठ प्रतिक्रिया पत्राचार के रूप में भी जाना जाता है, का उपयोग मिश्रित रणनीति नैश संतुलन (फुडेनबर्ग & तिरोल 1991, खंड 1.3.बी; ओसबोर्न & रुबिनस्टीन 1994, खंड 2.2) के अस्तित्व के प्रमाण में किया जाता है। प्रतिक्रिया पत्राचार प्रतिक्रिया कार्य नहीं हैं क्योंकि फलन (गणित) में प्रति तर्क केवल एक मान होना चाहिए, और कई प्रतिक्रिया पत्राचार अपरिभाषित होंगे, अर्थात, कुछ प्रतिद्वंद्वी रणनीति पसंद के लिए एक लंबवत रेखा है। एक पत्राचार खिलाड़ी की रणनीतियों के सम्मुच्चय में प्रतिद्वंद्वी रणनीति वर्णन के सम्मुच्चय से प्रत्येक खिलाड़ी के लिए बनाता है। तो, प्रतिद्वंद्वी की रणनीतियों के किसी दिए गए सम्मुच्चय के लिए , खिलाड़ी की सर्वश्रेष्ठ प्रतिक्रियाओं का प्रतिनिधित्व करता है।

चित्रा 2. स्टैग हंट फलन में खिलाड़ी एक्स के लिए प्रतिक्रिया पत्राचार।

सभी 2x2 प्रसामान्य रूप खेल के लिए प्रतिक्रिया पत्राचार एक इकाई वर्ग योजना स्थल में प्रत्येक खिलाड़ी के लिए एक रेखा (गणित) के साथ तैयार किया जा सकता है। आंकड़े 1 से 3 लेखाचित्र स्टैग हंट खेल के लिए सर्वोत्तम प्रतिक्रिया पत्राचार है। चित्र 1 में बिंदीदार रेखा अनुकूलन (गणित) के प्रतिनिधित्व और संभाव्यता मूल्यों की व्याख्या दिखाती है कि खिलाड़ी वाई 'स्टैग' खेलता है, संभावना के एक फलन के रूप में खिलाड़ी X स्टैग खेलता है (दिखाया गया है)। चित्र 2 में बिंदीदार रेखा इष्टतम संभावना दिखाती है कि खिलाड़ी X 'स्टैग' (x-अक्ष में दिखाया गया है) खेलता है, संभावना के एक फलन के रूप में कि खिलाड़ी Y स्टैग खेलता है (y-अक्ष में दिखाया गया है)। ध्यान दें कि चित्र 2 सामान्य रूप से उपयोग किए जाने वाले अक्षों के विपरीत अक्षों में स्वतंत्र और प्रतिक्रिया चरों को आलेख करता है, ताकि इसे पिछले लेखाचित्र पर आरोपित किया जा सके, जहां दो खिलाड़ियों की सर्वश्रेष्ठ प्रतिक्रियाएं चित्रा 3 में सहमत हों नैश संतुलन को उन बिंदुओं पर दिखाने के लिए आलेख करता है।

तीन विशिष्ट प्रतिक्रिया पत्राचार आकार हैं, तीन प्रकार के सममित फलन 2x2 फलन में से प्रत्येक के लिए एक: समन्वय फलन, डिसऑर्डिनेशन फलन और वर्चस्व वाली रणनीतियों वाले फलन (छोटा चौथा स्तिथि जिसमें प्रतिदान हमेशा दोनों चालों के बराबर होती है, वास्तव में एक खेल सैद्धांतिक समस्या नहीं है)। कोई भी प्रतिदान सममित 2x2 खेल इन तीन रूपों में से एक लेगा।

समन्वय खेल

जिन खेलों में खिलाड़ी उच्चतम स्कोर करते हैं, जब दोनों खिलाड़ी एक ही रणनीति चुनते हैं, जैसे कि स्टैग हंट और बैटल ऑफ द सक्सेस (खेल सिद्धांत), समन्वय खेल कहलाते हैं। इन खेलों में चित्रा 3 के समान आकार के प्रतिक्रिया पत्राचार होते हैं, जहां नीचे बाएं कोने में एक नैश संतुलन होता है, दूसरा शीर्ष दाएं कोने में होता है, और अन्य दो के बीच विकर्ण के साथ कहीं मिश्रण नैश होता है।

विरोधी समन्वय खेल

चित्रा 3. स्टैग हंट फलन में दोनों खिलाड़ियों के लिए प्रतिक्रिया पत्राचार। नैश संतुलन बिंदुओं के साथ दिखाया गया है, जहां दो खिलाड़ी के पत्राचार सहमत हैं, यानी क्रॉस

गेम ऑफ़ चिकन और हॉक-धोव खेल जैसे खेल जिसमें खिलाड़ी विपरीत रणनीतियों का चयन करते समय उच्चतम अंक प्राप्त करते हैं, यानी, असंतोष, समन्वय-विरोधी खेल कहलाते हैं। उनके पास प्रतिक्रिया पत्राचार (चित्र 4) है जो समन्वय खेलों के विपरीत दिशा में पार करते हैं, तीन नैश संतुलन के साथ, शीर्ष बाएं और निचले दाएं कोनों में से प्रत्येक में, जहां एक खिलाड़ी एक रणनीति चुनता है, दूसरा खिलाड़ी विपरीत रणनीति चुनता है। तीसरा नैश संतुलन एक मिश्रित रणनीति है जो नीचे बाएँ से ऊपरी दाएँ कोने तक विकर्ण के साथ स्थित है। यदि खिलाड़ियों को नहीं पता है कि उनमें से कौन सा है, तो मिश्रित नैश एक क्रमिक रूप से स्थिर रणनीति (ईएसएस) है, क्योंकि खेल नीचे बाईं ओर ऊपर दाईं ओर तिरछी रेखा तक ही सीमित है। अन्यथा कहा जाता है कि एक असंबद्ध विषमता अस्तित्व में है, और कोना नैश संतुलन ईएसएस हैं।

चित्र 4. हॉक-धोव खेल में दोनों खिलाड़ियों के लिए प्रतिक्रिया पत्राचार। नैश संतुलन बिंदुओं के साथ दिखाया गया है, जहां दो खिलाड़ी के पत्राचार सहमत हैं, यानी तिर्यक्

प्रभुत्व वाली रणनीतियों वाले खेल

चित्रा 5. एक वर्चस्व वाली रणनीति के साथ खेल के लिए प्रतिक्रिया पत्राचार।

प्रभुत्व वाले फलन (खेल सिद्धांत) रणनीतियों में प्रतिक्रिया पत्राचार होते हैं जो केवल एक बिंदु पर पार करते हैं, जो भुगतान सममित 2x2 फलन में या तो नीचे बाएं या शीर्ष दाएं कोने में होगा। उदाहरण के लिए, एकल-खेल प्रिजनर डाइलेमा में, सहयोगी चाल प्रतिद्वंद्वी सहयोग की किसी भी संभावना के लिए इष्टतम नहीं है। चित्रा 5 ऐसे खेल के लिए प्रतिक्रिया पत्राचार दिखाता है, जहां आयाम संभावना खेल सहयोग करते हैं, नैश संतुलन निचले बाएं कोने में है जहां कोई भी खिलाड़ी सहयोग नहीं करता है। यदि आयामों को संभाव्यता खेल दोष के रूप में परिभाषित किया गया था, तो दोनों खिलाड़ियों का सर्वश्रेष्ठ प्रतिक्रिया वक्र सभी प्रतिद्वंद्वी रणनीति संभावनाओं के लिए 1 होगा और प्रतिक्रिया पत्राचार शीर्ष दाएं कोने पर तिर्यक् (और एक नैश संतुलन बनाएगा) होगा।

अन्य (अदायगी असममित) खेल

भुगतान विषमता के साथ 2x2 फलन में प्रतिक्रिया पत्राचार आकृतियों की एक विस्तृत श्रृंखला संभव है। प्रत्येक खिलाड़ी के लिए चित्र 6 में दिखाए गए पांच संभावित सर्वश्रेष्ठ प्रतिक्रिया आकार हैं। बाएं से दाएं ये हैं: वर्चस्व वाली रणनीति (हमेशा 2 खेलें), हावी रणनीति (हमेशा 1 खेलें), बढ़ती (रणनीति 2 खेलें यदि संभावना है कि अन्य खिलाड़ी खेल 2 प्रभावसीमा से ऊपर है), गिरना (खेल योजना 1 यदि संभावना है कि अन्य खिलाड़ी 2 खेलता है तो प्रभावसीमा से ऊपर है), और उदासीन (दोनों रणनीतियाँ सभी परिस्थितियों में समान रूप से अच्छी तरह से खेलती हैं)।

चित्र 6 - 2x2 फलन में एक खिलाड़ी के लिए पांच संभावित प्रतिक्रिया पत्राचार।, अक्ष को संभावना दिखाने के लिए माना जाता है कि खिलाड़ी अपनी रणनीति 1 खेलता है। बाएं से दाएं: ए) हमेशा 2 खेलें, रणनीति 1 हावी है, बी ) हमेशा 1 खेल, रणनीति 2 हावी है) रणनीति 1 सर्वश्रेष्ठ जब प्रतिद्वंद्वी अपनी रणनीति 1 और 2 सर्वश्रेष्ठ खेलता है जब प्रतिद्वंद्वी अपनी 2 खेलता है) रणनीति 1 सर्वश्रेष्ठ जब प्रतिद्वंद्वी अपनी रणनीति 2 और 2 सर्वश्रेष्ठ खेलता है जब प्रतिद्वंद्वी अपना 1, e खेलता है) दोनों रणनीतियाँ समान रूप से अच्छी तरह से खेलती हैं चाहे विरोधी कुछ भी खेलता हो।

जबकि अदायगी सममित 2x2 खेल के केवल चार संभावित प्रकार हैं (जिनमें से एक तुच्छ है), प्रति खिलाड़ी पांच अलग-अलग सर्वश्रेष्ठ प्रतिक्रिया वक्र बड़ी संख्या में अदायगी असममित खेल प्रकारों की अनुमति देते हैं। इनमें से कई वास्तव में एक दूसरे से भिन्न नहीं हैं। सममित खेलों का निर्माण करने के लिए आयामों को फिर से परिभाषित किया जा सकता है (रणनीति 1 और 2 के विनिमय नाम)।

मैचिंग पेनी

अदायगी विषमता के साथ एक प्रसिद्ध फलन मैचिंग पेनी फलन है। इस खेल में एक खिलाड़ी, पंक्ति खिलाड़ी - y आयाम पर रेखांकन - जीतता है यदि खिलाड़ी समन्वय करते हैं (दोनों सिर चुनते हैं या दोनों पूंछ चुनते हैं) जबकि अन्य खिलाड़ी, स्तंभ खिलाड़ी - एक्स-अक्ष में दिखाया गया है - जीतता है अगर खिलाड़ी असमंजस। खेलयर वाई की प्रतिक्रिया पत्राचार एक समन्वय खेल का है, जबकि खिलाड़ी एक्स का एक डिसऑर्डिनेशन फलन है। एकमात्र नैश संतुलन मिश्रित रणनीतियों का संयोजन है जहां दोनों खिलाड़ी स्वतंत्र रूप से 0.5 प्रत्येक की प्रायिकता के साथ हेड और टेल चुनते हैं।

चित्र 7. मैचिंग पेनी फलन में खिलाड़ियों के लिए प्रतिक्रिया पत्राचार। सबसे बाईं ओर की प्रतिचित्रण समन्वयक खिलाड़ी के लिए है, बीच की प्रतिचित्रण डिसऑर्डिनेटिंग खिलाड़ी के लिए है। एकमात्र नैश संतुलन दाहिने हाथ के लेखाचित्र में दिखाया गया है।

गतिविज्ञान

विकासवादी खेल सिद्धांत में, सर्वोत्तम प्रतिक्रिया गतिशीलता नियमों को अद्यतन करने वाली रणनीति के एक वर्ग का प्रतिनिधित्व करती है, जहां अगले पड़ाव में खिलाड़ियों की रणनीति जनसंख्या के कुछ उपसमुच्चय के लिए उनकी सर्वोत्तम प्रतिक्रियाओं द्वारा निर्धारित की जाती है। कुछ उदाहरणों में निम्न सम्मिलित हैं:

  • एक बड़े जनसंख्या प्रतिरूप में, खिलाड़ी संभावित रूप से अपनी अगली कार्रवाई का चयन करते हैं, जिसके आधार पर रणनीति समग्र रूप से जनसंख्या के लिए सर्वोत्तम प्रतिक्रिया होती है।
  • एक स्थानिक प्रतिरूप में, खिलाड़ी (अगले पड़ाव में) उस क्रिया को चुनते हैं जो उनके सभी प्रतिवैस (एलिसन 1993) के लिए सबसे अच्छी प्रतिक्रिया है।

महत्वपूर्ण रूप से, इन प्रतिरूपों में खिलाड़ी केवल अगले पड़ाव में सर्वश्रेष्ठ प्रतिक्रिया का चयन करते हैं जो उन्हें अगले पड़ाव में उच्चतम भुगतान देगा। खिलाड़ी इस प्रभाव पर विचार नहीं करते हैं कि अगले पड़ाव में रणनीति चुनने से खेल में भविष्य के खेल पर प्रभाव पड़ेगा। इस बाधा के परिणामस्वरूप गतिशील नियम को प्रायः अदूरदर्शी सर्वश्रेष्ठ प्रतिक्रिया कहा जाता है।

संभावित खेलों के सिद्धांत में, 'सर्वश्रेष्ठ प्रतिक्रिया गतिकी' प्रत्येक खिलाड़ी के लिए सर्वश्रेष्ठ प्रतिक्रिया की गणना करके नैश संतुलन खोजने का एक तरीका है:

'प्रमेय:' किसी भी परिमित संभावित खेल में, सर्वोत्तम प्रतिक्रिया गतिकी हमेशा नैश संतुलन में परिवर्तित होती है।

(निसान et al. 2007, खंड 19.3.2)

समकृत

चित्रा 8. एक बीआर पत्राचार (काला) और समकृत बीआर फलन (रंग)

सर्वोत्तम प्रतिक्रिया पत्राचारों के स्थान पर, कुछ प्रतिरूप समकृत सर्वोत्तम प्रतिक्रिया कार्यों का उपयोग करते हैं। ये कार्य सर्वोत्तम प्रतिक्रिया पत्राचार के समान हैं, सिवाय इसके कि फलन एक शुद्ध रणनीति से दूसरे में नहीं जाता है। अंतर को चित्र 8 में दिखाया गया है, जहां काला सर्वोत्तम प्रतिक्रिया पत्राचार का प्रतिनिधित्व करता है और अन्य रंग प्रत्येक अलग-अलग चिकने सर्वोत्तम प्रतिक्रिया कार्यों का प्रतिनिधित्व करते हैं। मानक सर्वोत्तम प्रतिक्रिया पत्राचारों में, एक कार्रवाई के लिए सामान्य लाभ के परिणामस्वरूप व्यक्ति उस कार्रवाई को संभाव्यता 1 के साथ खेलता है। समकृत सर्वोत्तम प्रतिक्रिया में दो क्रियाओं के बीच का अंतर घटता है, व्यक्ति का खेल 50:50 तक पहुंचता है।

ऐसे कई कार्य हैं जो समकृत सर्वोत्तम प्रतिक्रिया कार्यों का प्रतिनिधित्व करते हैं। यहां दिखाए गए फलन निम्न फलन पर कई भिन्नताएं हैं:

जहाँ प्रक्रिया के अपेक्षित भुगतान का प्रतिनिधित्व करता है, और एक मापदण्ड है जो उस घात को निर्धारित करता है जिस पर फलन सही सर्वोत्तम प्रतिक्रिया से विचलित होता है (एक बड़ा तात्पर्य यह है कि खिलाड़ी के 'गलतियाँ' करने की अधिक संभावना है)।

समकृत सर्वोत्तम प्रतिक्रिया का उपयोग करने के कई सैद्धांतिक और अनुभवजन्य दोनों लाभ हैं। सबसे पहले, यह मनोवैज्ञानिक प्रयोगों के अनुरूप है; जब व्यक्ति स्थूलतः दो कार्यों के बीच उदासीन होते हैं तो ऐसा प्रतीत होता है कि वे यादृच्छिक रूप से अधिक या कम चुनते हैं। दूसरा, व्यक्तियों का खेल सभी स्तिथियों में विशिष्ट रूप से निर्धारित होता है, क्योंकि यह 1:1 पत्राचार है जो एक कार्य (गणित) भी है। अंत में, कुछ सीखने के नियमों के साथ सहज सर्वोत्तम प्रतिक्रिया का उपयोग करने से (जैसा कि काल्पनिक नाटक में होता है) परिणामस्वरूप खिलाड़ी मिश्रित रणनीति नैश संतुलन (फुडेनबर्ग & लेविन 1998) खेलना सीख सकते हैं .

यह भी देखें

संदर्भ

  • Ellison, G. (1993), "Learning, Local Interaction, and Coordination" (PDF), Econometrica, 61 (5): 1047–1071, doi:10.2307/2951493, JSTOR 2951493
  • Fudenberg, D.; Levine, David K. (1998), The Theory of Learning in Games, Cambridge MA: MIT Press
  • Fudenberg, Drew; Tirole, Jean (1991). Game theory. Cambridge, Massachusetts: MIT Press. ISBN 9780262061414. Book preview.
  • Gibbons, R. (1992), A primer in game theory, Harvester-Wheatsheaf, S2CID 10248389
  • Nash, John F. (1950), "Equilibrium points in n-person games", Proceedings of the National Academy of Sciences of the United States of America, 36 (1): 48–49, Bibcode:1950PNAS...36...48N, doi:10.1073/pnas.36.1.48, PMC 1063129, PMID 16588946
  • Osborne, M.J.; Rubinstein, Ariel (1994), A course in game theory, Cambridge MA: MIT Press
  • Young, H.P. (2005), Strategic Learning and Its Limits, Oxford University Press
  • Nisan, N.; Roughgarden, T.; Tardos, É.; Vazirani, V.V. (2007), Algorithmic Game Theory (PDF), New York: Cambridge University Press